LLM 어플리케이션을 위한 Chunking Strategies
청킹은 텍스트를 작은 세그먼트로 나누는 과정으로, LLM 어플리케이션에서 중요한 최적화 기술입니다. 다양한 청킹 방법들이 있으며, 각 방법은 특정 상황에 적합할 수 있으며, 고정 크기 청킹, 재귀 청킹, 특수 청킹 등이 포함됩니다. 최적의 청킹 크기와 방법을 결정하려면 데이터 전처리, 청킹 크기 범위 선택, 그리고 각 청킹 크기의 성능 평가와 같은 여러 단계를 거쳐야 합니다.
청킹은 텍스트를 작은 세그먼트로 나누는 과정으로, LLM 어플리케이션에서 중요한 최적화 기술입니다. 다양한 청킹 방법들이 있으며, 각 방법은 특정 상황에 적합할 수 있으며, 고정 크기 청킹, 재귀 청킹, 특수 청킹 등이 포함됩니다. 최적의 청킹 크기와 방법을 결정하려면 데이터 전처리, 청킹 크기 범위 선택, 그리고 각 청킹 크기의 성능 평가와 같은 여러 단계를 거쳐야 합니다.
1. 데이터의 홍수 속에서 길을 찾다 현대의 기업이나 개인은 매일 엄청난 양의 데이터를 마주합니다. 매출 기록, 고객 행동 로그, 설문조사 결과… 엑셀 파일만 수십 개가 쌓이곤 하죠. 예전 같으면 “이걸 언제 다 정리하지?”라는 막막함이 앞섰습니다. 하지만 이제는 AI 분석 도구가 이 과정을 대신해 줍니다. 2. AI와 함께하는 하루 아침에 출근하면 AI가 이렇게 말합니다. “어제 매출은…
프론트엔드 개발을 AI가 도와주는 시대, 우리는 이제 더 이상 “어떻게 만들지?”보다는 “무엇을 만들지?”에 집중하게 됩니다. 그리고 그 중심에는 바로 ‘디자인 감각’이 있습니다. 하지만 막상 디자인을 공부하려고 하면 막막하죠.“UI? UX? 타이포그래피? 컬러 시스템? 도대체 어디서부터 시작해야 하지?” 그래서 오늘은 디자인 입문자가 어디서부터 시작하면 좋을지, 제가 찾은 방법을 정리해보려고 합니다. 1. 레이아웃 이해하기 — 구조를 먼저 본다…
How to Instruction Tune Code LLMs without GPT4 Data? Meet OctoPack: A Set of AI Models for Instruction Tuning Code Large Language Models [논문] OCTOPACK: INSTRUCTION TUNING CODE LARGE LANGUAGE MODELS 큰 언어 모델(LLM)의 사용성 및 전체 성능은 지시어를 통해 제공된 다양한 언어 작업을 미세 조정함으로써 향상될 수 있다는 것이 증명되었습니다 (instruction tuning). 시각, 청각,…
ChatGPT Plus 사용자들을 위한 인기있는 플러그인 15개에 대해 소개합니다. 현재 ChatGPT Plus에는 교육, 연구, 요리, 엔터테인먼트 등 다양한 분야에서 일상 업무를 돕는 200개 이상의 플러그인이 있습니다. 이 플러그인들은 ChatGPT Plus 사용자들만 이용할 수 있습니다. *12 Plugins that Make GPT-4 Complete *15 Popular Plugins Available to ChatGPT Plus Users
1. 수직적 에이전트란? 최근 AI 기술이 급격히 발전하면서, 우리는 단순한 챗봇이나 범용적인 자동화 시스템을 넘어, 특정 도메인에 맞춤화된 AI 에이전트, 즉 **수직적 에이전트(Vertical Agents)**의 시대를 맞이하고 있다. 수직적 에이전트는 특정 산업이나 업무 분야에 특화된 AI 시스템으로, 다음과 같은 특징을 가진다. • 특정 도메인에 대한 전문 지식 보유: API, 데이터베이스, 워크플로우 등 해당 분야에서 필요로 하는…
How to Build an Intelligent QA Chatbot on your data with LLM or ChatGPT How to deploy a LLM chatbot LLM(대규모 언어 모델)에 의해 강화된 지능형 챗봇의 세계를 소개합니다. 이 글에서는 조직의 질문 응답 챗봇에 LLM을 원활하게 통합하는 방법에 대해 깊이 다루겠습니다. 고수준의 시스템 디자인 요소와 코드 구현의 세세한 부분까지 깊숙이 소개합니다. 여러분의 Postgres 데이터베이스를…
Vicuna-13B는 사용자가 공유한 대화를 통해 LLaMA 모델을 미세조정하여 개발된 오픈 소스 챗봇입니다. 초기 평가에서는 GPT-4를 기준으로 Vicuna-13B가 OpenAI ChatGPT와 Google Bard의 품질의 90% 이상을 달성하며, 다른 모델들보다 90% 이상의 경우에서 더 나은 성능을 보였습니다. Vicuna의 훈련 비용은 대략 $300입니다.