AI 업데이트: llm CLI 0.31과 프로덕션 RAG 시스템

🤖 1254 in / 2916 out / 4170 total tokens

🔧 도구 업데이트

llm 0.31 — Simon Willison의 CLI 도구가 또 진화했다

Simon Willison이 만든 llm CLI 도구가 버전 0.31로 업데이트됐다. 이 도구는 터미널에서 직접 다양한 LLM 모델을 호출할 수 있게 해주는 파이썬 기반 CLI다. OpenAI, Anthropic, Google 등 여러 provider를 하나의 인터페이스로 묶어주는 게 핵심이다. 게임 개발하면서 빠르게 프롬프트 테스트해보고 싶을 때 유용하다. 브라우저 열고 ChatGPT 들어가는 것보다 터미널에서 바로 llm "프롬프트" 치는 게 훨씬 빠르다.

이번 업데이트의 중요성은 로컬 모델 지원 강화에 있다. Ollama나 llfile 같은 로컬 실행 환경과의 연동이 더 편해졌다. 회사 작업에서 API 키를 함부로 쓸 수 없는 상황이 많은데, 로컬 모델을 CLI에서 바로 호출할 수 있으면 보안 이슈 없이 실험이 가능하다. UE5 프로젝트에서 NPC 대화 시스템 프로토타입 만들 때, 로컬 LLM으로 빠르게 테스트하고 나중에 API 기반으로 전환하는 식의 워크플로우가 가능해진다.

경쟁 구도를 보면, llm은 aichat, fabric 같은 CLI 도구들과 경쟁한다. 하지만 Simon Willison의 철학은 "플러그인 생태계"에 있다. 커스텀 모델, 커스텀 프롬프트를 쉽게 등록할 수 있고, SQLite 기반으로 대화 기록을 관리한다. 이게 다른 도구들과의 차별점이다. 개발자 입장에서는 이 범용성이 중요하다. 한 프로젝트에서는 GPT-4를 쓰고, 다른 프로젝트에서는 Claude를 쓰고, 또 다른 작업에서는 로컬 Mistral을 쓰는 식으로 상황에 맞게 모델을 바꿀 수 있어야 한다.

실무 팁: llm은 logs.db에 모든 대화를 저장한다. 나중에 "그때 어떤 프롬프트 썼더라?" 할 때 llm logs 명령으로 전부 검색할 수 있다. 이건 생각보다 큰 장점이다. 프롬프트 엔지니어링은 반복 실험이 핵심인데, 실험 기록이 자동으로 남으면 학습 곡선이 확 올라간다.

출처: Simon Willison - llm 0.31

⭐ 오픈소스

ai-rag-system — FastAPI + LangChain 기반 프로덕션 RAG 시스템

GitHub Trending에 올라온 ai-rag-system은 FastAPI와 LangChain을 결합한 프로덕션 준비 RAG 시스템이다. RAG(Retrieval-Augmented Generation)는 LLM이 외부 지식을 검색해서 답변하는 아키텍처이다. 단순히 LLM에 질문하는 게 아니라, 먼저 벡터 데이터베이스에서 관련 문서를 찾고, 그 문서를 컨텍스트로 제공한 뒤 답변을 생성하는 방식이다.

이 레포가 주목받는 이유는 "프로덕션 준비"에 있다. 대부분의 RAG 튜토리얼은 Jupyter Notebook에서 끝난다. 근데 실제 서비스하려면 API 서버, 인증, 에러 핸들링, 로깅, 스케일링 전부 고려해야 한다. 이 레포는 FastAPI로 REST API를 구성하고, LangChain으로 RAG 파이프라인을 구축했다. 게임 서버 개발자 입장에서 보면, 이 구조는 게임 서버의 API 엔드포인트 설계와 비슷하다. 요청이 들어오면 → 전처리 → 검색 → LLM 호출 → 후처리 → 응답. 이 파이프라인을 깔끔하게 분리해놨다.

기술 배경을 조금 더 설명하면, RAG의 핵심은 "임베딩"이다. 문서를 벡터로 변환해서 저장하고, 질문도 벡터로 변환해서 유사도 검색을 한다. 이때 사용하는 게 벡터 데이터베이스다. Chroma, Pinecone, Weaviate 같은 것들이 있다. 이 레포는 어떤 벡터 DB를 쓰는지 확인이 필요하지만, 구조자체는 교체 가능하게 설계됐을 가능성이 높다. LangChain이 추상화 레이어를 제공하니까.

앞서 언급한 llm CLI와 맞물려 생각해볼 점이 있다. llm으로 빠르게 프로토타입을 테스트하고, 이런 RAG 시스템으로 프로덕션화하는 워크플로우가 가능하다. 특히 게임에서 NPC 지식 베이스를 구축할 때, 세계관 설정 문서를 RAG 시스템에 넣어두면 NPC가 일관된 세계관 안에서 대화할 수 있다. 매번 프롬프트에 전체 세계관을 넣는 건 토큰 비용이 미친다. RAG로 필요한 부분만 검색해서 넣는 게 훨씬 효율적이다.

다만 주의할 점이 있다. LangChain은 편하지만 추상화 레이어가 너무 두껍다. 디버깅할 때 어디서 문제가 났는지 추적하기 어렵다. 게임 서버 개발에서도 비슷한 경험이 있을 것이다. Unreal의 서브시스템이나 블루프린트 노드가 편하다가, 막상 문제 생기면 C++ 레벨까지 파고 들어가야 하는 것처럼. 프로덕션에서는 LangChain의 추상화를 걷어내고 직접 구현하는 게 나을 수도 있다.

출처: vradzivill99-alt/ai-rag-system

CLI로 빠르게 실험하고, RAG로 프로덕션화한다. 이 두 가지가 갖춰지면 AI 사이드프로젝트는 반은 먹고 들어간다.

llm cli rag fastapi langchain open-source simon-willison