🤖
1260 in / 2698 out / 3958 total tokens
⭐ 오픈소스
DeepClaude – Claude Code Agent Loop with DeepSeek V4 Pro
Source: GitHub - aattaran/deepclaude
DeepSeek V4 Pro를 추론 엔진으로, Claude를 코드 생성기로 결합한 에이전트 루프 구현이다. 단일 모델에 의존하지 않고 각 모델의 강점을 라우팅하는 구조가 인상적이다. DeepSeek이 복잡한 논리적 추론과 계획을 담당하고, Claude가 실제 코드 생성과 문맥 이해를 처리하는 식이다.
이게 왜 중요하냐면, 결국 "AI 에이전트 = 단일 LLM 호출"이라는 초기 패러다임을 깨는 거다. 게임 서버 아키텍처에서 마이크로서비스가 각자의 역할을 나누듯, AI 에이전트도 모델 레벨에서 역할 분리가 일어나고 있다. 비용 측면에서도 DeepSeek이 추론을, Claude가 생성을 담당하면 전체 API 비용을 크게 줄일 수 있다.
실무 관점에서 보면, 이런 멀티모델 에이전트 패턴은 앞으로 표준이 될 가능성이 높다. 특히 코딩 어시스턴트나 자동화 도구 만들 때, "이 작업은 어떤 모델이 가장 잘하는가"를 먼저 고민해야 할 것이다.
TrustRAG – 프로덕션 RAG 시스템 with 체계적 평가
Source: GitHub - pouyapd/TrustRAG
RAG(검색 증강 생성) 파이프라인을 프로덕션 수준으로 구현한 오픈소스 프로젝트다. FastAPI + ChromaDB + Docker 기반에, 핵심은 CI 통합 회귀 테스트와 해석 가능한 실패 모드 분석이다.
RAG의 진짜 문제는 "돌아는 가는데 품질이 불안정"인 거다. 내가 사이드프로젝트에서 RAG 쓸 때마다 느끼는 건, 어제는 잘 대답하던 게 오늘은 이상한 답을 준다는 거다. 벡터 DB의 청크 전략, 임베딩 모델, 검색 파라미터 등 수많은 변수가 품질에 영향을 미치는데, 이걸 체계적으로 테스트하는 건 너무 귀찮다.
TrustRAG가 주목적인 이유는 바로 이 지점이다. RAG 파이프라인 변경 시 회귀 테스트를 자동으로 돌려서 품질 저하를 잡아내는 구조다. 게임 개발에서 빌드 서버가 코드 변경 시 자동으로 테스트 돌리는 것과 같은 원리다.
특히 "해석 가능한 실패 모드 분석"이 좋다. RAG가 왜 틀렸는지 - 검색이 잘못됐는지, 생성이 잘못됐는지, 청킹이 잘못됐는지 - 원인을 분리해서 보여준다. 이건 프로덕션 RAG 운영에서 가장 필요한 기능이다.
💭 분석: 에이전트 아키텍처와 RAG 품질 관리의 만남
두 프로젝트는 서로 다른 영역이지만, 하나의 흐름을 보여준다. **"AI 시스템도 이제 소프트웨어 엔지니어링의 대상"**이라는 거다.
DeepClaude는 모델 레벨의 아키텍처 최적화다. 게임 서버에서 I/O 바운드 작업과 CPU 바운드 작업을 분리하듯, AI 에이전트에서도 추론과 생성을 분리하는 것이다.
TrustRAG는 품질 관리의 체계화다. RAG 파이프라인도 이제 CI/CD 파이프라인에서 테스트되어야 한다.
2025년의 AI 개발은 "어떤 모델을 쓸까"가 아니라 "어떻게 구조화하고 품질을 보증할까"로 움직이고 있다.