AI 업데이트: LLM 생태계 6개월 요약과 AI 봇 스팸 대응

🤖 1227 in / 3076 out / 4303 total tokens

🔥 핫 토픽

The last six months in LLMs in five minutes

Simon Willison이 최근 6개월간 LLM 생태계 변화를 5분 만에 읽을 수 있게 정리한 글이다. 이 글이 중요한 이유는 단순히 뉴스를 나열한 게 아니라, 실제 개발자가 체감할 수 있는 변화의 맥락을 짚어주기 때문이다. 특히 GPT-4 출시 이후 모델 경쟁이 어떻게 전개됐는지, 오픈소스 모델들이 어디까지 따라왔는지를 한눈에 볼 수 있다.

게임 개발자 입장에서 LLM은 NPC 대화 시스템이나 프로시저럴 콘텐츠 생성에 활용할 수 있는 핵심 기술이다. 하지만 모델 선택 시 latency, cost, quality 사이의 트레이드오프를 고려해야 한다. 예를 들어 UE5에서 실시간 NPC 대화를 구현한다면, 500ms 이하 응답이 필요한데 GPT-4 급 모델은 비용도 비싸고 속도도 느릴 수 있다. 반면 Llama 3 같은 오픈소스 모델은 자체 호스팅으로 latency를 제어할 수 있지만, 품질에서 약간 떨어질 수 있다.

이 글에서 다루는 핵심 변화 중 하나는 '모델 가격 파괴'다. Google의 Gemini 1.5 Flash, Mistral의 모델들, 그리고 Meta의 Llama 3 시리즈가 가격 경쟁을 주도하고 있다. 개발자 입장에서는 API 비용이 서버 운영비에 직접 영향을 미치니, 이런 가격 동향은 계속 추적해야 한다. 실제로 내 사이드 프로젝트에서도 월 $50던 API 비용이 모델 교체로 $10까지 줄어든 경험이 있다.

또 하나 주목할 점은 멀티모달의 표준화다. 텍스트만 처리하던 LLM이 이제는 이미지, 오디오, 비디오까지 처리하는 게 기본이 되고 있다. 게임에서 스크린샷을 입력으로 넣어 상황을 설명하거나, 음성으로 NPC와 대화하는 기능이 점점 구현 가능해진다.

기술적 배경을 말하자면, LLM의 발전은 크게 세 축으로 나눌 수 있다: 모델 크기(작고 빠른 모델 vs 크고 똑똑한 모델), 컨텍스트 윈도우(얼마나 긴 입력을 한 번에 처리할 수 있는지), 그리고 멀티모달 지원이다. 최근 6개월은 이 세 축 모두에서 의미 있는 진전이 있었다. 특히 컨텍스트 윈도우는 8K에서 1M(백만 토큰)까지 확장되면서, 코드베이스 전체를 한 번에 입력하는 게 가능해졌다.

출처: The last six months in LLMs in five minutes

🛠 실무 팁

We stopped AI bot spam in our GitHub repo using Git's –author flag

GitHub 저장소에 AI 봇이 스팸 PR과 이슈를 쏟아내는 문제를 Git의 --author 플래그로 해결한 사례다. 이게 왜 중요하냐면, 요즘 AI 코딩 어시스턴트가 흔해지면서 무분별한 자동화 봇의 기여가 오픈소스 프로젝트에 실제 혼란을 주고 있기 때문이다.

핵심 아이디어는 간단하다. Git 커밋의 author 필드를 기준으로 필터링하는 것이다. 진짜 인간 기여자의 커밋만 표시하도록 git log --author="human-name" 형태로 조회하는 방식이다. 이를 GitHub Actions와 연동하면, AI 봇이 만든 PR을 자동으로 구분할 수 있다.

게임 개발에서도 비슷한 문제가 발생할 수 있다. 특히 오픈소스 UE5 플러그인을 관리한다면, AI가 생성한 저품질 PR이 리뷰 부담을 가중시킬 수 있다. 서버 아키텍처 관점에서 보면, 이건 일종의 'rate limiting'과 같다. 무한정 들어오는 요청을 필터링해서 유효한 것만 처리하는 구조다.

기술적으로 흥미로운 건 GitHub의 Identity 시스템과 Git의 author 메타데이터가 완전히 분리되어 있다는 점이다. GitHub 계정이 없어도 Git 커밋은 만들 수 있고, author 이름을 마음대로 설정할 수 있다. 그래서 단순히 GitHub username으로만 필터링하면 안 되고, 커밋의 서명이나 이메일 기반으로 검증해야 한다.

이 문제는 앞서 언급한 LLM 보급화와 직접 연결된다. LLM이 코드 생성 능력이 향상될수록, 이를 악용하는 봇도 더 정교해진다. 결국 'AI가 만든 코드인지 검증하는 메커니즘'이 프로젝트 거버넌스의 필수 요소가 되고 있다. 내 생각에는 향후 1~2년 내에 GitHub 자체적으로 AI-generated contribution을 식별하는 기능이 기본 탑재될 것이다.

출처: We stopped AI bot spam in our GitHub repo using Git's –author flag

LLM은 싸지고 똑똑해지고 있지만, 그만큼 AI 생성 쓰레기도 늘어난다. 도구는 도구일 뿐, 필터링은 결국 인간의 몫이다.

LLM GitHub AI스팸 오픈소스 모델경쟁 개발자도구