ai signal

AI 업데이트: Claude의 현실과 엔터프라이즈 AI 경쟁

R
이더
2026. 04. 14. AM 12:48 · 7 min read · 0

🤖 1374 in / 3756 out / 5130 total tokens

🔥 핫 토픽

Microsoft, 365 Copilot에 에이전트형 AI 기능 테스트 중

Microsoft가 365 Copilot에 OpenClaw 스타일의 자율형 AI 봇 기능을 통합하려 테스트 중이다. The Information 보도에 따르면, 이 테스트는 365 Copilot을 단순한 챗봇에서 벗어나 실제 워크플로우를 자율적으로 수행하는 에이전트로 진화시키려는 시도다. Microsoft가 이 방향으로 가는 건 당연하다. 구독형 B2B SaaS에서 '자율 에이전트'는 사용자 체류 시간을 늘리고 해지율을 낮추는 핵심 무기다.

하지만 개발자 입장에서 보면 이건 양날의 검이다. UE5 C++ 프로젝트에서 비슷한 자동화를 구현해봤는데, "AI가 알아서 해줘"라는 기대와 실제 결과 사이의 갭이 생각보다 크다. 특히 365 Copilot 같은 엔터프라이즈 환경에서는 권한 관리, 데이터 보안, 감사 로그 같은 게임 개발에서도 익숙한 서버 아키텍처 이슈가 빠짐없이 튀어나온다. AI 에이전트가 Excel 매크로를 마음대로 실행하거나, 이메일을 발송하거나, SharePoint 문서를 수정할 때 과연 어디까지 허용할 건가? 권한 시스템 설계 자체가 하나의 큰 프로젝트다.

경쟁 구도 측면에서도 흥미롭다. Anthropic은 이미 Claude에서 Computer Use 기능을 선보였고, OpenAI는 Operator를 출시했다. Microsoft가 365라는 거대한 분포망을 활용해 에이전트 AI를 대중화하면, Anthropic 입장에서는 엔터프라이즈 시장에서 또 하나의 강력한 경쟁자와 마주하는 셈이다. Claude의 Computer Use가 기술적으로는 인상적이지만, Microsoft 365의 사용자 기반을 따라잡기는 쉽지 않다.

출처: The Verge


📰 뉴스

AMD AI 디렉터: "Claude는 복잡한 엔지니어링 작업을 신뢰할 수 없다"

AMD의 AI 디렉터가 6,852개의 Claude Code 세션, 234,760개의 툴 콜, 17,871개의 사고 블록을 분석한 결과, "Claude는 복잡한 엔지니어링 작업을 신뢰할 수 없다"는 결론을 내렸다. 이건 단순한 인상비평이 아니다. 실제 프로덕션 환경에서 수집된 대규모 데이터를 기반으로 한 분석이다.

이 뉴스가 중요한 이유는, AI 코딩 도구에 대한 업계의 기대치와 현실을 냉정하게 짚어주기 때문이다. 최근 Claude Code, Cursor, Copilot 같은 도구들이 마치 시니어 개발자를 대체할 수 있다는 분위기가 있는데, AMD의 분석은 그런 환상에 찬물을 끼얹는다. 복잡한 엔지니어링, 특히 아키텍처 설계나 대규모 리팩토링 같은 작업에서 AI는 여전히 '보조 도구'지 '대체 인력'이 아니다.

개발자 실무 관점에서 보면, 이 결과는 그리 놀랍지 않다. UE5 C++ 프로젝트에서 서버 아키텍처를 설계할 때, Claude에게 전체 시스템을 이해시키는 것부터가 큰일이다. 컨텍스트 윈도우가 아무리 커져도, 수십만 줄의 코드베이스에서 모듈 간 의존성을 파악하고, 변경이 미치는 영향을 예측하는 건 현재 AI의 능력을 넘어선다. 마치 주니어 개발자에게 레거시 코드를 던져주며 "알아서 리팩토링해"라고 하는 것과 같다. 어설프게 건드렸다가 빌드가 깨지고, 런타임에 알 수 없는 크래시가 발생한다.

기술적 배경을 설명하자면, Claude Code의 'thinking block'은 모델이 추론 과정을 내보내는 메커니즘이다. 17,871개의 사고 블록을 분석했다는 건, 모델이 문제를 해결하기 위해 어떤 경로로 접근하는지 세밀하게 관찰했다는 의미다. 그리고 그 관찰 결과는 "복잡한 작업에서는 추론 경로가 불안정하"다는 거다. 한마디로, 같은 문제를 두 번 주면 두 번 다른 접근법을 쓰고, 둘 다 틀릴 수 있다.

앞서 언급한 Microsoft의 365 Copilot 에이전트 확장과도 연결된다. Microsoft든 Anthropic이든, AI 에이전트가 자율적으로 복잡한 작업을 수행하려면 아직 갈 길이 멀다. 특히 에러 복구, 롤백, 상태 관리 같은 분야에서는 게임 서버 개발에서 쓰는 트랜잭션 관리 패턴이 필요한데, 현재 AI 에이전트 프레임워크는 이런 걸 기본적으로 지원하지 않는다.

개인적으로도 공감하는 부분이다. 사이드 프로젝트에서 Claude Code를 써봤는데, 간단한 CRUD나 보일러플레이트 코드 작성에는 훌륭하지만, 비즈니스 로직이 꼬이는 순간부터는 오히려 시간이 더 걸린다. AI가 작성한 코드를 리뷰하고 수정하는 시간을 포함하면, 처음부터 직접 짜는 게 나은 경우도 많다. 물론 이건 현재 기준이고, 6개월 뒤에는 다를 수 있다. 그게 AI 분야의 무서운 점이다.

출처: Reddit r/artificial


💡 분석: 두 뉴스의 교차점

두 뉴스를 나란히 놓고 보면, 2025년 중반 AI 업계의 핵심 딜레마가 보인다. 한쪽에서는 Microsoft처럼 AI를 자율 에이전트로 밀어붙이려 하고, 다른쪽에서는 AMD처럼 현실적인 한계를 지적한다. 이 갭을 이해하는 게 개발자에게 중요하다.

AI를 프로덕션에 도입할 때, 나는 항상 이런 기준을 적용한다. 첫째, AI의 출력을 검증할 수 있는가? 둘째, AI가 실수했을 때 롤백이 가능한가? 셋째, AI 없이도 시스템이 동작하는가? 이 세 가지에 "아니오"라면, 그건 아직 도입할 때가 아니다. 게임 서버에서도 핫픽스를 배포할 때 동일한 원칙을 적용한다. 검증 불가, 롤백 불가, 단일장애점이면 배포하지 않는다.

Anthropic의 입장에서는 이 두 가지 뉴스 모두 도전이다. Computer Use와 Claude Code를 통해 에이전트 시장을 선점하려 하지만, Microsoft의 365 Copilot이라는 거대한 경쟁자가 있고, AMD의 분석처럼 기술적 한계도 명확하다. 다음 분기에 Anthropic이 어떻게 대응할지 지켜볼 만하다.

Claude는 훌륭한 도구다. 하지만 '도구'와 '동료'를 구분하지 못하면, 반드시 삽질하게 된다.

← 이전 글
게임 종료 시 주문 자동 발동 + Playwright MCP 세팅
다음 글 →
Claude Code 하네스 시스템 구현 — Hook 4개, 에이전트 4개, 오케스트레이터까지 한 방에