Anthropic의 10월 업데이트: Computer Use와 Claude 3.5 모델 개선
2024년 AI 시장에서 가장 주목받는 키워드는 'AI 에이전트'입니다. AI 에이전트의 부상은 갑작스러운 변화가 아닙니다. 지난 2023년 11월 OpenAI의 샘 알트만 해임 사태 당시, 회사가 개발 중이던 강력한 추론 모델의 존재가 알려졌습니다. 'Strawberry'라는 코드명으로 알려진 이 프로젝트는 'Q* (Q-Star)'를 거쳐 현재의 'o1' 모델로 발전했고, AI가 인간의 추론 능력에 한발 더 가까워졌음을 보여주었습니다.
사실 AI 에이전트 연구는 구글의 ReAct 논문 발표 이후 꾸준히 진행되어 왔습니다. 추론과 행동을 결합한 AI 에이전트의 가능성은 이미 학계와 업계에서 주목받아왔고, Q* 이전부터 많은 기업들이 자체적인 연구를 진행해 왔습니다. Anthropic이 10월 22일 발표한 Computer Use Agents와 모델 업그레이드는 AI 에이전트의 실제 구현 가능성을 보여주는 첫걸음으로 평가됩니다. 지금부터 이 새로운 기술과 업그레이드한 모델의 특징을 자세히 살펴보겠습니다.
새로운 모델 라인업과 성능 개선
Claude 3.5 Sonnet 업그레이드 버전
Anthropic이 이번에 공개한 Claude 3.5 Sonnet 업그레이드 버전은 여러 벤치마크에서 괄목할 만한 성과를 보여주고 있습니다. 특히 소프트웨어 엔지니어링 분야에서 큰 진전이 있었는데, 'SWE-벤치 Verified' 점수가 33.4%에서 49.0%로 크게 향상되어 OpenAI의 o1-preview를 포함한 공개된 모든 모델들을 앞섰습니다. 에이전트 도구 사용을 평가하는 TAU-벤치에서도 retail 도메인에서 62.6%에서 69.2%로, 더 어려운 항공사 도메인에서는 36.0%에서 46.0%로 성능이 향상되었습니다.
실제 기업들의 피드백도 인상적입니다. DevSecOps 태스크에서 테스트를 진행한 GitLab은 지연 없이 10%까지 향상된 추론 능력을 확인했으며, 자율 AI 평가에 활용한 Cognition은 이전 버전 대비 코딩, 계획, 문제 해결 능력의 실질적 개선을 경험했습니다. 웹 기반 워크플로우 자동화에 사용한 The Browser Company는 이전에 테스트했던 모든 모델들 중 가장 뛰어난 성능을 보였다고 평가했습니다.
개인적으로도 이전 버전과 새 버전을 모두 사용해 본 결과, 코딩 태스크에서의 발전이 확연히 체감됩니다. 특히 복잡한 프로그래밍 작업에서 보여주는 문제 해결 능력이 많이 향상된 것으로 보입니다. 이러한 발전에는 다양한 이유가 있겠지만, 이후 소개할 Computer Use Agents의 안정적인 구현을 위해서도 코딩 부분의 성능 향상이 필수적이었을 것으로 보입니다.
업그레이드된 Claude 3.5 Sonnet은 현재 바로 사용해 볼 수 있습니다. Anthropic의 직접 API를 통해 접근할 수 있으며, 클라우드 서비스를 선호하는 사용자들을 위해 Amazon Bedrock과 Google Cloud의 Vertex AI 플랫폼에서도 동시에 제공됩니다.
Claude 3.5 Haiku
새롭게 선보인 Claude 3.5 Haiku는 경량 버전임에도 불구하고 이전 플래그십 모델인 Claude 3 Opus에 견줄만한 성능을 보여주고 있습니다. 10월 말 출시 예정인 이 모델은 초기에는 텍스트 처리만 가능하지만, 추후 이미지 처리 기능이 추가될 예정입니다.
Haiku 모델이 보여주는 높은 성능은 AI 모델의 효율성 측면에서 중요한 의미를 갖습니다. 더 작은 모델로도 높은 성능을 달성할 수 있다는 것은, 기업들의 AI 도입 비용을 낮추고 더 많은 환경에서 AI를 활용할 수 있게 해 줄 것입니다.
Computer Use Agents: AI의 컴퓨터 조작 능력
Anthropic이 이번에 선보인 'Computer Use' 기능은 AI가 실제로 컴퓨터를 조작하는 방식에 큰 변화를 가져올 것으로 보입니다. 이 기능은 Claude 3.5 Sonnet의 API를 통해 제공되며, 사람의 개입 없이 자율적으로 다양한 컴퓨터 작업을 수행할 수 있습니다.
주요 기능과 특징
Computer Use는 실제 사용자처럼 컴퓨터를 조작합니다. 화면의 UI 요소를 인식하고, 마우스를 움직이며, 키보드 입력을 수행할 수 있습니다. 예를 들어, 스프레드시트 편집이나 웹사이트 개발 같은 복잡한 작업도 수행할 수 있습니다.
성능과 한계
Anthropic의 Computer Use 기능은 AI가 실제 컴퓨터를 사람처럼 조작하는 새로운 방식을 제시합니다. OSWorld 벤치마크에서의 성능이 이를 잘 보여주는데, 이 벤치마크는 AI 에이전트의 컴퓨터 사용 능력을 실제 환경에서 평가하는 최초의 종합적인 테스트 환경입니다. Ubuntu, Windows, macOS 등 다양한 운영체제에서 369개의 실제 컴퓨터 작업을 수행하도록 설계되었으며, 웹 애플리케이션, 데스크톱 앱, 파일 입출력, 여러 애플리케이션을 넘나드는 복잡한 워크플로우까지 평가합니다.
이러한 까다로운 평가 환경에서 Computer Use는 14.9%의 성능을 보여주며, 2위(7.8%)와 상당한 격차를 보여주고 있습니다. 인간 사용자가 평균 72.36%의 작업을 성공적으로 수행하는 것과 비교하면 아직 갈 길이 멀지만, 현존하는 AI 모델 중에서는 가장 뛰어난 성과입니다. 다만 아직은 베타 단계로, 작업 성공률이 50%에 미치지 못하는 등 개선이 필요한 부분이 많습니다.
현재 Amazon, Asana, Canva, Notion 등 주요 기업들이 베타 테스트를 진행 중이며, 개발자들을 대상으로 한 공개 베타도 시작되었습니다. API는 Anthropic 직접 제공 외에도 Amazon Bedrock, Google Cloud Vertex AI 플랫폼을 통해 이용할 수 있습니다.
결론
Anthropic의 이번 발표는 AI 에이전트 시장의 경쟁을 한층 더 흥미롭게 만든 것 같습니다. 특히 Computer Use 기능은 AI의 실제 활용 범위를 크게 확장할 수 있는 잠재력을 보여주고 있습니다. 하지만 아직은 베타 단계인 만큼, 실제 상용화까지는 안정성과 신뢰성 확보가 관건이 될 것으로 보입니다.