앤트로픽, 100만 토큰 롱 컨텍스트·에이전트 협업 강화한 ‘클로드 오퍼스 4.6’ 공개

2026년 02월 06일 MediaTech News

AI가 단순 보조 도구를 넘어 ‘자율적으로 일하는 동료’로 진화하고 있다. 앤트로픽(Anthropic)이 100만 토큰 장문 이해와 다중 에이전트 협업을 앞세운 신형 모델 ‘클로드 오퍼스(Claude Opus) 4.6’를 선보이며 소프트웨어 개발부터 금융, 문서 작업까지 지식 노동 전반의 변화를 예고했다.

앤트로픽은 5일(현지시간) 최고 성능 AI 모델을 업그레이드한 ‘클로드 오퍼스 4.6’을 공식 발표했다.

오퍼스 최초 100만 토큰 컨텍스트…장기 자율 작업 성능 강화

이번 버전의 핵심 변화는 오퍼스 계열 최초로 100만 토큰 컨텍스트 창을 지원한다는 점이다. 앤트로픽은 이전 모델 대비 코딩 능력과 장기 자율 작업 수행 능력을 크게 끌어올렸다고 밝혔다.

클로드 오퍼스 4.6은 더 정교한 계획 수립, 장시간 유지되는 에이전틱(agentic) 작업, 대규모 코드베이스에서의 안정적인 동작이 가능하도록 개선됐다. 코드 리뷰와 디버깅 역량도 강화돼, 스스로 오류를 찾아 수정하는 정확도가 높아졌다는 설명이다.

이러한 역량은 코딩뿐 아니라 재무 분석, 리서치, 문서·스프레드시트·프레젠테이션 작성 등 일상적인 지식 노동 전반으로 확장된다. 클로드가 자율적으로 멀티태스킹을 수행하는 ‘코워크(Cowork)’ 환경에서는 이러한 기능을 한 번에 활용할 수 있다.

벤치마크 성능도 최상위…터미널-벤치·Humanity’s Last Exam 1위

성능 지표에서도 업계 최상위 수준을 기록했다.

오퍼스 4.6은 에이전틱 코딩 평가인 ‘터미널-벤치 2.0(Terminal-Bench 2.0)’에서 최고 점수를 달성했으며, 복합 추론 능력을 측정하는 ‘인류의 마지막 시험(Humanity’s Last Exam)’에서도 모든 프런티어 모델을 앞섰다.

또 금융·법률 등 경제적 가치가 높은 지식 노동을 평가하는 ‘GDPval-AA’에서는 오픈AI의 ‘GPT-5.2’보다 약 144 엘로(Elo) 포인트, 전작인 ‘클로드 오퍼스 4.5’보다 190포인트 높은 성적을 기록했다.

온라인에서 찾기 어려운 정보를 탐색하는 능력을 측정하는 ‘브라우즈컴프(BrowseComp)’에서도 최고 성능을 보였다는 평가가 나왔다.

‘컨텍스트 롯’ 완화…MRCR v2에서 76% 기록

특히 이번 모델은 장문 컨텍스트 처리 능력에서 질적 도약을 이뤘다는 평가를 받는다. AI 모델의 고질적인 문제로 꼽히는 ‘컨텍스트 롯(context rot)’ 현상이 크게 완화됐다는 것이다.

방대한 텍스트 속 숨겨진 정보를 찾아내는 ‘MRCR v2(100만 토큰, 8-니들 변형)’ 벤치마크에서 오퍼스 4.6은 76%를 기록해, 소네트 4.5의 18.5%를 크게 웃돌았다.

앤트로픽은 수십만~백만 토큰에 달하는 긴 컨텍스트에서도 정보 추적 정확도가 유지되며, 이전 모델이 놓쳤던 세부 정보까지 포착할 수 있다고 설명했다.

개발자 기능 대폭 확대…‘에이전트 팀’·어댑티브 씽킹·컨텍스트 압축

개발자를 위한 기능도 대폭 강화됐다.

클로드 코드(Claude Code)에는 여러 AI가 병렬로 협업하는 ‘에이전트 팀’ 기능이 연구 프리뷰 형태로 추가됐다.

API 측면에서는 다음 기능들이 새롭게 도입됐다.

상황에 따라 추론 깊이를 스스로 조절하는 어댑티브 씽킹(adaptive thinking)
지능·속도·비용을 선택할 수 있는 4단계 에포트(effort) 설정
장기 작업을 위한 컨텍스트 압축(compaction) 기능

또한 출력 토큰 한도는 최대 12만8000 토큰으로 늘었고, 미국 내 추론만 허용하는 US 전용 인퍼런스 옵션도 제공된다.

엑셀·파워포인트 연동 강화…PPT용 클로드 연구 프리뷰 출시

업무 도구 연동도 확대됐다.

엑셀용 클로드는 장시간·다단계 작업 처리 능력이 강화됐으며, 파워포인트용 클로드가 연구 프리뷰로 출시됐다.

사용자는 엑셀에서 데이터를 정리한 뒤 파워포인트로 바로 시각화할 수 있고, 클로드가 레이아웃·폰트·슬라이드 마스터를 읽어 브랜드 스타일을 유지한 채 자료를 생성할 수 있다는 설명이다.

해당 기능은 맥스, 팀, 엔터프라이즈 요금제에서 이용 가능하다.

“성능 향상=안전성 저하 아니다”…감사 결과 비정렬 행동 낮아

앤트로픽은 성능 향상이 안전성 저하로 이어지지 않았다고 강조했다.

자동화된 행동 감사 결과, 오퍼스 4.6은 기만·아부·오남용 협력 등 비정렬 행동 발생률이 낮았고, 불필요한 답변 거절(over-refusal) 비율도 최근 클로드 모델 중 가장 낮았다고 밝혔다.

또한 강화된 사이버보안 역량이 악용되지 않도록 6가지 신규 사이버보안 탐지 프로브를 도입했으며, 오픈소스 취약점 탐지·패치 등 방어적 활용도 병행하고 있다고 덧붙였다.

즉시 이용 가능…가격은 기존과 동일

클로드 오퍼스 4.6은 현재 claude.ai, 클로드 API, 주요 클라우드 플랫폼에서 즉시 이용 가능하다.

가격은 기존과 동일하게 입력 토큰 100만 개당 5달러, 출력 25달러이며, 100만 토큰 컨텍스트를 20만 토큰 초과로 사용할 경우 프리미엄 요금이 적용된다.

앤트로픽은 모델이 단순한 작업에서 과도하게 깊은 추론을 수행할 경우 비용과 지연이 늘어날 수 있다며, 이 경우 에포트 설정을 기본값(높음)에서 중간으로 낮출 것을 권장했다.

“우리는 클로드로 클로드를 만든다”…기업용 시장 경쟁 가속

앤트로픽은 “우리는 클로드로 클로드를 만든다”라며, 내부 개발과 테스트 과정에서도 오퍼스 4.6이 복잡한 문제에 더 집중하고, 모호한 상황에서도 더 나은 판단을 내리며, 장시간 생산성을 유지하는 모습을 보였다고 밝혔다.

이번 업데이트는 AI가 단순 보조 도구를 넘어 장기적이고 자율적인 업무 파트너로 진화하고 있음을 보여주는 신호로 해석된다. 동시에 지난해부터 급상승세를 타고 있는 기업용 시장 경쟁에서 우위를 이어가려는 의도라는 분석도 나온다.

스트레이 키즈 IMAX 콘서트 영화 오늘 개봉…‘Stray Kids: The dominATE Experience’

“작을 뿐, 부족하지 않다” – 미니 PC를 둘러싼 4가지 오해와 진실

버셀, ‘바이브 코딩’ 실무 적용 겨냥해 개발 플랫폼 전면 개편

블랙핑크 리사, 넷플릭스 로맨틱 코미디 영화 주연 확정…“‘노팅 힐’에서 영감”

2026년 개봉 예정 앤 해서웨이 주연 영화 5편 총정리