3시간 전

CAISI "DeepSeek V4 Pro, 미국 최전선 대비 약 8개월 뒤처져"

US Government Says China's Best AI Models Lag Behind. Experts Aren't So Sure

Decrypt

핵심 포인트

NIST 산하 기관인 CAISI는 5월 1일 평가를 공개하며 DeepSeek V4 Pro가 미국 최전선보다 약 8개월 뒤처져 있다고 밝혔고, 자사가 테스트한 중국 AI 모델 가운데 가장 성능이 높다고 평가했다. CAISI는 비공개 데이터셋 2개를 포함한 9개 벤치마크에 Item Response Theory를 적용했고, DeepSeek는 약 800점으로 추정했다. 비교 대상은 GPT-5.5의 1,260점, Claude Opus 4.6의 999점이다. 비용 비교를 위해 CAISI는 DeepSeek보다 성능이 크게 낮거나 토큰당 비용이 크게 높은 미국 모델을 제외했고, 그 결과 GPT-5.4 mini만 남았다. 그 경우에도 DeepSeek가 7개 벤치마크 중 5개에서 더 저렴했다. 스탠퍼드대의 2026 AI Index는 공개 리더보드에서 미국과 중국의 격차가 2.7%까지 좁혀졌다고 밝혔고, Ex0bit는 8개월 격차는 없다고 말했다.

시장 심리

중립, 이벤트 주도.

이유: CAISI가 DeepSeek V4 Pro를 미국 최전선보다 약 8개월 뒤에 두는 평가를 발표했지만, 이번 사건이 크립토 시장 접근성이나 규칙을 직접 바꾸지는 않는다.

유사 과거 사례

정부 지원을 받는 기술 평가표는 보통 시장 가격에 반영되기 전에 정책과 경쟁력 논쟁에 영향을 준다. 이번 사례는 비공개 벤치마크를 둘러싼 논쟁 때문에 독자들이 해당 순위에 얼마나 무게를 둘지 제한될 수 있어 다르게 전개될 수 있다.

파급 효과

이 보고서는 주로 크립토 시장의 기반 구조보다 AI 경쟁 서사에 영향을 미치므로, 파급 효과가 있다면 광범위한 위험 심리나 향후 정책 논쟁을 통해 나타날 가능성이 크다. 이후 정부 조치가 더 엄격한 기술 통제를 정당화하는 데 비슷한 순위를 사용하기 시작한다면, 영향은 AI 부문을 넘어 확산될 수 있다.

기회와 리스크

기회: 가장 주목할 지점은 CAISI의 더 자세한 방법론 설명이 비공개 벤치마크를 둘러싼 논쟁을 해소하는지 여부다. 방법론이 더 명확해지면 향후 모델 비교를 더 신뢰하기 쉬워질 것이다.

리스크: 가장 주의해서 볼 리스크는 방법론 논쟁이 해소되지 않은 채 남아 벤치마크 비교에 계속 이견이 붙는지 여부다. 그렇게 되면 이 보고서는 단기 시장 포지셔닝에 대한 약한 신호로 남을 수 있다.

This content is an AI-generated summary/analysis for informational purposes only and does not constitute investment advice.