ARC-AGI-3 Just Dropped the Hardest Reasoning Benchmark Yet. Frontier Models Are Already Failing It.

33퍼센트.

몇 달간의 최적화, 프롬프트 엔지니어링, 그리고 적극적인 손잡아주기라고밖에 표현할 수 없는 작업을 거친 끝에 프론티어 모델이 ARC-AGI-2에서 거둔 최고 점수가 이 정도다. 이제 ARC-AGI-3가 등장했고, 과제는 더 어려워졌으며, 리더보드는 "추론"을 제품 기능으로 팔아온 모든 연구소에 가혹한 현실을 들이밀 참이다.

타임라인은 보도자료가 말하지 않는 이야기를 들려준다.

2019년, 2023년: 아무도 꼼수를 부릴 수 없었던 벤치마크

프랑수아 숄레는 2019년에 명쾌한 명제와 함께 최초의 ARC(Abstraction and Reasoning Corpus, 추상화 및 추론 코퍼스)를 발표했다. 당신의 모델이 소수의 예시로부터 일반화하여 새로운 시각 퍼즐을 풀지 못한다면, 그것은 추론이 아니라 매우 비싼 GPU 위에서 돌아가는 패턴 매칭일 뿐이라는 것이었다.

4년간 ARC는 업계의 책상 위에 풀리지 않는 루빅스 큐브처럼 놓여 있었다. GPT-3는 건드리지도 못했다. GPT-4도 거의 바늘을 움직이지 못했다. 과제들은 인간 아이에게는 거의 우스울 정도로 단순해 보인다—색칠된 격자, 공간 변환, 기본적인 논리 규칙. 다섯 살짜리가 몇 초 만에 푼다. 역사상 가장 뛰어난 언어 모델들은 한 자릿수 초반대 점수를 기록했다.

이것은 완곡하게 말해서 "스케일링이 전부"라고 주장하는 진영에게 불편한 결과였다.

2024년: 100만 달러짜리 도전장

2024년 중반, ARC Prize 재단이 100만 달러를 걸었다. ARC-AGI-1을 85% 이상의 정확도로 풀면 상금을 가져가라는 것이었다. 이 벤치마크는 무차별 스케일링에 저항하도록 명시적으로 설계되었다. 파라미터를 더 쏟아붓는 것만으로는 해결할 수 없었다.

발표 당시 해커뉴스 댓글 반응은 예상대로 양분되었다. 댓글의 절반은 "AI에서 가장 중요한 벤치마크다." 나머지 절반은 "이 격자 퍼즐로는 진짜 지능을 측정할 수 없다." 양쪽 모두 핵심을 놓쳤다. ARC는 지능을 정의하려는 것이 아니었다. 하나의 특정 능력—최소한의 데이터로부터 새로운 추상화를 형성하는 능력—을 측정하고 있었고, 기존의 어떤 도구보다 이를 더 잘 해내고 있었다.

2024년 말까지 최고 수준의 오픈 제출물들은 ARC-AGI-1에서 50~55% 부근에 모여 있었다. 준수한 성적이었다. 85%에는 못 미쳤다.

2025년 초: ARC-AGI-2, 격차를 벌리다

ARC-AGI-2는 더 어려운 과제와 더 엄격한 평가 기준을 들고 등장했다. 즉각적인 결과: 점수가 폭락했다. 버전 1에서 60%를 향해 조금씩 나아가던 모델들이 새로운 체제 아래서 20~30%대로 후퇴했다. ARC-AGI-1에서 강력한 성과로 헤드라인을 장식했던 OpenAI의 o3 모델도 새 기준 아래서 점수가 크게 압축되었다.

중요한 것은 이 패턴이다. 벤치마크가 진정한 추상화를 요구하는 방향으로 어려워질 때마다, 인간 성능과 모델 성능 사이의 격차는 좁혀지지 않는다. 오히려 벌어진다.

2025년 3월: 구글, TurboQuant를 출시하다—그리고 아름다울 정도로 핵심을 빗나가다

한편, 연구소들은 엉뚱한 것을 최적화하느라 바빴다. 이번 주 발표된 구글의 TurboQuant는 더 큰 모델을 더 작은 메모리 공간에서 실행할 수 있게 해주는 메모리 압축 알고리즘이다. 테크크런치 보도에 따르면, 인터넷은 즉시 이를 HBO의 *실리콘밸리*에 나오는 가상의 압축 회사 이름을 따 "파이드 파이퍼"라고 명명했다. 구글이 의도하지 않았을 방식으로 이 비유는 적절하다.

TurboQuant는 정말로 영리한 엔지니어링이다. 모델 품질을 유지하면서 메모리 사용량을 줄이는 양자화는 실질적이고 유용한 작업이다. 나도 llama.cpp가 이를 실용적으로 만든 이래 로컬에서 양자화된 모델을 돌려왔고, 더 나은 양자화 덕분에 8초마다 디스크 스왑 없이 내 3090에서 더 큰 모델을 돌릴 수 있다.

하지만 TurboQuant는 모델을 더 똑똑하게 만들지 않는다. 같은 모델을 더 작은 상자에 집어넣을 뿐이다. 추론할 수 없는 모델을 추론할 수 없는 더 작은 모델로 압축하는 것은 최적화이지 돌파구가 아니다. 업계는 ARC가 자동차를 만들라고 요구하는데 계속 더 빠른 말을 출하하고 있다.

2025년 3월: ARC-AGI-3 등장, 바닥이 다시 빠지다

ARC-AGI-3가 이번 주 공개되었다. ARC Prize 측에 따르면 이번 버전은 더 깊은 합성적 추론, 더 긴 추상화 체인, 더 적은 예시로부터의 더 견고한 일반화를 요구하는 과제를 도입한다. 평가는 더 엄격하다. 과제는 근본 개념을 파악한 인간이라면 누구나 간단히 풀 수 있지만, 패턴 매칭으로 무차별 돌파하는 것은 사실상 불가능하도록 설계되었다.

해커뉴스 토론은 이미 뜨겁게 달아오르고 있다. 초기 보고에 따르면 프론티어 모델들의 성적이 저조하다. 구체적인 수치는 아직 검증 중이지만, ARC-AGI-1에서 ARC-AGI-2, ARC-AGI-3로 이어지는 궤적은 일관적이다: 벤치마크가 어려워질 때마다 같은 근본적 격차가 드러난다.

이것은 매우 구체적이고, 매우 값비싼 이유로 중요하다.

"추론" 프리미엄은 이제 가격 책정의 문제다

OpenAI는 o-시리즈 "추론" 모델에 더 높은 요금을 부과한다. Anthropic은 Claude의 확장 사고 기능을 프리미엄 기능으로 포지셔닝한다. 구글의 "딥 씽크" 기능이 탑재된 Gemini Pro는 더 높은 API 가격대를 요구한다.

이 프리미엄 티어 모두 암묵적으로 한 가지를 판매한다—이 모델들이 추론할 수 있다는 것. 단순한 자동완성이 아니라, 단순한 검색이 아니라, 실제로 새로운 문제를 사고할 수 있다는 것.

ARC-AGI-3는 그 영수증이다.

프론티어 추론 모델들이 인간 참가자가 95% 이상으로 푸는 과제에서 40% 미만을 기록한다면, 그 제품명에 붙은 "추론"이라는 단어는 능력 설명이라기보다 마케팅 문구에 더 가까워 보이기 시작한다. "추론" 접근에 표준 API 요금의 3~5배를 지불하는 기업 고객들은 그 할증이 실제로 무엇을 사주는 건지 날카로운 질문을 던져야 한다.

연구소들이 말할 것, 그리고 왜 그것으로는 충분하지 않은가

벤치마크 세 버전에 걸쳐 이 사이클이 반복되는 것을 지켜본 경험에 기반한 나의 예측이다:

1. "ARC 과제는 편협하고 실제 추론을 반영하지 않는다." 이것은 시험맞춤식 회피다. ARC가 실제 추론에 필요한 유연한 추상화 능력을 특정적으로 테스트한다는 사실을 무시한다.

2. "우리 모델은 다른 벤치마크에서 좋은 성적을 낸다." 당연하다. 모델은 훈련 데이터 분포와 유사한 기술을 테스트하는 벤치마크에서 좋은 성적을 낸다. 바로 그것이 ARC가 폭로하도록 설계된 문제다.

3. "충분한 추론 시간 컴퓨팅을 투입하면 ARC-AGI-3를 80% 이상으로 무차별 돌파할 수 있다." 어쩌면. 하지만 당신의 "추론" 모델이 유치원생이 공짜로 푸는 격자 퍼즐 하나에 50달러의 컴퓨팅이 필요하다면, 당신은 추론 시스템을 만든 것이 아니다. 극도로 비싼 검색 알고리즘을 만든 것이다.

프랑수아 숄레는 2019년부터 이 주장을 해왔다. 업계는 6년과 수천억 달러를 들여 그가 옳았음을 증명해왔다.

개발자들에게 남는 것

이 모델들을 매일 사용하고 이들에 의존하는 프로덕션 코드를 출시해온 사람으로서 나의 솔직한 견해다.

LLM은 대단히 유용하다. 나는 Claude와 함께 더 나은 코드를 작성한다. GitHub Copilot은 내가 놓칠 버그를 잡아준다. Gemini는 밀도 높은 논문을 분석하는 데 도움을 준다. 이것들은 실질적인 가치를 제공하는 진짜 도구들이다.

하지만 "유용하다"와 "추론할 수 있다"는 서로 다른 주장이고, 서로 다른 가격표를 달고 있다. ARC-AGI-3는 두 번째 주장에 대한 가장 엄격한 공개 테스트이며, 지금까지 모든 버전이 같은 이야기를 해왔다: 우리는 아직 거기에 도달하지 못했고, 스케일링만으로는 도달할 수 없다.

연구소들도 이걸 안다. 가격 책정은 이를 반영하지 않는다.

이 API들 위에 구축하고 있다면, 자체 평가를 돌려라. 감 기반의 "더 똑똑해 보이는데"가 아닌, 모델이 본 적 없는 새로운 문제에 대한 실제 홀드아웃 테스트를 돌려라. ARC-AGI-3의 공개 데이터셋이 좋은 출발점이다. 과제들은 유닛 테스트로 구현할 수 있을 만큼 단순하면서도, 당신이 추론에 돈을 내고 있는 건지 아니면 매우 빠른 자동완성을 임대하고 있는 건지 드러낼 만큼 통찰력이 있다.

내 골든리트리버 카고는 한 가지 특정 유형의 문제를 100% 정확도로 푼다: 세 개의 컵 중 하나 아래 내가 숨긴 간식을 찾는 것이다. 추론이 아니라 후각으로 한다. 하지만 적어도 자기 방법론에 대해서는 정직하다.