Epoch Confirms GPT-5.4 Pro Solved a Frontier Math Open Problem. AI Just Stopped Being a Calculator.

지난 화요일, 게르트 팔팅스가 모르델 추측을 증명한 공로로 아벨상을 수상했다. 한 분야의 지형을 바꿔놓는 종류의 업적이다. 같은 주, 에포크 AI(Epoch AI)는 GPT-5.4 Pro가 프런티어 수학의 미해결 문제를 풀었다는 사실을 조용히 확인했다. 벤치마크 문제가 아니다. 채점 기준 뒤에 정답이 숨겨진 경시대회 문제도 아니다. 미해결 문제 — 인간이 아직 풀지 못한 문제였다.

며칠 간격으로 도착한 이 두 사건은, 수학계와 AI 커뮤니티가 1년째 불안하게 농담처럼 주고받던 무언가를 정면으로 조명한다. 그 농담은 더 이상 웃기지 않게 되었다.

어떤 인간도 풀지 못한 문제를 모델이 풀었다

정확하게 짚고 넘어가자. 여기서는 평소보다 정확성이 더 중요하다.

에포크 AI는 AI 역량을 추적하는 연구 기관으로, 더 많은 ML 연구소들이 본받았으면 하는 수준의 엄밀함을 갖추고 있다. 이들은 FrontierMath 벤치마크를 통해 GPT-5.4 Pro가 이전에 풀리지 않았던 수학 문제에 대한 유효한 풀이를 도출했음을 확인했다. 해커뉴스의 논의에 따르면, 이것은 모델이 무차별 대입 탐색이나 패턴 완성을 통해 우연히 답을 발견한 경우가 아니었다. 풀이에는 다단계 증명이 포함되어 있었으며, 해당 분야 전문가들이 이를 독창적이면서 동시에 올바른 것으로 검증했다.

FrontierMath는 — 아직 추적하지 않았던 분들을 위해 설명하자면 — 일반적인 벤치마크가 아니다. 정말로 미해결이거나 최근에야 풀린 문제들을 담도록 특별히 설계되었으며, 단순한 정답 대조를 넘어서는 검증 메커니즘을 갖추고 있다. 출시 당시 이 벤치마크가 수년간 AI에게 겸허함을 안겨줄 것이라는 기대가 있었다. *수년간*이 핵심이다.

그 타임라인이 방금 붕괴했다.

GSM8K에서 MATH, 경시대회 수준 문제, 프런티어 연구에 이르기까지 AI 수학 벤치마크 진행 과정을 비교하고, 각 이정표 달성 시점이 점점 앞당겨지는 것을 보여주는 시각화

팔팅스와의 병치가 중요한 이유

게르트 팔팅스는 1983년에 모르델 추측을 증명했다. 그는 특정 유형의 다항 방정식이 유한 개의 유리수 해만을 가진다는 것을 보여주었으며, 이는 이전에 아무도 깔끔하게 설명하지 못했던 방식으로 정수론과 대수기하학을 연결한 결과였다. 여러 학술 매체의 보도에 따르면 아벨상은 그 증명만을 인정한 것이 아니라, 팔팅스가 그 과정에서 개발한 수학적 도구들의 연쇄적 파급효과를 함께 인정한 것이었다. 다른 수학자들이 40년간 활용해 온 도구들이다.

타이밍에서 중요한 것은 이것이다. 팔팅스의 작업은 단순히 답에 관한 것이 아니었다. 프레임워크에 관한 것이었다. 직관에 관한 것이었다. 아무도 찾지 않던 결과로 가는 문을 열어준, 문제 공간을 바라보는 새로운 방식에 관한 것이었다.

GPT-5.4 Pro가 미해결 문제를 풀었을 때, 모든 사람이 가장 먼저 묻는 질문은 이것이다: 자기가 한 일을 이해한 것인가?

나는 그것이 잘못된 질문이라고 생각한다. 이유는 뒤에서 다루겠다.

골대가 마침내 움직일 공간을 잃었다

나는 몇 년간 AI 역량에 대해 글을 써왔고, 골대가 너무 많이 움직이는 것을 지켜봤기에 이제는 바퀴를 달아야 할 지경이다. 패턴은 일정했다:

1. 연구자들이 "진정한" 지능을 대변하는 벤치마크를 만든다.

2. 12개월에서 18개월 안에 모델이 이를 돌파한다.

3. 커뮤니티는 벤치마크에 결함이 있었다, 실제로 이해력을 측정한 것이 아니었다고 말한다.

4. 반복.

GSM8K는 수학적 추론을 시험하기 위한 것이었다. 모델들이 거뜬히 통과했다. MATH는 더 어려웠다. 모델들이 따라잡았다. 경시대회 수학, 올림피아드 수준의 문제들 — 돌파. 매번 반응은 "글쎄, 하지만 그 문제들은 훈련 데이터에 알려진 풀이가 있거나, 있는 문제와 구조적으로 유사하잖아"의 변형이었다.

그 논거에는 유통기한이 있었고, 방금 만료되었다.

미해결 문제는 정의상 훈련 데이터에 풀이가 없다. 암기할 정답도 없고, 직접적으로 패턴 매칭할 구조적 템플릿도 없다. 모델의 추론이 얼마나 "독창적"인지에 대해 논쟁할 수는 있다. 좋다. 하지만 답을 찾아보았다고 주장할 수는 없다. 답이 존재하지 않았으니까.

이것은 내가 보기에 최초의 GPT-4 출시 이후 가장 중대한 AI 역량 이정표다. 가볍게 하는 말이 아니다.

수학자들은 세 진영으로 갈렸다 — 그리고 세 진영 모두 일리가 있다

현역 수학자들의 반응은 예상대로 분열되었다.

1진영: 조심스러운 인정. 이들은 한동안 LLM을 증명 보조 도구로 사용해 온 연구자들이다. AI가 미해결 문제의 유효한 증명을 내놓는 것은 필연적이었다고, "보조"와 "독립적" 수학 작업 사이의 경계는 수년간 흐려져 왔다고, 이것이 작업 방식은 바꾸지만 발견의 근본적 본질은 바꾸지 않는다고 그들은 말할 것이다.

2진영: 우려 — 하지만 일자리에 대한 것은 아니다. 이들의 관심사는 검증이다. AI가 형식적으로는 올바르지만 그 기저의 직관이 불투명한 증명을 내놓으면, 학계는 이를 어떻게 다뤄야 하는가? 수학은 언제나 단순한 정확성이 아닌 이해에 관한 것이었다. 검증할 수는 있지만 배울 수 없는 증명은, 많은 수학자에게 자신들이 경력을 바쳐 생산해 온 것과는 근본적으로 다른 종류의 대상이다.

3진영: 증거를 보여달라. 이들은 구체적인 문제, 구체적인 풀이, 구체적인 검증 방법론을 보고 싶어 한다. 에포크는 세부 사항에 대해 다소 신중한 태도를 취하고 있는데, 사안의 민감성을 고려하면 이해할 수 있지만, 그 때문에 이 진영은 아직 만족하지 못하고 있다. 충분히 타당하다.

나는 세 입장 모두에 공감하는 나 자신을 발견하는데, 이것은 내게 이례적이다. 보통 나는 한쪽에 더 강하게 기운다. 하지만 이번에는 정말로 생각에 빠지게 된다.

"이해하는가?"가 잘못된 질문인 이유

여기서 의견을 분명히 밝히겠다: GPT-5.4 Pro가 수학을 "이해"하는지에 대한 논쟁은 정작 중요한 것으로부터의 주의 분산이다.

나는 15년간 프로그래밍을 해왔다. 작동했을 때 스스로 완전히 이해하지 못한 코드를 작성한 적이 있다. 증명을 권위에 기대어 받아들인 수학적 도구를 사용한 적이 있다. 모든 테스트를 통과했지만 처음부터 직접 작성할 수는 없었을 풀 리퀘스트를 머지한 적이 있다. "이해"와 "형식 체계의 효과적 조작" 사이의 경계는 대부분의 사람들이 인정하고 싶은 것보다 흐릿하다 — 그리고 인간에게도 그렇다.

중요한 것은 결과물이다. 증명이 검증을 통과했는가? 독창적이었는가? 다른 수학자들이 이를 기반으로 구축할 수 있는가?

세 가지 모두에 대한 답이 예라면, 기계의 이해에 관한 철학적 질문은 매혹적이지만 긴급하지는 않다. 긴급한 것은 인프라 문제다.

아무도 대비하지 못한 귀속 위기

이것이 나를 밤잠 설치게 하는 부분이다.

AI가 보조한 수학적 작업에 대한 귀속을 위한 좋은 시스템이 없다. 관련 규범도 없다. 수학자가 GPT-5.4 Pro를 협력자로 사용하여 혁신적 성과를 낼 때, 누가 공로를 인정받는가? 모델이 독립적으로 무언가를 풀었을 때, 그것은 출판되는가? 어떤 저널에? 누구의 이름으로?

현재의 수학 출판 파이프라인과 AI 생성 증명이 기존 동료 평가 및 귀속 워크플로에서 어디에 공백을 만드는지를 보여주는 다이어그램

이것은 더 이상 추상적인 질문이 아니다. 실무적인 문제다.

형식 검증 커뮤니티는 사실 이 부분에서 앞서 있었다. Lean, Coq, Isabelle — 이 증명 보조 도구들은 항상 인간 추론과 기계 추론 사이의 묘한 중간 지대를 점유해 왔다. 수학계는 이미 부분적으로 기계가 검증한 증명을 수용하고 있다. 지금의 질문은 부분적으로, 또는 전적으로 기계가 *생성한* 증명까지 수용할 것인가이다.

내 예측: 수용할 것이다. 마지못해, 방법론에 대한 수많은 논쟁을 거치면서. 프로그래밍 커뮤니티가 마지못해 받아들인 것과 같은 방식으로 — 그렇다, AI가 생성한 코드가 이제 프로덕션에 배포되고 있으며, 하늘이 무너지지는 않았다는 것을.

수학은 최후의 천장이 될 것이었다

당신이 수학자가 아닌 개발자라면, 이것이 왜 중요한지 궁금할 수 있다.

수학은 탄광의 카나리아다.

수학은 사람들이 AI의 궁극적 천장으로 지목한 영역이다. 창의성, 추상화, 광대한 거리에 걸쳐 서로 다른 개념을 연결하는 능력이 필요하다. 코드 생성과 콘텐츠 제작이 무너진 한참 후에도 자동화로부터 안전할 것으로 여겨졌다.

그 천장에 금이 갔다. 산산이 부서진 것은 아니다 — 금이 갔다. 미해결 문제 하나가 풀린 것은 범용 수학 추론 엔진과 같지 않다. 하지만 천장이 우리가 생각했던 것보다 낮은 곳에 있다는 개념 증명(말장난 의도 없음)이 된다.

특히 오픈소스 커뮤니티에게, 이것은 개방형 모델 접근성에 대한 긴급성을 가속화한다. 프런티어 수학 역량이 두세 개 기업의 API 전용 모델 뒤에 갇히면, 연구 커뮤니티는 이러한 시스템을 이해하고, 감사하고, 그 위에 구축하는 능력을 잃게 된다. AI 안전성에 관심이 있든, 학문적 진실성에 관심이 있든, 아니면 이 정도로 강력한 도구가 소수의 기업에 의해 통제되어서는 안 된다는 원칙에 관심이 있든, 이것은 문제다.

숙제에서 연구까지 3년

날짜를 나열해 보겠다. 압축의 정도가 놀랍기 때문이다:

2023년: GPT-4가 학부 수준의 수학 문제를 안정적으로 풀다.
2024년: 모델들이 경시대회 수준의 수학에 도달, 올림피아드 벤치마크를 돌파하다.
2025년: 모델들이 연구 수준의 수학을 보조하기 시작하다.
2026년: 모델이 미해결 문제를 풀다.

"숙제를 할 수 있다"에서 "연구를 할 수 있다"까지 3년이다. 이 일이 어떻게 전개될 것인지에 대한 당신의 심상이 무엇이었든, 아마 이런 모습은 아니었을 것이다.

지난달 여러 오픈소스 모델에 대해 FrontierMath 벤치마크를 돌려보았다. 이 특정 벤치마크에서 오픈 모델과 비공개 모델 사이의 격차는 내가 테스트한 다른 어떤 벤치마크보다 크다. 그 격차가 내가 지금 주시하고 있는 것이다 — 비공개 모델이 본질적으로 더 나아서가 아니라, 컴퓨트 천장이 어디에 있으며 누가 거기에 도달할 여력이 있는지를 드러내기 때문이다.

궤적이 부인 불가능해진 순간

우리는 2026년 3월을 2016년 3월 — 알파고가 이세돌을 이겼을 때 — 을 돌아보듯 돌아보게 될 것이라고 생각한다. 그 특정 성취가 무언가의 끝이었기 때문이 아니라, 궤적을 더 이상 무시할 수 없게 된 순간이었기 때문이다.

팔팅스는 수학자들의 사고방식을 변혁한 업적으로 아벨상을 받았다. GPT-5.4 Pro는 현재로서는 누구의 사고방식도 변혁하지 않은 채 답 하나를 추가한 문제를 풀었다. 결과를 산출하는 것과 이해를 산출하는 것 사이의 그 간극은 실재하며, 중요하다.

하지만 그것은 또한, 내 추측으로는, 일시적이다.

오픈소스 커뮤니티는 빠르게 움직여야 한다. 개방형 벤치마크, 개방형 검증 도구, 이 현상을 연구할 수 있을 만큼 충분히 역량 있는 개방형 모델이 필요하다. 이것이 기계 지능의 여명이라고 생각하든 아주 정교한 자동완성이라고 생각하든, 한 가지 주장할 수 없는 것은 이것이 중요하지 않다는 것이다.

중요하다. 그리고 이것을 연구할 수 있는 사람들이 API 비용을 감당할 수 있는 이들만이어서는 안 된다.

직접 검증해 보라

에포크의 FrontierMath 벤치마크 방법론은 그들의 출판물에 문서화되어 있다. GPT-5.4 Pro에 접근할 수 있거나 오픈 모델을 프런티어 수준의 수학 문제에 대해 테스트하고 싶다면, 거기서 시작하라. 직접 검증해 보라. 누구의 말도 그냥 믿지 마라 — 내 말도 포함해서.

그것이 언제나 열린 과학의 요점이었다. 그리고 지금, 열린 과학에는 가능한 한 많은 옹호자가 필요하다.

에포크, GPT-5.4 Pro가 프런티어 매스 미해결 문제를 풀었다고 확인. AI는 더 이상 계산기가 아니다.