4천억 개의 파라미터. 스마트폰 위에서.
클라우드 엔드포인트를 온디바이스인 척 포장한 것이 아니다. 창의적인 반올림으로 치장한 70억 파라미터 경량 모델도 아니다. 4천억 파라미터 대규모 언어 모델이 아이폰 17 프로에서 로컬 추론을 수행하고 있다. ANEMLL 프로젝트가 공개하고 현재 해커뉴스에서 374포인트를 기록 중인 이 시연은, 골대가 움직이는 정도가 아니라 아예 사라져 버리는 순간 중 하나다.
무슨 일이 있었는지 정확히 짚어보자. 숫자가 공상과학처럼 들릴 때일수록 정확성이 중요하다.
스마트폰 위의 400B 모델: 실제로 무슨 일이 있었나
ANEMLL 팀이 소셜 미디어에 공개한 데모는 아이폰 17 프로가 400B 파라미터급 모델로 추론을 수행하는 모습을 보여준다. ANEMLL은 애플 실리콘에 특화된 오픈소스 추론 엔진을 개발해 왔으며, 애플 A 시리즈 및 M 시리즈 칩의 뉴럴 엔진과 GPU 코어를 타겟으로 최적화하고 있다. 이전에는 M 시리즈 맥에서의 대형 모델 추론을 시연한 바 있는데, 그것만으로도 충분히 주목할 만했다. 이번 건은 완전히 차원이 다른 이야기다.
M4 Max를 탑재한 맥북 프로는 최대 128GB의 통합 메모리와 고부하 작업을 지속할 수 있는 능동 냉각 시스템을 갖추고 있다. 반면 아이폰은 그 메모리의 극히 일부만 가지고 있으며, 한 자릿수 와트로 측정되는 열 설계 한계, 그리고 사용자가 하루 종일 버텨주길 기대하는 배터리를 안고 있다. 동일한 규모의 모델을 양쪽 환경에서 구동하는 것은 단순한 선형 스케일링 문제가 아니다. 공격적인 양자화, 메모리 맵 기반 가중치 스트리밍, 그리고 대부분의 모바일 개발자가 한 번도 고려해 본 적 없는 추론 스케줄링 기법을 요구하는 엔지니어링 쾌거다.
해커뉴스 토론 스레드에 따르면, 이 모델은 아마도 2비트 또는 혼합 정밀도 포맷까지 내려가는 극단적인 양자화를 사용하고, 뉴럴 엔진과 GPU 간의 지능적인 레이어 오프로딩을 결합한 것으로 보인다. 토큰 생성 속도는 느린 것으로 알려져 있다. 이것이 당장 프로덕션 앱에서 GPT-4 API 호출을 대체한다고 주장하는 사람은 아무도 없다. 하지만 이것이 작동한다는 사실 자체가, 스마트폰의 시스템 온 칩에서 일관된 출력을 생성해낸다는 사실 자체가 헤드라인이다.

400B가 온디바이스 AI 방정식을 바꾸는 이유
모바일 개발자들은 1년 넘게 온디바이스 모델을 실험해 왔다. 애플의 Core ML 프레임워크는 양자화된 모델의 로컬 실행을 지원한다. 구글은 픽셀 폰의 온디바이스 작업을 위해 Gemini Nano를 출시했다. 메타는 모바일 배포에 맞춘 크기의 Llama 모델을 공개했다.
하지만 이 모든 노력은 하나의 최적 구간에 집중되어 있었다: 10억에서 70억 파라미터 범위의 모델들이다. 이 범위는 실용적이다. 4비트 양자화된 7B 모델은 약 4GB RAM에 들어가고, 수용 가능한 속도로 실행되며, 요약, 간단한 Q&A, 텍스트 분류 같은 작업을 처리할 수 있다. 유용하긴 하지만, 혁신적이지는 않다.
400B 모델은 질적으로 다르다. 이 규모의 모델은 추론 능력, 다단계 문제 해결, 그리고 소형 모델이 도저히 따라올 수 없는 미묘한 언어 이해 능력을 보여준다. 7B와 400B의 차이는 파라미터가 57배 많다는 것이 아니다. 자동완성과, 당신의 병력이나 법률 문서, 또는 코드베이스에 대해 진정으로 복잡한 대화를 나눌 수 있는 무언가 사이의 차이다.
이것은 프라이버시 논거에 있어 엄청나게 중요하다. 온디바이스 AI의 전제 자체가 민감한 데이터가 절대 폰 밖으로 나가지 않는다는 것이다 — 건강 기록, 상담 노트, 금융 문서, 개인 메시지. 로컬에서 실행할 수 있는 모델이 표면적인 작업 이상에서 버벅거리는 7B 모델뿐이라면, 온디바이스 AI는 있으면 좋은 수준에 머문다. 400B급 모델이 속도가 다소 느리더라도 온디바이스에서 실행 가능해진다면, 민감한 정보를 다루는 앱을 만드는 모든 개발자의 셈법이 달라진다.
애플 실리콘 아키텍처가 가능하게 한 것
애플의 칩 로드맵을 지켜보는 사람이라면 여기서부터 흥미로워진다.
아이폰 17 프로에는 TSMC의 최신 공정 노드로 제조된 A19 Pro가 탑재된 것으로 알려져 있다. 애플은 매 세대마다 뉴럴 엔진의 처리량과 SoC에서 사용 가능한 메모리 대역폭을 꾸준히 늘려왔다. 하지만 진짜 이야기는 통합 메모리 아키텍처다.
수년 전, CPU, GPU, 뉴럴 엔진이 동일한 메모리 풀에 공유 접근하도록 한 애플의 결정은 일종의 아키텍처적 베팅이었다. 당시에는 전력 효율을 위한 선택처럼 보였다. 지금은 모바일에서 대형 모델 추론을 가능하게 하는 가장 중요한 단일 설계 결정으로 보인다. 모델 가중치가 모든 컴퓨팅 유닛이 복사 없이 접근할 수 있는 하나의 메모리 공간에 존재하면, 기존 아키텍처에서 대형 모델 추론을 불가능하게 만들던 병목을 제거할 수 있다.
ANEMLL 팀의 작업은 애플의 하드웨어가 대부분의 개발자가 인식했던 것보다 훨씬 더 많은 AI 추론 여유분을 이미 가지고 있음을 시사한다. A19 Pro의 뉴럴 엔진은 메모리 대역폭과 결합되어, 400B 모델에서 토큰을 생성할 수 있을 만큼 빠르게 모델 가중치를 스트리밍할 수 있는 것으로 보인다. 느리긴 하다, 그렇다 — 하지만 하드웨어 경로는 명확하다.
이것이 애플의 개발자 생태계에 미치는 의미는 상당하다. 애플이 다음 행보로 이 역량의 더 많은 부분을 Core ML이나 WWDC에서 발표할 새로운 추론 프레임워크를 통해 개방한다면, 모바일 개발자들은 이전까지 서버 전용 영역이었던 모델 클래스에 접근할 수 있게 된다. 점진적 개선이 아니다. 플랫폼 전환이다.
아직 흥분하기엔 이른 이유
나는 임상 AI에 대해 글을 쓰는 것을 업으로 삼고 있다. 무대 위에서는 마법처럼 보였지만 현실에서 무너져 내린 데모를 너무 많이 봐왔다. 그러니 브레이크를 좀 밟겠다.
속도가 중요하다. 400B 모델이 아이폰에서 몇 초에 한 토큰씩 생성한다면, 이것은 개념 증명이지 제품이 아니다. 모델이 아무리 프라이빗하고 강력해도 사용자는 응답에 30초를 기다리지 않는다. 지연 시간은 그 자체로 기능이며, 현재 클라우드 추론이 그 경쟁에서 몇 자릿수 차이로 앞서고 있다.
양자화에는 대가가 있다. 400B 모델을 모바일 메모리에 맞추기 위해 압축한다는 것은 극단적인 정밀도 감소를 의미한다. 가중치에서 비트를 깎아낼 때마다 정확도 저하의 위험이 따른다. 2비트 양자화된 400B 모델이 서버에서 풀 정밀도로 돌아가는 70B 모델을 능가할 수도 있고 못할 수도 있다. 이러한 극단적 양자화 체제에 대한 벤치마크는 아직 미성숙하며, 실제 성능은 학술 데이터셋의 퍼플렉시티 점수와 크게 달라질 수 있다.
열 쓰로틀링은 현실이다. 스마트폰은 수동 냉각이다. 지속적인 추론 워크로드는 열을 발생시킨다. A19 Pro는 뜨거워지면 쓰로틀링이 걸리며, 이는 처음 몇 토큰이 수용 가능한 속도로 도착하더라도 긴 대화 중에 성능이 급격히 저하될 수 있음을 의미한다. 더운 날 4K 영상을 촬영해 본 사람이라면 이 문제를 뼈저리게 알 것이다.
배터리 영향이 크다. 추론을 위해 뉴럴 엔진과 GPU를 전력으로 가동하면 배터리가 빠르게 소모된다. 복잡한 쿼리 한 번에 배터리의 20%가 소모된다면, 채택은 프라이버시가 절대적으로 요구되는 사용 사례에 국한될 것이다.
모바일 개발자가 지금 당장 해야 할 일
오늘 당장 앱 아키텍처를 갈아엎지는 마라. 하지만 주의를 기울이기 시작하라.
ANEMLL 프로젝트는 오픈소스다. 민감한 데이터 — 건강 정보, 법률 문서, 금융 기록 — 를 다루는 iOS 앱을 만들고 있다면, 저녁 시간을 투자해 읽어볼 가치가 있다. 추론 파이프라인을 이해하라. 애플의 뉴럴 엔진에서 어떤 양자화 포맷이 작동하는지 이해하라. 메모리 제약 조건을 이해하라.
더 중요한 것은, 앱의 AI 아키텍처를 클라우드와 디바이스 사이의 이분법이 아닌 스펙트럼으로 생각하기 시작하는 것이다. 미래는 아마도 하이브리드 추론의 모습일 것이다: 지연 시간에 민감한 작업에는 작고 빠른 온디바이스 모델을, 프라이버시가 중요하고 사용자가 기다릴 의향이 있는 복잡한 쿼리에는 더 큰 온디바이스 모델로 확장하는 옵션을 갖추는 것.
애플은 조용히 이를 위한 인프라를 구축해 왔다. Core ML, 뉴럴 엔진 개선, 통합 메모리 아키텍처, Apple Intelligence의 온디바이스 모델 지원 — 각각의 조각은 점진적으로 보였다. 하지만 함께 놓고 보면, 아무도 이렇게 빨리 올 것이라 예상하지 못했던 모델 규모에 대비된 플랫폼을 형성하고 있다.
훨씬 더 흥미로워진 경쟁
AI 업계는 지난 3년간 더 큰 데이터 센터를 짓고, 더 많은 GPU를 사들이고, 어느 클라우드 제공업체가 최고의 추론 가격을 제시하는지 논쟁하며 보냈다. 그 경쟁은 끝나지 않았다. 하지만 병행하는 또 다른 경쟁이 훨씬 더 가시화되었다.
스마트폰이 400B 모델을 돌릴 수 있다면 — 느리더라도 — 엣지 추론 이야기는 더 이상 스마트 스피커와 IoT 센서에 국한되지 않는다. 대부분의 사람이 소유한 가장 강력한 개인용 컴퓨터에 관한 이야기가 된다. 이미 생체 인식 데이터, 위치 기록, 연락처, 사진, 메시지를 담고 있는 바로 그 기기.
프라이빗하고, 온디바이스이며, 대규모 추론 위에서 매력적인 경험을 구축하는 방법을 알아내는 개발자가 상당한 우위를 점할 것이다. 클라우드 AI가 사라져서가 아니라 — 사용자가 절대 클라우드에 맡기지 않을 애플리케이션의 범주가 통째로 존재하기 때문이다.
증상을 맥락 속에서 진정으로 이해하는 의료 선별 앱. 계약서를 서버로 보내지 않고 분석할 수 있는 법률 어시스턴트. 세션의 단 한마디도 전송하지 않는 심리 상담 동반자. 외부로 연결하지 않고 독점 코드베이스에서 작동하는 코드 어시스턴트.
이런 애플리케이션에는 진정으로 유능할 만큼 충분히 큰 모델이 필요하다. 이번 주를 기점으로, 주머니 속 하드웨어가 소프트웨어 생태계보다 먼저 준비될 수 있다는 증거를 갖게 되었다.
가능한 것과 실제로 출시된 것 사이의 격차가 훨씬 더 벌어졌다. 기회는 바로 그 틈에 있다.