3,970억 개의 파라미터. 48기가바이트 통합 메모리. 맥북 한 대.
이 세 숫자는 같은 문장에 들어갈 수 없는 조합이었다. 불과 지난주까지만 해도 이 규모의 모델을 실행하려면 다중 노드 GPU 클러스터, 즉 AWS나 Google Cloud에서 월 수천만 원에서 수억 원에 달하는 임대료를 내야 하는 수준의 하드웨어가 필요했다. 새로운 추론 최적화 기술인 Flash-MoE가 이 요구 사항을 애플 스토어에서 살 수 있는 Apple Silicon 머신 한 대로 압축해 버렸다.
그 파장은 ML 연구소에서 클라우드 가격 책정 부서, 반도체 전략 회의까지 연쇄적으로 퍼지고 있다. 어떻게 이런 일이 일어났는지, 무엇을 의미하는지, 그리고 누가 타격을 입게 되는지 짚어본다.
MoE 모델은 강력하지만 메모리를 많이 잡아먹는다
Mixture-of-Experts, 즉 MoE 아키텍처는 2023년 말부터 본격적으로 주목받기 시작했다. 핵심 아이디어는 간단하다. 모든 순전파 과정에서 모든 파라미터를 활성화하는 대신, MoE 모델은 각 토큰을 전문화된 "전문가(expert)" 서브네트워크의 일부에만 라우팅한다. Mixtral 8x7B, DeepSeek-V2를 비롯한 여러 오픈 가중치 릴리스가 이 패턴의 효과를 입증했다. 추론 단계당 전체 파라미터의 일부만 활성화하면서도 최전선 수준의 품질을 얻을 수 있다.
문제는 항상 메모리였다. 특정 토큰에서 소수의 전문가만 활성화되더라도, 전체 모델 가중치는 어딘가에서 접근 가능한 상태로 유지되어야 한다. 표준 float16으로 저장된 3,970억 파라미터 규모의 MoE 모델은 로드하는 것만으로 약 794GB의 VRAM을 요구하며, 이는 최소 A100 80GB GPU 8장에 해당하는 영역이다. 연산은 희소하지만 메모리 비용은 그렇지 않다.
무대를 마련한 양자화와 오프로딩의 흐름
2026년 1월과 2월에 걸쳐, 여러 독립적인 연구 흐름이 같은 질문으로 수렴했다. MoE 모델이 토큰당 일부 전문가만 활성화한다면, 굳이 모든 전문가를 고속 메모리에 올려둘 필요가 있는가?
논리는 충분히 단순하다. 어느 시점에서든 대부분의 전문가 가중치는 유휴 상태로 VRAM에 앉아 아무것도 하지 않으면서 다른 워크로드의 메모리 접근을 차단하고 있다. Hugging Face와 arXiv에 논문을 게시한 팀을 포함해 여러 연구소의 연구자들이 비활성 전문가를 더 느린 저장 계층으로 오프로딩하고, 라우팅 네트워크가 선택할 때만 GPU 메모리로 불러오는 실험을 시작했다.
병목은 지연 시간이었다. CPU RAM과 GPU VRAM 간의 전통적인 PCIe 대역폭은 Gen4 x16 레인 기준 약 32GB/s가 한계다. 추론 도중 수 기가바이트 규모의 전문가 블록을 이 버스를 통해 스왑하면 처리량을 죽이는 지연이 발생했다.
Flash-MoE는 어떻게 지연 문제를 해결했나
2026년 3월 20일 Hacker News에 등장해 빠르게 첫 페이지로 올라간 Flash-MoE는 지연 문제를 다른 각도에서 공략한다. 프로젝트 문서와 커뮤니티 논의에 따르면, 이 기술은 세 가지 전략을 결합한다.
첫째, 공격적인 양자화. 전문가 가중치를 고급 GPTQ 방식의 방법으로 2비트 및 3비트 표현으로 압축하여 3,970억 파라미터 모델의 디스크 및 메모리 사용량을 극적으로 줄인다. 2비트 정밀도에서 3,970억 개의 파라미터는 100GB 미만으로 들어간다.
둘째, 예측적 전문가 로딩. 라우터가 전문가를 선택한 뒤 가져오기를 기다리는 대신, Flash-MoE는 경량 선행 탐색 패스를 실행하여 다음 여러 토큰이 어떤 전문가를 필요로 할지 예측한다. 이를 통해 가중치가 실제로 필요해지기 전에 SSD나 시스템 RAM에서 활성 연산 버퍼로 프리페칭할 수 있다.
셋째, 바로 이 지점에서 Apple Silicon이 등장하는데, 통합 메모리 아키텍처를 활용한다는 것이다. M 시리즈 칩에서는 CPU, GPU, Neural Engine이 하나의 메모리 풀을 공유한다. 넘어야 할 PCIe 버스가 없다. 통합 메모리에 저장된 전문가 가중치는 SoC의 전체 메모리 대역폭으로 GPU 연산 코어에서 바로 접근할 수 있으며, M4 Max의 경우 546GB/s에 달한다. 이는 디스크리트 GPU 시스템의 PCIe 기반 오프로딩보다 한 자릿수 이상 빠르다.
48GB 통합 메모리를 갖춘 M4 Max 맥북에서 Flash-MoE를 테스트한 사용자들이 보고한 결과는 다음과 같다. 3,970억 파라미터 MoE 모델이 대화형 추론을 실행한다. 빠르지는 않다. 데이터센터 속도도 아니다. 하지만 기능적으로 작동하며, 노트북에서 대화와 코드 생성이 사용 가능한 속도로 토큰을 생성한다.
Apple의 아키텍처 도박이 여기서 결실을 맺는 이유
이것은 "아무 소비자용 하드웨어에서나 큰 모델을 돌린다"는 일반적인 이야기가 아니다. Apple M 시리즈 칩의 통합 메모리 아키텍처가 핵심 구조물이다. NVIDIA RTX 4090(24GB VRAM)과 128GB 시스템 RAM을 갖춘 전통적인 x86 워크스테이션에서는 전문가 오프로딩이 여전히 PCIe 벽에 부딪힌다. 버스가 병목이 된다.
2020년 M1부터 시작된 Apple의 설계 결정, 즉 CPU와 GPU 메모리를 하나의 고대역폭 풀로 통합한 것은 노트북과 태블릿의 전력 효율을 위해 내려진 것이었다. AI 추론이 주된 동기는 아니었을 가능성이 높다. 하지만 6년이 지난 지금, 그 아키텍처 선택은 정확히 이 워크로드에 대해 고유한 이점을 만들어냈다. 디스크리트 GPU 병목 없이 이 수준의 메모리 용량과 대역폭 조합을 제공하는 소비자급 플랫폼은 현재 다른 곳에 없다.
48GB M4 Max 맥북 프로의 소매가는 약 3,499달러다. 3,970억 파라미터 모델을 실행할 수 있는 동등한 클라우드 인스턴스는 제공업체와 가용성에 따라 시간당 10~30달러가 든다. 손익분기점 계산은 복잡하지 않다.
클라우드 제공업체가 직면한 불편한 마진 문제
바로 이 지점에서 특정 비즈니스 모델에 불편한 경제학이 시작된다.
AWS, Google Cloud, Azure는 하나의 가정 위에 AI 컴퓨팅 서비스를 구축해 왔다. 최전선 모델 추론에는 개인 사용자와 소규모 기업이 소유할 수 없는 하드웨어가 필요하다는 것이다. GPU 인스턴스 가격 책정은 이를 반영한다. A100과 H100 임대의 마진은 상당하며, 클라우드 기반 추론 API의 종속 효과는 시간이 갈수록 심화된다.
Flash-MoE가 클라우드 GPU 클러스터의 필요성을 없애는 것은 아니다. 학습에는 여전히 필요하다. 수천 명의 동시 사용자에게 서비스하는 대규모 프로덕션 추론에도 여전히 필요하다. 그러나 사용 사례 스펙트럼의 의미 있는 부분, 구체적으로 단일 사용자 및 소규모 팀의 추론, 개발, 테스트, 실험 영역을 잘라내어 로컬로 전환시킨다.
프로토타이핑 중 클라우드 추론에 월 500달러를 지불하던 개발자가 이제 이미 보유한 하드웨어에서 같은 수준의 모델을 실행할 수 있다. 이것은 이론적 시나리오가 아니다. Hacker News 토론 스레드에서 여러 댓글 작성자가 Flash-MoE를 테스트한 지 몇 시간 만에 정확히 이 워크플로우 전환을 보고했다.
여전히 남아있는 트레이드오프
몇 가지 제약은 여전히 엄격하다. 3,970억 파라미터를 48GB 메모리에 맞추기 위해 필요한 2비트 및 3비트 양자화는 출력 품질을 저하시킨다. 커뮤니티 스레드에 공유된 벤치마크는 풀 정밀도 추론 대비 표준 평가에서 측정 가능한 하락을 보여준다. 정확도 마진이 중요한 연구 및 프로덕션 배포에서 이는 실질적인 트레이드오프다.
처리량도 또 다른 한계다. Flash-MoE를 실행하는 단일 M4 Max는 8-GPU 클라우드 인스턴스보다 훨씬 느리게 토큰을 생성한다. 배치 처리, 대규모 문서 분석, 고동시성 API 서빙에는 클라우드 구성이 여전히 우위에 있다.
그리고 48GB라는 최소 기준 자체가 필터다. 기본형 M4 맥북 프로는 16GB 또는 24GB로 출시된다. 48GB 이상을 제공하는 것은 Max와 Ultra 구성뿐이며, 해당 기종의 가격은 그에 상응한다.
앞으로의 방향
Flash-MoE는 독립적으로 가속되고 있는 세 가지 트렌드의 교차점에 있다. MoE 아키텍처가 최전선 오픈 가중치 모델의 기본값이 되어가고 있으며, 양자화 기술은 품질 손실을 줄이면서 점점 더 공격적으로 발전하고 있고, Apple은 매 M 시리즈 세대마다 통합 메모리 대역폭을 계속 확장하고 있다.
일부 애널리스트가 전망하듯 M5 Ultra가 800+GB/s 대역폭에 256GB 통합 메모리를 탑재한다면, 단일 데스크탑 머신에서 실행 가능한 모델의 범위는 극적으로 확장된다. 현재의 3,970억 파라미터 시연은 천장이 아닌 바닥이 된다.
클라우드 제공업체에게 전략적 질문은 로컬 추론이 클라우드 추론을 대체하느냐가 아니다. 대규모에서는 대체하지 못한다. 진짜 질문은 수요 곡선의 얼마만큼이, 특히 개인 개발자, 연구자, 소규모 팀이라는 긴 꼬리 부분이 클라우드에서 완전히 이탈하느냐다. 이 세그먼트는 단위당 마진이 가장 높고 전환 비용이 가장 낮은 구간이다.
데이터는 아직 초기 단계다. 그러나 방향성은 읽을 수 있다. 노트북 위의 3,970억 파라미터 모델은 올해 일어날 일이 아니었다. 그런데 일어났다.