397억이 아니다. 3,970억 개다.

파라미터 397B. GPT-3의 두 배를 훌쩍 넘는 규모의 모델이 데이터센터도, H100 클러스터도 아닌 노트북 한 대 위에서 돌아간다는 보고가 올라왔다. Hacker News에 공개된 Flash-MoE 프로젝트가 개발자 커뮤니티를 뒤흔들고 있다.

비결은 Mixture-of-Experts, 줄여서 MoE 아키텍처의 극단적 최적화다. 전체 파라미터를 한꺼번에 메모리에 올리는 대신, 추론 시점에 필요한 전문가(expert) 모듈만 선택적으로 활성화한다. 쉽게 말하면 이런 거다. 백과사전 전 권을 책상 위에 펼쳐놓는 게 아니라, 질문에 맞는 한 권만 꺼내 펴는 방식이다.

그래서 이게 왜 중요한가? 단순한 기술 데모가 아니라, AI 인프라의 권력 구조 자체를 흔드는 이야기이기 때문이다. 이 프로젝트의 기술적 배경과 산업적 파장을 짚어본다.

"397B가 노트북에서 돌아간다"는 말, 액면 그대로 믿어도 되나

Hacker News 스레드에서 가장 뜨거운 질문도 바로 이것이었다. "진짜 397B 전부가 작동하는 거냐?"

정확히 말하면, 그렇기도 하고 아니기도 하다. MoE 모델은 전체 파라미터 수가 397B이지만, 한 번의 추론에 실제로 연산에 참여하는 활성 파라미터는 그 일부에 불과하다. Flash-MoE의 경우 토큰당 활성화되는 파라미터는 전체의 약 10~20% 수준으로 알려져 있다. 나머지는 디스크에 머물다가 필요할 때만 메모리로 스왑된다.

커뮤니티의 한 엔지니어가 이를 이렇게 요약했다. "dense 모델 기준으로 보면 40B~80B급 연산량에 가깝지만, 모델이 품은 지식의 총량은 397B에 해당하는 셈이다." 적은 연산으로 거대 모델의 성능을 끌어내는 구조다.

핵심 기술은 크게 세 가지로 압축된다.

첫째, 전문가 라우팅 최적화. 어떤 expert를 활성화할지 결정하는 게이팅 네트워크가 극도로 효율적으로 설계됐다. 둘째, 계층적 오프로딩 전략. GPU VRAM에 올릴 수 없는 파라미터를 시스템 메모리와 SSD에 단계적으로 배치하고, 예측 기반 프리페칭으로 지연을 최소화한다. 셋째, 양자화 기술과의 결합. 4비트 양자화를 적용해 전체 모델 크기를 수십 GB 수준으로 압축한다.

VRAM 프리미엄의 종말, GPU 업계가 긴장하는 이유

이 소식을 가장 불편하게 받아들일 곳은 GPU 벤더, 특히 Nvidia다.

Hacker News 스레드에서 한 유저의 코멘트가 눈에 박혔다. "Nvidia가 파는 건 GPU가 아니라 VRAM이다. MoE + 오프로딩이 VRAM 병목을 우회하는 순간, 프리미엄 GPU의 가치 공식이 달라진다."

숫자로 보면 더 선명해진다. H100 한 장에 약 4,000만 원. 397B dense 모델을 추론하려면 최소 4장, 1억 6천만 원어치가 필요하다. Flash-MoE는 이걸 200만 원대 노트북으로 해결하겠다는 이야기다. 추론 속도는 당연히 차이가 나겠지만, 비용 대비 접근성의 격차는 압도적이다.

한국의 한 AI 스타트업 CTO는 이렇게 전했다. "우리 같은 중소 규모 팀에게 클라우드 GPU 비용은 매달 수천만 원이다. 로컬에서 프로토타이핑만 돌려도 비용의 30%는 줄일 수 있다. Flash-MoE 같은 기술이 실전 수준까지 올라오면 게임 자체가 바뀐다."

반론도 만만치 않다. 속도 문제다. MoE 오프로딩 기반 추론은 데이터센터 GPU 대비 토큰 생성 속도가 10배 이상 느릴 수 있다. 실시간 서비스에는 아직 적합하지 않다는 지적이다.

클라우드 빅3의 AI 인프라 독점, 균열이 시작되나

그러나 더 큰 그림이 있다. 이 기술이 진짜로 흔드는 건 Nvidia의 GPU 매출이 아니다. AWS, Azure, GCP로 대표되는 클라우드 빅3가 쥐고 있는 AI 인프라 주도권이다.

지금까지 초거대 모델을 쓰려면 선택지가 사실상 없었다. API를 호출하거나, 클라우드 GPU 인스턴스를 빌리거나. 어느 쪽이든 결국 빅테크 플랫폼에 종속되는 구조다. 데이터 주권 문제부터 비용 예측 불가능성까지, 기업들이 불만을 안으면서도 벗어나지 못한 이유는 단순하다. 대안이 없었기 때문이다.

Flash-MoE 류의 기술은 그 고리를 끊을 실마리를 제공한다. 물론 오늘 당장은 아니다. 하지만 방향은 분명하다.

Hacker News에서 한 연구자는 이런 전망을 내놨다. "2년 안에 MoE + 양자화 + 추측적 디코딩(speculative decoding)의 조합으로, 1T 파라미터 모델도 데스크탑급 하드웨어에서 실용적 속도로 구동할 수 있을 것이다."

과장일 수도 있다. 하지만 1년 전만 해도 70B 모델을 노트북에서 돌린다는 것 자체가 농담이었다. 지금은 llama.cpp가 그걸 일상으로 만들었다. 기술의 가속도를 과소평가하는 쪽이 늘 틀려왔다.

지금 움직여야 할 세 가지

정리하면 이렇다.

하나, AI 모델 접근의 민주화가 구호에서 기술적 현실로 넘어오고 있다. Flash-MoE는 그 전환점 중 하나다.

둘, GPU 독점 체제에 균열이 생긴다. VRAM 크기로 줄 세우던 하드웨어 경쟁의 룰이 바뀔 수 있다. 메모리 대역폭, SSD 속도, 소프트웨어 최적화가 새로운 승부처로 떠오른다.

셋, 기업의 AI 인프라 전략이 재검토 대상에 오른다. 모든 워크로드를 클라우드에 올려야 하는가? 이 질문이 점점 더 현실적인 무게를 갖는다.

과대광고인지, 진짜 전환점인지는 앞으로 6개월이 판가름할 것이다. 확실한 건 하나다. GPU 가격표가 AI의 진입장벽을 결정하는 시대가 영원하지는 않다.