[BREAKING] A Japanese glossary of chopsticks faux pas (2022)

12년간 ARM 기반 칩 설계는 단순한 이분법 위에서 작동해 왔다. 성능을 위한 빅 코어. 효율을 위한 리틀 코어. 둘을 골라 적절히 섞은 뒤 출하하면 그만이었다.

애플이 여기에 세 번째 선택지를 추가했고, 그 파장은 쿠퍼티노를 훌쩍 넘어선다.

9to5Mac이 공개한 심층 인터뷰에서 애플의 실리콘 엔지니어링 팀은 M5 칩이 세 가지 코어 유형을 채택하게 된 아키텍처적 배경을 밝혔다. 이는 2011년 ARM이 도입한 이래 이기종 컴퓨팅을 지배해 온 big.LITTLE 패러다임으로부터의 결별이다. M5는 단순히 성능 코어와 효율 코어를 조합하는 데 그치지 않는다. 애플이 내부적으로 중간 계층으로 분류하는 새로운 코어를 도입했으며, 이는 기존의 어느 코어 유형으로도 제대로 처리하기 어려운, 점점 늘어나는 워크로드 영역을 위해 설계된 것이다.

모든 칩 설계자, 클라우드 사업자, 기업 구매 담당자가 던져야 할 질문은 이것이다: 이것이 2계층 모델의 종말의 시작인가?

M5의 3클러스터 아키텍처 분석

M5의 트리플 코어 설계는 세 개의 클러스터로 나뉜다. 성능 코어(P코어)는 버스트 워크로드, 즉 민첩한 사용자 경험을 좌우하는 싱글 스레드 및 지연 시간에 민감한 작업을 처리한다. 효율 코어(E코어)는 최소한의 전력 소모로 백그라운드 프로세스를 관리한다. 여기까지는 새로울 것이 없다.

세 번째 유형은 애플이 아직 눈길을 끄는 마케팅 명칭을 붙이지 않은 것으로, 정확히 중간에 위치한다. 9to5Mac 인터뷰에 따르면, 이 중간 코어는 지속적이고 중간 강도의 워크로드를 처리하도록 설계되었다. 머신러닝 추론, 백그라운드 컴파일, 연속적인 센서 처리 등 E코어에게는 너무 부담스럽지만, P코어를 깨워 열적·전력적 비용을 감수할 만큼은 아닌 종류의 작업들이다.

애플 엔지니어링 팀은 이 결정이 실제 워크로드 분석에서 비롯되었다고 설명했다. 수백만 대의 기기에서 자사 칩이 실제로 어떻게 사용되는지 연구한 결과, 불편한 선택을 강요하는 방대한 작업 범주가 존재한다는 것을 발견했다. E코어에서 실행하면 성능 저하를 감수해야 하고, P코어에서 실행하면 배터리 수명 저하를 감수해야 한다. 어느 쪽도 용납할 수 없었다.

그래서 그 중간 영역에서 어느 축으로도 타협하지 않는 코어를 만들었다.

big.LITTLE이 작동했던 이유, 그리고 더 이상 작동하지 않는 이유

ARM의 big.LITTLE 개념은 단순함 속에 우아함이 있었다. 같은 다이 위에 고성능 코어와 저전력 코어를 배치한다. 스케줄러가 수요에 따라 스레드를 코어 간에 이동시킨다. 이론적으로는 양쪽의 장점을 모두 취할 수 있다.

하지만 실제로 이 모델은 수년째 삐걱거려 왔다. 워크로드가 진화하면서 E코어가 무리 없이 처리할 수 있는 영역과 P코어가 필요한 영역 사이의 간극이 벌어졌다. 머신러닝 추론이 대표적인 예다. 온디바이스 AI 모델은 P코어의 최대 처리량까지는 필요 없지만, E코어를 압도한다. 실시간 배경 교체가 포함된 영상 회의. 항시 작동하는 음성 처리. 웨어러블에서의 지속적인 건강 센서 분석.

이러한 워크로드들은 공통된 프로필을 가지고 있다: 장시간에 걸친 지속적이고 중간 강도의 연산. 이것이 현대 실리콘 활용의 침묵하는 다수이며, 2계층 모델로는 이를 제대로 다루지 못한다.

퀄컴은 최근 스냅드래곤 설계에서 프라임 코어 방식을 통해 이 문제를 부분적으로 인식했다. 표준 P코어 위에 초고성능 단일 코어를 추가한 것이다. 그러나 이는 천장을 더 높이 올리는 것이었지, 중간의 공백을 채우는 것이 아니었다. 미디어텍은 디멘시티 라인업에서 다중 성능 계층을 실험해 왔다. 인텔은 앨더 레이크 이후 P코어와 E코어를 결합한 하이브리드 아키텍처로 x86 쪽에서 동일한 근본적 문제에 대응했다.

애플은 이를 가장 명확하게 표현한 최초의 기업이다: 중간 영역이 중요하며, 그것은 전용 실리콘을 가질 자격이 있다.

3계층 설계의 성패를 가를 스케줄링 복잡성

여기서부터 엔지니어링이 진정으로 어려워지며, 애플의 수직 통합이 경쟁사들이 쉽게 모방하기 힘든 이점을 부여하는 지점이다.

3계층 코어 아키텍처는 어떤 코어에서 어떤 스레드를 실행할지 결정하는 소프트웨어의 수준에 달려 있다. 코어가 두 종류일 때 스케줄링 결정은 비교적 단순하다. 이진 분류이기 때문이다. 이 워크로드가 무거운가 가벼운가? 세 종류가 되면 삼항 결정을 내려야 하고, 계층 간의 경계는 모호하다.

애플은 운영체제, 컴파일러 툴체인, 프레임워크, 하드웨어를 모두 통제한다. 실리콘의 특성을 완전히 파악한 상태에서 스케줄러를 튜닝할 수 있다. 전체 소프트웨어 스택을 계측하여 워크로드를 정확하게 분류할 수 있다. 엣지 케이스가 발견될 때마다 OS 업데이트를 통해 스케줄링 휴리스틱을 갱신할 수 있다.

퀄컴이나 미디어텍 칩을 탑재한 안드로이드 OEM에게는 이런 여유가 없다. 스케줄러는 리눅스 커널에 존재하며, 새로운 하드웨어 토폴로지에 끊임없이 뒤처지는 벤더 전용 에너지 인식 스케줄링 패치로 중재된다. 이 스택에 세 번째 코어 계층을 추가하면 생태계가 최적화하는 데 수년이 걸릴 조합적 복잡성이 발생한다.

이것은 이론이 아니다. 과거에 이미 벌어진 일이다. 삼성과 퀄컴이 초기 big.LITTLE 구현을 출하했을 때, 스케줄링이 너무 형편없어서 많은 리뷰어들이 단일 클러스터 설계보다 성능이 떨어진다고 평가했다. 안드로이드 생태계가 이기종 스케줄링을 제대로 구현하기까지 거의 3년이 걸렸다. 3계층 모델은 그 시계를 다시 초기화한다.

3계층 사고가 데이터 센터를 어떻게 변화시키는가

엔터프라이즈 관점에서의 의미는 덜 직관적이지만, 잠재적으로 더 큰 파급력을 가진다.

애플의 M 시리즈 칩은 맥에 탑재되지, 서버에는 쓰이지 않는다. 하지만 아키텍처적 사고는 소비자 단말에서 멈추지 않는다. AWS 그래비톤, 앰피어 알트라, 그리고 점점 늘어나는 ARM 기반 서버 칩 모두 같은 워크로드 다양성 문제에 직면해 있다. 클라우드 워크로드는 점점 이기종화되어, 지연 시간에 민감한 요청 처리와 처리량 중심의 배치 프로세싱, 그리고 지속적인 ML 추론이 혼재되고 있다.

현재의 서버 칩들은 코어 수와 클럭 속도 등급으로 이에 대응한다. 더 높은 지속 처리량이 필요한가? 코어를 더 구매하라. 더 나은 지연 시간이 필요한가? 더 높은 클럭의 부품을 구매하라. M5의 접근법은 다른 답을 제시한다: 다이 내에서 워크로드 다양성을 처리하는 실리콘을 설계하여 고객의 과잉 프로비저닝 필요성을 줄이는 것이다.

ARM사가 향후 아키텍처 사양에 3계층 레퍼런스 설계를 통합한다면—M5가 그래야 할 강력한 근거를 제시하고 있다—파급 효과는 ARM 실리콘을 운용하는 모든 클라우드 사업자에게 미칠 것이다. 그리고 그 숫자는 갈수록 늘어나고 있다.

업계 추산에 따르면, ARM 기반 칩은 현재 클라우드 컴퓨팅 인스턴스의 약 15%를 차지하며, 이는 5년 전 거의 0%에 가까웠던 것에서 크게 증가한 수치다. 오늘날 애플이 내리는 아키텍처 결정이 내일 ARM의 더 넓은 생태계가 무엇을 만들지를 좌우한다.

퀄컴, 인텔, AMD의 다음 행보

퀄컴의 대응이 가장 주목할 만할 것이다. 퀄컴은 모바일에서 애플 실리콘과의 격차를 꾸준히 좁혀 왔고, 스냅드래곤 X 시리즈로 윈도우 PC 시장에 의미 있는 진출을 이루었다. 그러나 퀄컴은 ARM 코어를 라이선스하여 커스터마이징하는 반면, 애플은 ARM 명령어 세트 라이선스만을 사용하여 코어를 처음부터 자체 설계한다. 이 차이는 맞춤형 중간 계층 코어를 구축할 때 매우 크게 작용한다.

퀄컴은 이론적으로 기존 ARM 코어 설계를 가져와 성능 계층과 효율 계층 사이에 위치하도록 클럭을 조정할 수 있다. 이는 애플의 전용 설계 방식에 비하면 투박한 수단이지만, 대부분의 워크로드에는 충분할 수도 있다. 진짜 과제는 여전히 소프트웨어 스택이다. 퀄컴은 3계층 스케줄링이 작동하려면 구글의 안드로이드 팀과 업스트림 리눅스 커널 커뮤니티에 의존해야 한다.

인텔은 다른 셈법에 직면해 있다. 인텔의 하이브리드 아키텍처는 이미 윈도우에서 스케줄링 복잡성으로 고전하고 있으며, 앨더 레이크에서 스레드 어피니티 문제로 씨름해 본 개발자라면 누구나 공감할 것이다. x86 하이브리드 모델에 세 번째 계층을 추가하면 이러한 문제가 가중된다. 그러나 인텔도 이 흐름을 무시할 수 없다. 2계층을 초과하는 이기종 설계가 더 효율적임이 입증되면, 따라가거나 입지를 양보해야 할 것이다.

AMD는 라이젠과 에픽 라인업에서 지금까지 이기종 코어 설계를 거부해 왔지만, 이 입장을 방어하기가 점점 어려워질 수 있다. 동종 설계는 스케줄링이 단순하고 이해하기 쉽지만, 워크로드가 다양할 때는 효율성을 포기하는 셈이다.

포스트 이분법 시대를 위한 실리콘 세분화

애플이 M5로 한 것은 단순한 칩 설계 결정이 아니다. 컴퓨팅 워크로드가 어떻게 진화하고 있는지에 대한 선언이다.

2계층 모델은 워크로드가 이분법적이라고 가정했다. 부하가 높거나 유휴 상태이거나. 이는 초기 스마트폰 시대, 즉 게임을 하거나 이메일을 확인하거나 둘 중 하나이던 때에는 대략 맞는 말이었다. 더 이상은 아니다. 상시 작동 AI 기능, 지속적인 건강 모니터링, 실시간 언어 처리, 백그라운드 콘텐츠 생성—이러한 지속적이고 중간 강도의 워크로드가 새로운 표준이다.

애플의 대응은 실리콘의 세분화를 워크로드의 세분화에 맞추는 것이다. 오늘은 3계층. 워크로드 프로필이 계속 다양해짐에 따라 잠재적으로는 4계층, 5계층까지. 논리적 종착점은 코어 유형의 연속체, 즉 각각이 특정 전력-성능 지점에 최적화된 코어들의 스펙트럼이다.

그 종착점은 지난 10년간 학계에서 "다크 실리콘 인식 설계"라 불러온 것과 놀랍도록 닮아 있다. 현대 칩은 동시에 전력을 공급할 수 있는 것보다 더 많은 트랜지스터를 포함하고 있으므로, 가장 현명한 전략은 다양한 특화 블록을 구축하고 필요한 것만 활성화하는 것이라는 아이디어다.

애플은 그 학술적 개념을 제품으로 출하했다.

다음 하드웨어 사이클을 평가하는 기업 구매 담당자에게 실질적인 시사점은 명확하다: 최고 성능이 아닌, 지속적 워크로드에서의 벤치마크를 주목하라. M5의 중간 코어는 싱글 스레드 속도 기록을 세우지 못할 것이다. 그럴 목적이 아니기 때문이다. 유휴 상태와 전력 질주 사이의 70%에 해당하는 컴퓨팅 시간을 배터리를 소모하거나 과도한 열을 발생시키지 않고 처리하는 것이 이 코어의 존재 이유다.

"역대 가장 빠른 칩"보다는 덜 자극적인 문구다. 하지만 대부분의 실리콘이 하루 종일 실제로 하는 일에 대한 훨씬 더 정직한 묘사이기도 하다.

[속보] 젓가락 예절 위반에 관한 일본어 용어집 (2022)