<aside> 💡 원저자(Christopher Fleetwood)의 허락을 받아 원문을 번역 및 검수중입니다.

</aside>

<aside> 🚧 번역 오류 발견시 알려주시면 수정하겠습니다.

</aside>

원문 저자: Christopher Fleetwood

번역: 신종훈

원문을 번역하고 일부 링크를 추가하였습니다. 해당 글의 1인칭은 원문 저자를 지칭합니다.

원문(Original English Post by Christopher Fleetwood):

fleetwood.dev

번역 글 모음

AI 추론에 대한 수요가 폭발적으로 증가하면서, 많은 하드웨어 스타트업들이 Domain Specific Architectures (DSA), 즉 특정 목적에 최적화된 아키텍처를 설계하고 있습니다. 이 글에서는 Transformer 워크로드로부터 역산하며, 최적의 설계 방식과 유망한 하드웨어는 무엇인지, 그리고 AI 추론의 미래를 어떻게 예측할 수 있을지 살펴보겠습니다.

가까운 미래에 수십억 명의 사람들이 깨어있는 시간 내내 AI 추론을 사용할지도 모릅니다. 이 엄청난 수요를 감당하려면 에너지와 자본이라는 두 핵심 자원의 소모를 줄이기 위해 효율성을 끊임없이 추구해야 합니다. 이러한 자원의 제약과 더불어 Moore's Law와 Dennard Scaling의 둔화 또는 정체로 인해, 하드웨어 설계자들은 주어진 작업에 특화된 아키텍처, 즉 Domain Specific Architectures (DSA)를 개발할 수밖에 없는 상황에 이르렀습니다.

현대 딥러닝에서 GPU가 지배적인 위치를 차지하게 된 것은 상당 부분 우연에 기인합니다. 그래픽 처리와 딥러닝의 연산 방식이 우연히 비슷했던 것이죠. 그 때문에 오늘날의 GPU 아키텍처에는 여전히 그래픽 처리 유산의 흔적이 남아있습니다. 그렇다면, 만약 AI 추론 하드웨어를 백지상태(carte blanche)에서 완전히 새롭게 설계한다면 어떤 모습일까요? AI 추론 워크로드에서부터 거꾸로 추적해 감으로써, 이상적인 DSA가 갖춰야 할 최적의 속성들을 알아낼 수 있습니다. 더 나아가, 추론 패러다임이 앞으로 어떤 방향으로 변해갈지 예측해 보고자 합니다. 이는 하드웨어 설계자와 엔지니어 모두에게 투자 수익률(ROI)을 보장하기 위한 매우 중요한 과정입니다.

중요한 것은 연산이 아닌, 메모리입니다

<aside>

대규모 ML 모델에서 전체 시스템 에너지의 90% 이상이 메모리에 소비됩니다.

— Onur Mutlu

</aside>

많은 사람들이 컴퓨팅 시스템을 코페르니쿠스 이전의 천동설처럼, 즉 '연산'이 우주의 중심이라고 생각하는 경향이 있습니다. 하지만 AI 추론을 이해하는 데 있어 이는 잘못된 모델입니다.

목차

중요한 것은 연산이 아닌, 메모리입니다