<aside> 💡 원저자(Maarten Grootendorst)의 허락을 받아 원문을 번역 및 검수중입니다.

</aside>

<aside> 🚧 번역 오류 발견시 알려주시면 수정하겠습니다.

</aside>

원문 저자: Maarten Grootendorst

번역: 신종훈

원문을 번역하고 일부 링크를 추가하였습니다. 해당 글의 1인칭은 원문 저자를 지칭합니다.

원문(Original English Post by Maarten Grootendorst):

A Visual Guide to Quantization


이름에서 알 수 있듯이, 대형 언어 모델(Large Language Models, LLMs)은 소비자 하드웨어에서 실행하기에는 너무 큰 경우가 많습니다. 이러한 모델은 수십억 개의 파라미터를 초과할 수 있으며, 일반적으로 추론 속도를 높이기 위해 대량의 VRAM이 있는 GPU가 필요합니다.

따라서, 이러한 모델을 더 작게 만들기 위한 연구가 점점 더 많이 이루어지고 있습니다. 개선된 훈련, 어댑터 등을 통해 이루어집니다. 이 분야의 주요 기술 중 하나는 *양자화(quantization)*입니다.

Untitled

이 글에서는 언어 모델링의 맥락에서 양자화 분야를 소개하고, 개념을 하나씩 탐구하여 이 분야에 대한 직관을 형성해보겠습니다. 다양한 방법론, 사용 사례, 양자화의 원리를 알아볼 것입니다.

시각적 가이드이니 만큼, 양자화에 대한 직관을 형성하기 위한 많은 시각화 자료를 기대하세요!

목차

1부: 대형 언어 모델의 “문제”

LLMs는 포함된 파라미터 수 때문에 그 이름을 얻었습니다. 오늘날 이러한 모델은 일반적으로 수십억 개의 파라미터(주로 가중치)를 가지고 있으며 저장하는 데 비용이 많이 듭니다.

추론 중에는 입력(input)과 가중치(weights)의 곱으로 활성화들(activations)이 생성되며, 이 또한 상당히 커질 수 있습니다.