<aside> 💡 원저자(Maarten Grootendorst)의 허락을 받아 원문을 번역 및 검수중입니다.

</aside>

<aside> 🚧 번역 오류 발견시 알려주시면 수정하겠습니다.

</aside>

원문을 번역하고 일부 링크를 추가하였습니다. 해당 글의 1인칭은 원문 저자를 지칭합니다.

원문(Original English Post by Maarten Grootendorst):

트랜스포머 아키텍처는 대규모 언어 모델(LLMs)의 성공에 있어 주요한 요소였습니다. 이는 오늘날 사용되는 거의 모든 LLMs에 사용되었으며, 오픈소스 모델인 Mistral부터 클로즈소스 모델인 ChatGPT에 이르기까지 다양합니다.

LLMs를 더욱 개선하기 위해, 트랜스포머 아키텍처를 능가할 수도 있는 새로운 아키텍처들이 개발되고 있습니다. 이러한 방법 중 하나가 맘바(Mamba), 즉 상태 공간(State Space) 모델입니다.

맘바는 'Mamba: Linear-Time Sequence Modeling with Selective State Spaces' 라는 논문에서 제안되었습니다. 공식 구현과 모델 체크포인트는 GitHub repo에서 찾을 수 있습니다.$^1$

이 글에서는 언어 모델링의 맥락에서 상태 공간 모델 분야를 소개하고, 이 분야에 대한 직관을 개발하기 위해 개념을 하나씩 탐구할 것입니다. 이후, 맘바가 트랜스포머 아키텍처에 도전하는 방법을 다룰 것입니다.

비주얼 가이드로서, 맘바와 상태 공간 모델에 대한 직관을 위한 다양한 시각화를 기대해주세요!

1부: 트랜스포머의 문제점

맘바가 왜 흥미로운 아키텍처인지 설명하기 위해, 먼저 트랜스포머를 간단히 살펴보고 그 단점 중 하나를 탐구해 봅시다.

트랜스포머는 모든 텍스트 입력을 토큰으로 구성된 시퀀스로 봅니다.

Untitled