4.4 근원적 타협점: N-gram 구조와 확률적 마르코프 체인 (Markov Chain)
자연어 확률 연산 파이프라인에서 탐색하고자 하는 문맥 시퀀스(Sequence)가 고작 4단어 이상 축적되기만 해도 경험적 카운트 결과가 $0$건으로 소멸(Sparsity 에러)하며 확률적 결합 모델 자체가 붕괴되는 절망적인 한계점을 맞이했습니다. 이에 과거 초기 딥러닝 이전의 컴퓨터 정보 공학 학자들은 결국 데이터 볼륨 상의 완벽함을 내려놓고, 통계적 차원 축소를 위해 “수식 계산에 쓰이는 너무 오래된 과거의 문맥 파편 모수들은 시스템 메모리에서 영구적으로 폐기해 버리는” 극단적인 ‘근사치 타협 알고리즘’을 창안하게 됩니다.
4.4.1 언어 모델의 차원 축소 타협점: 시계열 관측 절단기 (N-gram)
기존에 수립했던 순수 조건부 확률 연쇄 법칙(Chain Rule) 곱셈 공식이 가진 치명적인 결함은, $n$번째 타겟 단어의 발화 확률을 구하기 위해 그 앞에 등장했던 모든 서술어와 역사적 문맥(Full Context History)을 단 하나도 빠짐없이 스캐닝하여 조건부 교집합으로 엮으려 했다는 점입니다.
이를 타개하고 메모리 공간 차원(Space Complexity)을 극적으로 줄이기 위해 통계 학자들은 엄청난 수리적 단순화(Approximation, 근사화 기법) 작업에 착수합니다. 문장 처음부터 끝까지 전체를 분석하려는 완벽주의를 포기하고, 시스템 연산에서 너무 오래된 과거의 지표들은 마치 가위로 싹둑 잘라내듯 메모리 큐(Queue)에서 영구 삭제합니다.
그리고 오직 “판단 지표 코앞에 위치한 가장 최근의 단어 $N$개” 만을 연산의 타겟 조건으로 설정하여 확률 변수 폭을 강제적으로 좁히는 타협을 이룹니다. 이 통제된 단위 슬롯을 N-gram 체계라 부릅니다.
1. 수학적 근사화(Approximation) 연쇄 전개의 현장
조건부 검색 모수를 $N$개로 삭감한 만큼 분모(연산 탐색 스코프)가 급격하게 짧아집니다.
- (완벽주의 SLM 원본 모형) $P(\text{is} \mid \text{어제 스코틀랜드에서 전학을 온 안경 쓴 착한 little boy})$
- (N-gram 근사 최적화 모형) 오랜 과거를 폐기하고 가장 인접한 명사 딱 1개와 타협 $\approx P(\text{is} \mid \text{boy})$
[!NOTE]
💡 N-gram 아키텍처의 철학: 단기 기억으로의 전환
N-gram 모델은 마치 극단적인 단기 기억 의존 체계와 같습니다. 방금 전 1분 동안 무슨 긴 이야기를 나눴는지는(어제 전학 온~) 램(RAM) 영역에서 완전히 소거하여 정보의 연산 부하를 0으로 만들지만, 오직 방금 상대방 입에서 튀어나온 가장 인접한 마지막 단어군(boy) 에만 모든 백엔드 연산을 집중하여 수학적 빈도를 도출하고 잽싸게 다음 후속 단어(is)를 찍어내는 획기적인 최적화 형태를 띱니다.
4.4.2 데이터 폐기가 합리화되는 수리적 이유: 마르코프 체인 (Markov Chain)
그렇다면 문맥 정보 데이터들을 기계가 독단적으로 잘라내어 폐기하는 이런 무자비한 식 변형 행위가 수학적 공리를 거스르는 반칙은 아닐까요? 놀랍게도 통계학에서는 이 과감한 시계열 차단 행위를 러시아 통계학자 안드레이 마르코프(Andrey Markov)가 제안한 ‘마르코프 성질(Markov Property)’ 이라는 견고한 이론적 원리로 합법화시켜 방패를 씌워줍니다.
마르코프 근사 가정 (Markov Assumption):
“임의의 관측 상태 집합이 미래(Next Token) 상태로 나아가기 위해, 굳이 너무 아득하고 먼 과거의 확률 상태 요소들까지 시스템 메모리로 끌어올 필요가 없다. 오직 아주 최근에 일어난 직전 $1 \sim N$개의 상태 데이터 집합만으로도 미래 스텝을 도출하기 위한 논리적 예측 근거로써 통계적으로 충분하다.”
다시 말해 확률론적으로 구태여 저 멀리 문장 치점수에서 어제 라고 수식했든 전학 온 이라고 수식했든 간에, 현재의 가장 강력한 후속 서술어(is~)를 최종 결정하고 지배하는 핵심 인자는 가장 최전방 교차로에 위치한 영단어 boy 라는, 매우 강력하지만 리스크가 동반되는 ‘통계학적 단절 베팅’입니다.
4.4.3 N-gram 관측 체급(N)에 따른 분할 메모리 파이프라인
조건부 과거를 절단하는 범위(N)를 몇 개로 지정하느냐에 따라 머신러닝 시스템의 문맥 수용 한계(기억력 시야각)가 결정됩니다.
- Uni-gram ($N=1$): 과거의 문맥 축적을 아예 인정하지 않고 스코프를 완전히 0으로 소거하는 형태입니다. 직전에 무슨 단어가 출력되었든 전혀 상관하지 않고, 오직 1차원 빈도수 사전에 의존해 ‘가장 출현 횟수($Count$)가 잦은 최상위 1위 글자(
is,the)’를 확률표 상에서 맹목적으로 추출하는 극단적 형태입니다. - Bi-gram ($N=2$): 바로 직전에 나왔던 한 개의 단어 블록(History=1)만을 뒤돌아 조건부로 적용하여 다음 발화 확률($\text{is}$)을 추측합니다. ($\approx P(\text{is} \mid \text{boy})$)
- Tri-gram ($N=3$): 연산량 부하를 감수하고서라도 문맥을 위해 앞표본 2개의 단어를 묶어서 교집합의 베이스로 참고하는 시야가 꽤 확장된 언어 모델입니다. ($\approx P(\text{is} \mid \text{little boy})$)
4.4.4 N-gram 아키텍처의 구조적 맹점 (장기 의존성의 붕괴)
마르코프 성질이라는 위대한 수학적 방패 체계에 기대어, 치명적이었던 데이터 희소성(Sparsity 에러)을 교묘하게 피하고 통계 서버 파이프라인을 기적적으로 살려낸 것처럼 보이지만, 사실 이 모델은 본질적인 ‘과거 히스토리 강제 삭제’라는 태생적 제약 때문에 텍스트의 맥락이 조금만 서술적으로 복잡해져도 앞뒤가 전혀 맞지 않는 논리 파탄 문장을 끝없이 양산해 내는 치명적인 한계점에 봉착합니다.
🔴 롱-텀 디펜던시 (Long-term Dependency, 장기 의존성) 상실 프레임워크
인간의 복잡한 자연어 구조에서는, 아주 멀리 떨어져 도열된 과거의 특정 형용사 구문이 수십 단어 뒤에 등장할 현재 문장 맨 끝의 정체성을 절대적으로 지배하는 상황이 비일비재하게 발생합니다.
“철수가 어제 마트에서 사온 아주 빨갛고, 둥글고, 탐스럽게 열린 저 [ ? ]”
인간이 판단하는 당연한 정답 추론은 ‘사과’ 입니다. 사람은 10초 전에 발화된 저 멀리 떨어져 있는 과거의 ‘빨갛고’, ‘둥글고’ 라는 핵심 단서를 머릿속 장기기억 캐시(Long-term Cache) 체계에 연속적으로 간직하고 추론에 끌어다 쓰기 때문에, 100%에 가까운 정답 적중률을 보여줍니다.
하지만 빈도수 기반의 $N=2$ 바이그램 마르코프 기계의 인프라 내부에는 직전에 청각 센서에 스캔된 탐스럽게 열린 저 라는 이 마지막 3단어의 정보 토큰만 RAM 메모리에 등재되어 있습니다! “사과”를 유추하기 위한 핵심 인덱스 텍스트인 앞의 ‘빨갛고’ 수식어들은 아까 서버 용량의 파이프를 절약한답시고 시스템 스스로 마르코프 가위로 잘라서 폐기 처분해 영구 삭제해 버렸습니다. 결국 이 짧고 모호한 데이터 파편 덩어리만 관측해서는 기계가 통계적으로 완벽한 앞의 과일 정답을 확률적으로 추론해 도출할 방법론이 완벽하게 차단(Dependency Loss) 됩니다.
바로 이 고전 통계 역사의 가장 치명적인 약점인 “분절된 시야 폭(Context Window Limitation)” 병목을 모조리 파괴적 혁신으로 극복하고 판을 뒤엎기 위해, 2017년 구글의 천재 인공지능 학자들은 과거의 앞선 수천수만 단어들의 유기적인 맥락 연결고리를 싹 다 한 번에 일괄 스캐닝하여 하늘 위에서 내려다보듯 관측하는 어텐션(Attention, 집중 지표 체계) 메커니즘을 창안해 냈고, 이는 영광스런 트랜스포머(Transformer) LLM 시대의 장엄한 서막을 열게 됩니다.