5.6 신경망 미분과 통계 엑셀학의 이종교배: 스탠포드 GloVe (Global Vectors)
글로벌 IT 공룡 구글(Word2Vec)과 페이스북(FastText)이 임베딩 은닉층 전쟁을 벌일 때, 학계의 상징 미국 스탠포드 대학 연구진들은 전혀 다른 전통적 관점에서 그들의 치명적인 약점을 물고 늘어졌습니다. “저것들은 징그럽게 좁은 창문(Window)만 보면서 마치 자기가 문서 전체를 다 통달한 것처럼 잘난 척을 한다!”
통계학의 엑셀 카운트 교리와 현대 신경망의 미적분을 기괴하고도 아름답게 융합시킨 스탠포드의 역작, GloVe(글로브) 모델의 작동 철학을 설명합니다.
5.6.1 구글 Word2Vec 딥러닝 맹신론자들의 치명적 약점 (Local Window)
Word2Vec 시스템은 CBOW나 Skip-gram을 훈련할 때, 윈도우 사이즈(스팬)라는 아주 비좁은 돋보기 창문 구멍으로 문서를 조금씩 나눠서 읽어냅니다. 앞뒤 단어 1~2개 수준(Local Window)의 경호원만 스캔하며 조금씩 옆칸으로 기어가서 가중치를 조절합니다. 이로 인해 무서운 스케일 부조화가 터져버립니다.
스탠포드의 정통 통계학자들의 비판: “내가 지금 1,000페이지짜리 해리포터 소설을 학습시키고 있다면? 기계는 거대한 텍스트의 숲은 못 보고 오직 그 좁은 동네 구석의 점들 편식만 하게 된다. 구글 너희들은 1000페이지 책
전체 통계(Global)역사에서 저 두 단어가 진짜로 얼마나 빈번하게 같이 손을 잡고 등장했는지, 거시적 우주 전체의 위대한 동시발생 빈도 통계(Count) 를 임베딩 역전파 지표에 한 톨도 제대로 반영하지 못하는 멍청한 로직 통계의 오류를 범했다!”
이 좁은 시야각 우물 안 개구리 문제를 타파하기 위해 스탠포드 대학교는, 과거 옛날 통계 방식(카운트 LSA)의 무식한 안정성과 현재 딥러닝 망의 유연성을 스까버리는(?) 전설의 이종 교배를 시전합니다.
5.6.2 GloVe의 핵심 1단계: 동시 등장 행렬 (Co-occurrence Matrix) 그리기
스탠포드 연구진은 최신 GPU 훈련 스위치를 켜기 전에, 가장 먼저 구시대 3주 차에 배웠던 ‘무식한 전체 카운팅 엑셀(Matrix) 구조 그리기’ 노가다부터 시전합니다. 단 카운팅 하는 조건이 있습니다. “문서 처음부터 끝까지 다 뒤져서, 두 중심 단어와 주변 단어가 지정된 스팬 창문 반경 안에 같이 동시에 등장해서 손을 잡았던 횟수 스코어를 무식하게 다 누적 합산해!”
ice와steam이란 단어가, 해리포터 수천 페이지 동네 전체를 풀스캔 해봤더니 좁은 창문 범위에 같이 엮여서 잡힌 적이 딱 2번 있었다. $\to$ 거대 엑셀 행렬 $X$의[ice, steam]좌표 칸에 값2할당.- 이러한 방식으로 문서 전체 통계를 거대하게 녹여낸 방대한 전역 카운트(Global Count) 엑셀 매트릭스 백과사전 $X$를 영구적으로 물리 디스크에 구축합니다. (여기서 $X_{ij}$ 는 중심단어 $i$와 주변 단어 $j$가 코퍼스 전체에서 동시 발생한 절대 확률 빈도수입니다.)
5.6.3 통계 테이블과 인공신경망 공간의 기형적 융합 (목적 함수 최적화)
엑셀 테이블 데이터를 다 그렸다면 이제 GloVe의 진짜 무서운 수학적 목표(Objective Function / Cost J)가 가동됩니다.
“자, 딥러닝 기계야! 네 머릿속 3D 임베딩 우주 공간에서 연산해 낸 두 벡터 점의 내적($W_i \cdot W_j$) 수치가, 방금 내가 무식하게 손으로 카운팅해서 아까 엑셀표에 그렸던 고전 역사적 확률 로그 통계 수치($\log X_{ij}$)결과와 최대한 수학적으로 100% 똑같은 결괏값이 도출되도록, 너의 딥러닝 뇌세포를 엄청나게 미분 채찍질해서 맞춰내라!!”
수식이 악마처럼 복잡하게 생겼지만, 수학적 본질과 뼈대는 아주 심플한 제곱 오차 회귀 모델링입니다.
딥러닝 기계의 벡터 내적 추측 결괏값 (수식 중앙 파란줄) $-$ 인간이 세어놓은 실제 엑셀 통계치 정답 (수식 중앙 초록줄)
이 두 값 사이의 오차 편차를 완전한 제로($0$)로 미분해서 영원히 죽여버리는 손실함수 모델링의 예술입니다.
[!TIP]
📖 초심자를 위한 쉬운 해설: 두 마리 토끼를 다 잡은 스탠포드의 승리
이 기이한 혼종 함수를 도입한 덕분에, GloVe 모델은 거대한 두 마리 토끼를 동시에 잡아냅니다.
- Word2Vec 딥러닝의 강점: 주변 창문 단어를 슬쩍엿보면서 국지적으로 방어하는 문맥적 기하학 유추 (King-Man+Woman=Queen) 를 완벽히 부드럽게 수행하면서도,
- 고전 통계학의 강점: 1회 성으로 흩어지는 게 아니라 엑셀 테이블로 단결된 문서의 전체 통계 즉 글로벌(Global) 동시 발생 비율 뼈대 팩트 마저 저 미분 방정식 안에 절대수치로 강제로 반영되고 만 것입니다. 국지성과 전역성을 모두 확보한 하이브리드 완전체가 탄생했습니다.
5.6.4 강력한 가중치 방어막 함수 $f(x)$ 의 치트키 (불용어 암살)
저 어려운 미분 수식 제일 왼쪽에 신비하게 곱하기로 붙어있는 스위치 엔진 가중치 함수 $f(X)$ 는 구글 SGNS의 불용어 네거티브 샘플링 꼼수와 완벽하게 맥락이 똑같은 깡패 역할을 수행합니다.
- 관사 불용어 문제 방어: 우리가
The나is처럼 쓸데없는 잡초 앵무새 단어들에 대해 거대한 엑셀 동시카운트 행렬을 구하면, 결과 숫자가 막 3억 회, 5억 회 등 심각하게 터져 나가 계산 한도를 초과합니다. - $f(X)$ 함수의 진압: 저 함수 스위치는 구조가 특이해서, 카운트 엑셀 수치(
X)가 일정 수준(예: 100회) 이상으로 뚫고 올라가려고 하면 그래프가 갑자기 평평해지며 허들을 턱! 하고 닫아버립니다. 그 이상으로 가중치를 비례해서 올리지 못하게 Max 상한선을 쳐서 억제(Cap) 해 버립니다! - 즉, 쓸데없이 숨쉬기처럼 자주 나오는 관사 수억 번 등장 데이터가 저 뒤쪽의 정교한 딥러닝 오차 미분 학습 수식을 아예 혼자 비율로 잡아먹고 파괴시켜 버리는 치명적 부작용을 저 함수 스위치 단 한 파츠로 아름답게 차단 방어해 냅니다.
5.6.5 요약: 임베딩 제국의 최후 (Word2Vec vs FastText vs GloVe)
어느 기업, 어느 철학의 딥러닝 라이브러리가 가장 우월할까요? 수학에 절대 정답은 없습니다. 내가 풀어야 할 비즈니스 텍스트 도메인 특성에 맞춰 이들을 취사선택 해야만 우위를 점합니다.
- 구글 Word2Vec: 가장 압도적으로 빠르고, 인간의 직관적인 논리와 철학의 대명사입니다. 하지만 단어 사전 밖에 있는 미지 오타(OOV) 희소 텍스트의 유입 앞에서는 계산을 영원히 포기하고 서버가 기절해 버립니다.
- 페이스북 FastText: 신조어나 모음 단위로 깨져버리는 한국어 형태소 파괴 텍스트, 아예 처음 보는 빈도 극악의 이상한 외계어 전문용어 희소 단어의 수많은 공격이 밀려와도, 그 단어를 또 알파벳 서브워드 n-gram 찌꺼기로 해부하여 평균치 조립해 방어해 내는 기적의 내구력과 OOV 완전 극복 면역력 알고리즘을 자랑합니다.
- 스탠포드 GloVe: Word2Vec의 좁은 창문 엿보기(Local) 시야 맹점을 불신하며, 뼈다귀 같은 엑셀 글로벌 통계 카운트(Global) 확률수학 관점을 딥러닝 오차에 하이브리드로 보완해 낸 결벽증 걸린 완벽주의자. 전반적인 글로벌 텍스트 카테고리의 벤치마크 테스트 대회에서 가장 논리 점수가 높게 채점됩니다.
이 위대한 3명의 대장 체제가 전 세계의 초기 텍스트 자연어 딥러닝(RNN 순환 신경망 텍스트 시대) 임베딩 기저 공간을 완벽하게 장악한 채 자연어의 무수한 한계점을 극복해 냅니다. 그리고 시대는 곧이어, [거리와 문맥 병목 한계주의]의 시공간을 완벽하게 산산조각 내버린 구글의 대형 철학, “모든 것의 멱살을 한 번에 주시하는 거울 어텐션(Attention) 시대와 트랜스포머” 의 도래로 대격변(LLM 시대)을 맞이하게 됩니다. 이 거대한 지각변동은 다음 6차 정규 커리큘럼에서부터 파헤쳐 보겠습니다.