5.1 차원의 저주 한계와 워드 임베딩(Word Embedding)의 기하학적 차원 투영

단순 과거 빈도수(Count)를 산술적으로 집계하던 고전 통계 시대를 지나, 거대한 가중치 매트릭스를 기반으로 추론하는 인공지능의 신경망(Neural Network) 시대가 도래했습니다. 본 챕터에서는 기존 희소한(Sparse) 원-핫 행렬 구조의 거대한 낭비 굴레에 갇혀 완전히 독립적 존재로 고립되었던 텍스트 단어들을, 깊은 의미와 맥락이 숨 쉬는 ‘고차원 실수(Float) 밀집 공간(Dense Vector)’ 으로 압축해 쏘아 올리는 황홀한 워드 임베딩(Word Embedding)의 사상적 패러다임을 학습합니다.


5.1.1 원-핫 인코딩(One-hot) 아키텍처의 복습과 절망적인 메모리 폭발

과거 3주 차에 다루었던 원-핫 인코딩 벡터 구조가 최신 딥러닝 시스템 병목 현상에 기여하는 치명적 한계를 다시금 떠올려 봅니다. 원-핫 인코딩 체계는 거대한 전체 사전에 등록된 특정 단어의 고유 인덱스(Index) 자리에만 전원 스위치 1을 켜고, 나머지 수십만 개의 데이터 벡터 축에는 무자비하게 의미 없는 0 (Zero) 데이터 노드를 배열 채워 넣는 구조였습니다.

\[\vec{v}_{\text{사과}} = [0, 0, 1, 0, 0, \dots, 0] \in \mathbb{R}^{|100,000|}\]

이 단순 직관적인 이산 지표(Discrete Indicator) 방식은 딥러닝 연산 환경에서 기계적으로 다음 두 가지의 결정적인 파구적 결함을 유발합니다.

1. 차원의 저주 (Curse of Dimensionality)와 메모리 낭비

구글이 사용하는 표준 영어 사전에 등록된 기준 토큰 단어가 약 10만 개라고 가정해 봅시다. 고작 “사과” 라는 단어 정보 한 개를 VRAM(비디오 메모리)에 부팅하기 위해 연산 파이프라인은 무려 99,999칸의 불필요한 배열 빈칸(0, 암흑 물질 데이터) 을 선형 구조 상에 동반 유지해야 합니다.

텍스트 문장이 길어질수록 유의미한 시그널 알맹이(1)는 극비율에 불과한데, 연산을 마비시키는 쓰레기 데이터(0) 행렬 칸의 보유량만 수십억 개 단위로 폭발 팽창해 버리는 이 메모리 낭비 현상을 현대 통계 수학에서 [차원의 저주] 라고 정의합니다. 이렇게 광활한 희소 행렬(Sparse Matrix) 구조를 무명으로 딥러닝 모델에 집어넣어 연산을 돌려버리면 그래픽 카드 메모리(VRAM OOM)가 순식간에 포화되어 프로세스가 터져버리게 됩니다.

2. 상호 직교(Orthogonal) 행렬에 의한 의미론적 유사도 도출 불가

더 무서운 기하학적 맹점은, 도출된 원-핫 벡터 수열들이 고차원 좌표 공간 속에서 구조적으로 무조건 서로 90도 완전 직교(Orthogonal) 상태로만 도열된다는 사실입니다.

  • 인간이 사용하는 의미 체계 속의 ‘개’ 와 ‘강아지’ 는 사실상 방향성을 공유하는 강력한 대체 동의어(Synonym)입니다.
  • 하지만 원-핫에 기반한 컴퓨터 선형 뇌 구조에서는 두 단어 벡터 간의 일치 거리를 재보는(코사인 내적 연산) 겹침 결과값이 잔인하게도 수학적으로 무조건 0 (교집합이 전혀 없는 완전 수직의 남남) 으로 도출됩니다.
\[\vec{v}_{\text{개}} \cdot \vec{v}_{\text{강아지}} = [1, 0, 0] \cdot [0, 1, 0] = 1\times0 + 0\times1 + 0\times0 = \mathbf{0}\]

컴퓨터 입장에서는 “강아지와 개 사이의 관련성 벡터량이나, 강아지와 핵폭탄 단어 사이의 겹침 연산 지표나 완전히 기하학적으로 100% 똑같은 독립 수치야!” 라고 선언해 버리니, 앞뒤 낱말의 유사 의미를 유기적으로 추론하여 번역해야 하는 AI 신경망 생태계의 전제가 근본부터 붕괴하게 됩니다.


5.1.2 모델의 구원 메커니즘: 워드 임베딩(Word Embedding) 큐브로의 압축

위 두 가지 태생적 치명상을 완벽히 극복해 낸, 자연어계열 현대 딥러닝 인공지능의 최고 축복 파이프라인(Pipeline) 기초 단위 구조 시스템입니다.

“비효율적으로 10만 칸으로 쫙 벌려 놓은 텅 빈 원-핫 차원 공간의 비대한 우주를 데이터 프레스로 붕괴 압축시키고, 각 열에 성별/크기/온도 등 단어의 유기적 핵심 속성을 응축시켜 담은 불과 256 혹은 512차원짜리 고정된 꽉 들어찬 [밀집 벡터(Dense Vector)] 상자 체계 안에 투영(Projection) 시킨다!”

Dense Embedding Compression

  • 학습을 통해 생성된 밀집 벡터는 0과 1이라는 딱딱한 이분법적 정수 체계가 아니라, 컴퓨터가 추론해 낸 [-1.24, 0.88, 3.14] 와 같은 연속적인 실수(Float) 좌표계 매트릭스 구조를 띠게 됩니다.
  • 차원 공간의 크기가 거의 400분의 1 수준으로 극미하게 줄어들어 시스템 메모리 자원이 비약적으로 절약됨과 동시에, 소수점 좌표로 정밀하게 조정된 각 실수 파라미터 덕분에 마침내 단어와 단어들 사이에 기하학적 유사성 거리(Angle Distance)를 수학적으로 비교 연산 해 낼 수 있는 위대한 구조적 축복이 내려집니다.

5.1.3 워드 임베딩의 기하학 매핑 선언과 3D 공간 상의 의미망 측정

밀집 벡터 압축 학습을 통해, 거대한 인류의 낱말 영어 사전 모음을 우리가 시각적으로 파악할 수 있는 3D 실수 좌표 큐브 공간(X, Y, Z 매니폴드) 내부로 투사해 우겨 넣었다고 은유적으로 상상해 봅시다. 구글 영어 사전 단어들이 캄캄한 우주 공간 속의 행성들처럼 X, Y, Z 실수 좌표 어딘가에 점으로 둥둥 떠 박히게 됩니다.

좌표 상에 실수 위치점이 명확히 할당되었으므로, 이제 인공지능 알고리즘은 공간 측량 좌표계 자(Ruler) 를 들고 점과 점 사이의 물리적 거리를 내적으로 잴 수 있습니다.

  • AI의 수학적 프로세서가 거리를 재어보니 코사인 각도 간격이 woman 단어 행성과 man 행성 사이에는 고작 1cm 밖에 차이가 나지 않지만, princess 단어와 무생물인 car(자동차) 단어 행성 사이는 999km의 이격 거리가 납니다.
  • 연산 측정 즉시 시스템은 빈도의 통제를 넘어 “아! 이 두 벡터(boy, man)는 3차원 공간에서 다닥다닥 붙어있는 유사 의미망(Semantic Network) 군집(Cluster) 집단 가족이구나!” 라고 완벽하게 깨우치고 문맥의 뜻을 융통성 있게 추론(Inference)해 냅니다.

5.1.4 자연어 기하학의 금자탑: 전설적인 임베딩 추론 방정식 (King - Man = Queen)

신경망 워드 임베딩 알고리즘의 훈련 구조가 가져온 천재적인 의미망 구축(Semantic Mapping)의 승리를 전 세계 학계에 충격적으로 알린 전설적인 선형 수식 뺄셈 연산식입니다. 알파벳 형태 텍스트 덩어리를 3D 공간에 실수 벡터 텐서로 투영해 매핑하면, 놀랍게도 단어와 단어 사이에서 아래와 같은 수리 기하학적인 덧셈, 뺄셈 마법 공식이 완벽하게 성립됨이 증명되었습니다.

Embedding Math Deduction

\[\vec{v}_{\text{King}} - \vec{v}_{\text{Man}} + \vec{v}_{\text{Woman}} \approx \vec{v}_{\text{Queen}}\]

[!TIP]
💡 구조 분석: 선형 대수가 단어의 수수께끼를 해결하는 메커니즘
이 아름다운 수식은 실상 어떻게 수학적으로 조립되어 성립되는 것일까요? 컴퓨터 지능망이 KingQueen이 부부라는 인문 사회학적 정치 지식을 스스로 독서해 깨우친 게 전혀 아닙니다. 이 현상은 오직 실수축에 사상된 다차원 데이터 기하학 선형대수 연산의 기계적이고 필연적인 위대한 유물일 뿐입니다.

  1. 기계는 위대한 왕(King) 의 3D 좌표 스탯 위치에서 일반적인 성인 남성(Man) 이 보유한 벡터 화살표 각도 벡터량만큼을 그대로 공간에서 뒤로 스윽 차감하여 마이너스시켜 버립니다. (이 연산 순간, 왕 좌표에 담겨있던 고유의 남성성 속성이 배제 소멸되며 오로지 절대 권력, 통치자라는 본연의 잔여 속성(Royalty) 지표만 허공 좌표에 덩그러니 남게 됩니다).
  2. 그 덜렁 멈춰진 허공 좌표 종착점에서 다시 성인 여성(Woman) 의 벡터량 화살표 각도를 스윽 앞으로 더해 플러스(+ 벡터 애딩) 방향으로 전진 대입해 봅니다. (통치권 벡터 코어에 여성성 지수가 주입됨)
  3. 연산 도출 후, 그 수학적 벡터 합의 최종 화살표가 가리킨 캄캄한 우주의 빈 우주 종착지 공간 근처를 탐색해보았더니, 너무나도 소름 돋게 그 좌표 바로 옆에 ‘Queen (여왕)’ 임베딩 텍스트 별이 아름답게 매핑되어 반짝거리고 있었던 현상을 발견한 것입니다!

이것이 바로 현대의 고차원 자연어 처리(NLP) 인공지능 모델이 인간의 글자를 읽고, 속성을 분리 계산하고, 단어를 추론해 도출하는 ‘임베딩의 기하학적 차원 투영(Projection) 알고리즘 마법’ 의 코어 메인 원리원칙입니다.

하지만 원-핫 희소성에 갇혀있던 저 단어들을 도대체 어떻게 저런 아름답고 정교한 실수 기반 3D 별의 위치로 똑똑하게 날려 보내어 자리잡게(학습시킬) 수 있을까요?

바로 다음 챕터에서 그 무시무시한 연산 과정을 정립하고 인공 신경망 뇌를 써서 임베딩 투사 훈련을 세계 최초로 구현해 낸 역사적인 분기점 모델 (NNLM)의 알고리즘 서사 구조를 직접 살펴봅니다.

서브목차