3.6 벡터 유사도(Vector Similarity): 공간 상의 거리 측정과 각도 기반 정규화

지금까지 우리는 텍스트 문서를 수치화하여 TF-IDF 가중치가 적용된 거대한 고차원 빈도 행렬로 변환하는 과정을 마쳤습니다. 이제 남은 과제는 이렇게 생성된 숫자 벡터들을 기하학적 다차원 공간(Vector Space)에 투영시켜, 두 문서가 의미적으로 얼마나 유사한 성격을 띠고 있는지 판별할 ‘수학적 잣대(Metric)’를 정의하는 단계입니다.

본 장에서는 공간 좌표 상의 일차원적인 최단 측량법인 유클리드 거리(Euclidean Distance)가 텍스트 마이닝 환경에서 어떠한 구조적 치명타를 내포하는지 밝히고, 이 한계를 극복하는 코사인 유사도(Cosine Similarity)의 정규화 원리를 수리적으로 상세히 분석합니다.

3.6.1 벡터 유사도(Similarity)의 기하학적 패러다임

시스템 내부에서 카운팅 및 연산으로 구축된 모든 문서 벡터(Vector) 배열은, 머신러닝 프로세스상에서 즉각 $X, Y, Z, \dots$ 축을 가지는 좌표 평면(다차원 공간)의 특정 종단점(Point) 스탯으로 치환됩니다.

Vector Space Paradigm

즉, 문서 A와 문서 B의 상호 유사도를 계산한다는 것은, 다차원 공간 상에 찍힌 두 지표 사이의 [물리적 직선 거리(Distance)]를 자로 재거나 원점에서 두 점을 향해 뻗어나가는 [방향 선분의 사잇각 유격차]를 기하학적 코드로 측정하여 도출해내는 학술적 수치 계산 작업을 의미합니다.

3.6.2 유클리드 거리 (Euclidean Distance): L2 노름(Norm) 측량법

유클리드 거리는 인간의 공간 감각상 가장 직관적인 형태의 일차원적 측량 기법입니다.

2차원(종이 위)이든 10,000차원(초공간 매트릭스)이든, 좌표상 존재하는 두 점 사이를 잇는 “가장 짧은 최단 직선 경로의 물리적 길이”를 곧이곧대로 측정하는 방식입니다.

Pythagoras Ruler

계산 공식 (L2 Distance / L2 Norm)

이는 일반적인 직각 삼각형의 빗변을 구하는 피타고라스의 정리 원리와 완전히 동일한 수학적 기반을 가집니다.

\[L_2 \text{ Distance} = \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + \dots + (q_n - p_n)^2}\]

장점: 연산의 수리 기하학적 메커니즘이 가장 간결하고 직관성이 높아, 물리적 분포 클러스터링(예: K-Means) 알고리즘 등에서 탁월한 기초 거리 척도로 널리 활용됩니다.

3.6.3 유클리드 측정의 한계: 문서 길이 편향(Length Bias) 오류

그러나 방대하고 비정형화된 자연어 처리(NLP) 분류 도메인에서 이 유클리드 최단 거리 측정 방식을 절대적 측량 기준으로 채택할 경우, 검색 엔진의 분류 품질은 구조적으로 심각하게 붕괴됩니다.

Euclidean Failure

[!CAUTION]
💡 문서 볼륨 오차에 의한 공간 왜곡 (Length Bias)

문서 A: “인공지능 로봇 기술은 놀랍다” (총 1줄, 짧음)

문서 C: “아프리카 사바나 기후 탐험” (전혀 다른 이질적 내용)

문서 B: 문서 A와 완벽하게 동일한 내용을 10,000줄로 단순 반복 복사한 장문 리포트 (총 1만 줄)

인간의 의미론적(Semantic) 관점에서 문서 A와 문서 B는 100% 동일한 논조와 주제를 다루는 일란성 쌍둥이 문서입니다.

그러나 통계적 수치 변환 환경에서 문서 B는 특정 단어 카운트 스탯이 문서 A보다 만 배 높기 때문에, 기하학적 유클리드 공간의 $X, Y, \dots$ 축 바깥쪽 끝으로 아득히 팽창하여 멀어지게 됩니다.

직선 측량법(Euclidean) 을 그대로 강행하면, 시스템은 주제가 정반대인 A와 C는 카운트 스탯 총량이 둘 다 조그맣다는 단 하나의 우연한 이유만으로 원점 근처에 가깝게 붙어있어 “두 문서가 매우 흡사하다”는 치명적 오답을 뱉어냅니다. 반면 완벽하게 একই한 내용을 담은 A와 B 사이의 직선 거리는 너무나도 멀기 때문에 철저히 독립된 연관 점수 영($0$)점 처리로 왜곡 산출됩니다.

해당 현상은 단순 텍스트 코퍼스의 전체 볼륨(절대적 텍스트 분량) 팽창의 변수를 모델 내에 통제하지 못하여 발생하며, 이를 전산학적으로 문서 길이 편향(Document Length Bias) 문제라 부릅니다.

3.6.4 AI 알고리즘의 대안 정규화 척도: 코사인 유사도 (Cosine Similarity)

이러한 자연어 처리기 공간의 치명적 오류를 완벽하게 구제하는 정보 검색학의 표준 수학 지표가 바로 삼각함수를 기반으로 한 코사인 유사도 측정입니다.

코사인 공식의 본질은, 두 문서 사이의 덩치 차이(물리적인 벡터 스칼라 크기) 편차 환경을 비율적으로 완전히 정규화(Normalization) 시켜 상쇄시키고, 오직 다차원 공간 상으로 뻗어나가는 벡터의 방향성(사잇각, $\theta$) 일치 여부 만을 독립 변수로 정밀 타격하여 평가하는 기법입니다.

Cosine Magic

코사인 내적 공식 해부

본 유사도는 두 벡터의 내적(Dot Product)을 각 벡터의 유클리드 크기(L2 Norm Magnitude)의 단순 곱으로 분리하여 나눈 수식 비율 구조입니다.

\[\text{Cosine Similarity}(A, B) = \cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}}\]

1만 줄을 반복 복사해 좌표값이 심하게 팽창했던 문서 B도, 이 수식의 분모에 위치한 자신의 고유 절댓값 거리 크기($|B|$)로 비율 타격을 입으므로 다시 원래 사이즈인 문서 A 수준의 $1$ 단위 벡터 지표 스케일로 극적으로 압축 정규화됩니다. 이로써 길이를 배제한 ‘순수 성향 각도 지표’ 도출이라는 위업을 달성합니다.

3.6.5 코사인 함수의 통계학적 판독 및 정보 의의

자연어 전처리 과정에서 산출되는 단어의 출현 카운트 빈도수나 TF-IDF 점수 지표는 기본적으로 모두 양의 실수(+)이거나 0이므로 음수(-) 단위가 발생하지 않습니다.

즉, 좌표 평면에서 모든 문서 위치는 언제나 수학적 제1 사분면 공간 내부에만 등재됩니다.

따라서 두 텍스트 사이가 이루는 벡터 유기적 사잇각은 구조적으로 최소 $0^\circ$에서 상한 최대 $90^\circ$ 안쪽 구간에서만 변동하게 설계되어 있습니다.

Cosine Intervals

측정된 각도 유격 ($\theta$)	코사인 판독 결과 도출 ($\cos \theta$)	정보 검색론적 통계 관계 (분석 결론)
$0^\circ$ (각도 차이 전혀 없음)	수학적 `1.0` (기준 최고점)	이 두 문서는 완전히 똑같은 단어 분포 성향(주제 테마)을 공유하는 강력한 유사도를 갖춘 쌍둥이 텍스트 자원입니다.
$45^\circ$ 내외 (방향 엇갈림)	`0.707` 혹은 중간값 수렴	특정 주제 지표는 엇갈리며 단어가 상호 배타적으로 겹치지 않는 부분이 다분한 일반적 편차 문서입니다.
$90^\circ$ (완전 수직, 직교)	수학적 `0` (상호 완전 독립)	두 문서 간 공통으로 중복 출현한 어휘가 수학적으로 단 한 개도 존재하지 않는 직교(Orthogonal) 공간 상태. 완벽히 이질적이고 개별 독립된 도메인 관계입니다.

이 견고하고 안정된 코사인 유사도 연산 알고리즘 계측기가 모델 내부에 정식 탑재됨으로써, 기계 데이터 머신은 마침내 단순 표면적 볼륨(문서 길이 한계)의 함정 노이즈에 농락당하지 아니하고, 복잡한 다차원 구조상의 유기적인 문서 간 유사도를 인간 엔지니어의 지성적 판단 기준에 준하도록 정밀히 분류해 낼 수 있는, 이른바 [명실상부한 고수준의 통계적 문서 분류 체계] 의 중추 인프라를 완성하게 됩니다.

서브목차