3. 텍스트 표현과 벡터 유사도
단어를 숫자로 바꾸어 공간에 흩뿌리고, 단어들 간의 수학적인 거리를 통해 유사도를 측정하는 고전 통계 방법론을 학습합니다.
- 3.1 단어 임베딩 기초와 고전 벡터 공간
- 3.1.1 컴퓨터는 문맹이다: 단어를 카운트 숫자로
- 3.1.2 인간의 눈치 vs 고대 통계 모델의 벡터 맵핑
- 3.2 가장 단순한 치환: 원-핫 인코딩의 저주
- 3.2.1 단어의 완벽한 축 고립: 원-핫(One-Hot)
- 3.2.2 희소성(Sparsity)과 차원 폭발의 우주적 메모리 낭비
- 3.3 문법 파괴자 Bag-of-Words(BoW)와 DTM 행렬
- 3.3.1 폭력성 100% 문법 파괴 가방 (BoW)
- 3.3.2 다수 문서의 카운트 엑셀 표: DTM 빅데이터 표본
- 3.4 빈도 카운팅의 붕괴: 지프(Zipf)의 법칙
- 3.4.1 통계학적 빈부격차: 롱테일 마법과 The의 독식
- 3.4.2 단순 카운팅 유사도의 완전한 논리적 패배
- 3.5 마법의 가중치 저울: TF-IDF 보정 방정식
- 3.5.1 흔한 쓰레기는 버리고 특수 키워드는 띄운다 (TF-IDF 원리)
- 3.5.2 심화 수식: 자연로그(ln)와 스무딩(+1) 분모 방어막
- 3.6 벡터 공간 유사도 척도와 코사인(Cosine) 각도
- 3.6.1 똑같은 말을 반복하는 앵무새에게 속지 않는 코사인 방향
- 3.6.2 피타고라스 유클리드와 자카드 집합 수리 비교
서브목차