06. 텍스트 분류 판독기와 성능 평가의 해부

텍스트를 벡터 숫자들의 엑셀 공간으로 재탄생 시켰던 특성 추출의 시대를 넘어, 이 강력한 밀집/희소 벡터 무기들을 장착하고 기계가 스스로 문맥의 성향을 ‘긍정’, ‘스팸’ 방으로 갈기갈기 찢어 분류하는 자연어 분류 심사역 머신러닝 엔진과 방어막 체계를 배웁니다.

통계 확률의 영원한 할아버지 ‘나이브 베이즈’ 부터 선긋기 스나이퍼 ‘로지스틱 회귀’, 백분율 압착기 ‘소프트맥스’ 엔진을 설계하고, 이 모델의 멍청한 정확도 사기극을 까발리는 교차 검증 및 지표(혼동 행렬, ROC) 시스템 구축을 심도 있게 관통합니다.

6.1 기계학습: 텍스트 파이프라인과 판결 분리 모터
- 6.1.1 크롤링부터 TF-IDF, 뇌 분류로 통하는 냉혹한 컨베이어 벨트
- 6.1.2 분류 판결의 이중 심장 엔진: 학습(Train)의 피눈물과 예측(Predict)의 마스터 졸업
6.2 멍청한 통계의 주사위 기적: 나이브 베이즈 분류기
- 6.2.1 위치값 교란 무시(Naive)와 우주 확률 베이즈의 통계적 꼼수 방정식 증명
- 6.2.2 분자 0 에러 파단 방지: 라플라스 스무딩 인공호흡 생명줄 방어막
6.3 결정 경계선 레이저와 다중 압축기: 로지스틱과 소프트맥스
- 6.3.1 무한대 선형 폭주를 [0.0 ~ 1.0] 퍼센트 상자에 가두는 시그모이드 S-곡선
- 6.3.2 5개 카테고리 자본주의 1등 독식: 피자 파이 100% 짜내기 마법수식 Softmax
6.4 모델 훈련 오만함의 도륙 방어: 교차 모의고사 K-Fold
- 6.4.1 자습서(Train) 부정행위 회피용 홀드아웃(Holdout) 데이터 3조각 찢기 딜레마
- 6.4.2 재수 옴 붙은 뽑기 운빨 이슈를 뽀개는 공평한 회전초밥 K-Fold 룰렛 파이
6.5 정확도 오만함의 100% 사기극: 혼동 행렬의 진실 재판소
- 6.5.1 Accuracy 99% 의 함정: 랜섬웨어 1개를 방관하고 뉴스 1면을 장식한 파업 AI 지표의 치부
- 6.5.2 억울한 시민 감옥 보내기(FP 1종 파탄) vs 테러범 공항 폭탄 방관(FN 2종 무능력) 4사분면 해석
6.6 심판관의 철학적 파라미터 조향: 정밀도, 재현율, ROC 곡선망
- 6.6.1 깐깐한 수사 특진 예민함 (정밀도) vs 광기의 쌍끌이 테러 투망 사냥 (재현율 Recall) 시소
- 6.6.2 조화 평균 분수의 사기락인 F1 점수와 모델 자체의 무결점 알몸 근육량 측량선 ROC 넓이 포텐셜 (AUC)

서브목차