결정 경계의 마법: 로지스틱 회귀와 소프트맥스
나이브 베이즈처럼 대충 주사위 확률을 곱하는 비율 꼼수에서 벗어나, 대수학 공간 한가운데에 적군과 아군을 가르는 거대한 면도칼 바리케이드(결정 경계 선형)를 똑바로 긋는 본격적인 첫 머신러닝 모델, 로지스틱 회귀(Logistic Regression)의 등장과 다중 스위치 통제를 배웁니다.
00. 선을 긋는다: 로지스틱 회귀 (Logistic Regression)
데이터 과학 분류 문제의 가장 스탠다드 기본형이자 딥러닝 뇌세포 한 덩어리(퍼셉트론)의 모태인 통계기법입니다. 이름에 “회귀(근사치 추정)”가 붙어있어 오해를 사지만, 엄연히 이 모델은 100% 분류(Classification) 모델입니다!
핵심 사상: 로지스틱 모델은 나이브가 주사위를 굴리던 것과 정반대로, 스팸(적군)과 정상(아군)의 피처 좌표 데이터 무리들 우주 허공 한가운데에, 미적분을 활용해 정확하게 두 진영을 가르는 십자포화 레이저 일직선(Decision Boundary) 을 긋는 기하학적 막노동을 수행합니다.
01. 선형 회귀의 맹점과 무한대의 폭주
선형 결합($WX + b$) 수식을 막무가내로 텍스트 분류에다 들이박으면, 입력 단어가 너무 크거나 자극적일 경우 출력 정답 스코어가 +9999999 로 안드로메다로 날아가거나 -800 까지 지하로 내리꽂히는 대폭주 현상이 일어납니다.
이런 숫자를 보여주며 사장님께 “이 메일 점수가 오조오억 점이고, 저 메일이 마이너스 백만 점이니 스팸입쇼!” 라고 보고할 수는 없습니다. 기계가 뱉은 그 숫자들을 인간이 가장 직관적으로 읽을 수 있는 ‘0% ~ 100% (확률)’ 규격 창틀 안으로 우겨넣기 위한 마법 압착기가 필요해집니다.
02. 구세주: 시그모이드 (Sigmoid) S-곡선 함수
무한대로 날뛰는 미친 선형 결합 수치 파워 엔진($z$)을 멱살 잡고 끌어내려서, 우리가 아는 [0.0 ~ 1.0] 사이의 비율 평면으로 무조건 찌그러뜨리고 강제 착륙시켜 버리는 딥러닝 최고의 발명품 함수(활성화 필터)입니다.
- 수학의 신비로 인해 시그모이드 엔진을 지난 숫자는,
- 극단적인 스팸 냄새(양수 파워가 쎔!)가 나면 곡선 천장인 $1.0$(100%)에 찰싹 달라붙습니다.
- 극단적인 정상 메일(음수 파워!)이면 곡선 바닥인 $0.0$(0%)으로 추락해 붙습니다.
- 해석: “판사님, 시그모이드 연산 결과가 0.85입니다. 이 메일은 스팸일 확률이 85% 입니다!” 라고 소름 돋게 깔끔한 명제로 보고서를 쓸 수 있게 됩니다. 참(1)과 거짓(0) 양자택일 이진(Binary) 분류의 교과서입니다.
03. 1대1 데스매치를 넘어 다중 카테고리로 확장
시그모이드는 오직 스팸(O)이냐 정상(O)이냐의 2가지 문밖에 열어주지 못합니다.
그런데 언론사에서 정치, 사회, 경제, IT, 스포츠 총 5개의 다중 선택지 룸 중에서 뉴스 기사 1개를 가장 적절한 방으로 날려버리라고 명령하면 어떻게 될까요? 선 하나(시그모이드) 만으로는 각을 잴 수가 없습니다!
기존의 얇은 로지스틱 선형을 여러 겹으로 꼬아 다발로 구축해야 하는 위기에 처합니다.
04. 다중 분류의 스위치: 소프트맥스 (Softmax) 압축기
다중 카테고리(3개 이상의 문) 상황에서 시그모이드를 완벽하게 분할 대체하는 딥러닝 출력단의 마법사 수식입니다.
- 모델이 5개 방에 각각 점수를 뱉습니다:
예: [정치 50, 경제 10, 사회 20, IT 5, 연예 1] - 소프트맥스 함수 필터에 이 점수 덩어리를 들이붓습니다.
- 마법 작동: 소프트맥스는 저 점수들을 다 주물러서, 5개 방 확률 퍼센트의 결과 총합이 무조건 딱
1.0 (100%)피자 한 판 이 되게끔 비율을 계산해 쥐어짜 내서 나눠줍니다! $\to 결과 도출: [정치 0.60, 경제 0.15, 사회 0.20, IT 0.04, 연예 0.01]`
[!TIP]
📖 초심자를 위한 쉬운 해설: 100% 피자 한 판 파이 쪼개기
소프트맥스는 철저한 능력치 비례 자본주의 분배기입니다. 한 카테고리(정치)가 유독 확률이 높아서 60% 파이를 혼자 꿀꺽 삼켜 독식해 버리면?
나머지 경쟁 카테고리들은 불쌍하게도 강제로 40% 찌꺼기 남은 비율로 쪼개 나눠 먹으며 납작해집니다. 이를 통해 모델이 “이 기사의 가장 압도적인 유력 후보 방은 60% 확률을 먹은 ‘정치’ 방이야!” 라고 다른 오답 후보들을 짓밟고 가장 강력한 1짱 확률 범위를 우아하게 지명하게 해주는 기법입니다.