패러다임의 전환: 확률적 문서 생성 역추적 모델
거대한 데이터 엑셀 매트릭스를 강제로 톱질해 자르던 잔혹한(LSA) 수학 장난질에서 완전히 벗어나게 됩니다. 데이터 분석 학계는 철학적 발상의 전환으로 문서 생성 패러다임 (Generative Model) 이라는 황홀한 신대륙에 발을 들여 모든 걸 새롭게 정의합니다.
00. 문서는 글자가 아니라 주사위의 산물이다
새로운 학자들의 모델 정신세계는 아주 근본적인 망상(?)에서 출발합니다.
- 모델의 정신세계 대전제: “네 눈앞에 있는 이 수백만 개의 문서는 그냥 랜덤 쓰레기 단어로 된 종이가 아니다. 어떤 보이지 않는 신령(통계 모델 기계)이 하늘에서 엄격하게 확률 주사위를 굴려 써내려 간 피조 창작 결과물이다!!”
이 얼토당토않은 소리를 증명하기 위해, 기계가 가짜 주사위로 가짜 뉴스를 써 내리는 시뮬레이션 공정을 4단계를 통해 역으로 파헤쳐 봅니다.
01. 가상 신문 기자(조물주)의 무작위 단어 생성 시나리오
만약 당신이 아무 지식도 없는 멍청한 확률 기계인데 가짜 신문 기사를 하나 편찬해야 한다고 칩시다.
| 생성 시퀀스 스텝 | 가상의 조물주(확률 통계 기계)가 방안에서 취하는 행동 |
|---|---|
| STEP 1 (비율 세팅) |
아하! 이번 기사는 ‘정치 70%, 경제 30%’ 느낌으로 섞인 꿀잼 문법 문서를 하나 써봐야지! (주사위 뽑기판 비율 $1.0$ 타겟 세팅) |
| STEP 2 (토픽 굴리기) |
자, 문서의 첫 단어를 쓸 차례야. 나한테 방금 잡은 비율(70:30)로 맞혀진 ‘룰렛판’이 안대에 씌워져 있어. 휙 굴렸더니 70% 확률로 뚱뚱했던 [정치] 구슬이 툭 튀어나왔어! |
| STEP 3 (통 뽑기) |
내 책방 벽에는 각 구슬 색깔마다 단어가 들어있는 거대한 ‘단어 뽑기 통’ 들이 주르륵 서있어. 방금 나온 정치 구슬 통에 손을 쑥 넣자. 통계를 보니 비자금, 국회가 잡힐 확률이 높군! 무작위로 하나 집어보니 국회라는 단어가 집혔다! $\to$ 종이에 국회라고 기록! |
| STEP 4 (무한 반복) |
다음 번째 단어도 써볼까? (STEP 2로 복귀). 이번엔 또 룰렛판을 굴렸더니 이번엔 운석이 터져서 30%짜리 [경제] 구슬 라인이 걸렸네! 자 경제 통에 손을 쑥 넣었더니 펀드 단어가 튀어나왔네. 종이에 기록! |
02. 토픽 모델링 (Topic Modeling) 의 최종 임무!
자, 방금 위에서 조물주 확률 기계가 혼자서 저 방안에 갇혀 주사위 룰렛을 미친 듯이 굴려가며 "국회 펀드 펀드 국회 비자금 주식..." 이라는 기괴한 뉴스 문서 결과물을 수만 장 뚝딱 찍어냈습니다.
현실 세계를 연구하는 과학자 우리의 임무는 이 시간의 흐름을 거꾸로 타는 것입니다.
- 우리 앞 책상에는 저 방 안에서 무슨 일이 일어났는지(어떤 주사위 비율이 세팅되었는지) 전혀 모르는데, 조물주가 던지고 간 저 꼬리표 없는 결과물 텍스트 기사 뭉텅이들(단어들) 만 산더미처럼 쌓여있습니다.
- 기계는 이 종이 텍스트들을 전부 스캐너에 때려 넣고, 단어 빈도 분포를 보며 확률 백트래킹(역산) 계산을 시작합니다.
- [최종 결론의 방]: “야 이 종이 안에 ‘비자금’, ‘의원’, ‘금융’이 동시에 박혀있는 걸 보니까, 과거에 문서 생성자 놈이 방 안에서 첫 번째 룰렛을 세팅(STEP 1)할 때
정치 60,경제 40비율 룰렛을 써서 굴렸었겠구만!!”
이처럼 과거의 잠재 파라미터(조물주의 주사위 비율)를 역추적해서 까발리는 일, 이것이 현대 비지도 학습의 꽃 [잠재 확률 토픽 모델 (LDA)] 의 빛나는 정체성입니다. LSA처럼 더 이상 데이터가 1개 추가됐다고 시스템 전체가 폭발할 일도 없고, 인간의 직관과 가장 무섭도록 일치하는 결과를 내뱉습니다. 다음 단원에서 본격 수학 구조를 뜯어봅니다.
서브목차