디리클레 확률 판과 생성 플레이트 표기법 (Plate Notation)

이름도 괴상한 ‘디리클레’라는 이름표가 붙은 이유는, 조물주가 룰렛판을 세팅할 때 인간의 상상을 벗어나는 다면체 곡선 분포 수학 함수를 끌어다 쓰기 때문입니다. 그리고 이 복잡한 확률 공장을 컴퓨터가 쉽게 구조화하여 상상 속에서 가짜 뉴스를 뽑아내는 ‘플레이트 표기법’ 도면의 원리를 해부합니다.


00. 디리클레 분포 (Dirichlet Distribution)

확률이라는 파이는 어쨌든 전부 다 합치면 무조건 1.0(100%) 피자 한 판이 되어야 하는 비율의 굴레에 갇힙니다. 이 합이 무조건 1.0이 되는 집단 확률값들(예: 정치 0.6, 경제 0.3, 스포츠 0.1)의 조합을 무작위로 슉슉 뱉어내 주는 자판기 수학 함수가 바로 “디리클레 함수”입니다. (분포를 뱉어내는 킹왕짱 자판기 분포 함수)

Dirichlet Distribution Formula Model

\[\text{Dir}(\alpha) \sim \frac{1}{B(\alpha)} \prod_{i=1}^{K} x_i^{\alpha_i - 1}\]

초심자를 위한 $\alpha$, $\beta$ 설정값(하이퍼파라미터)의 조절 마법
기계한테 우리가 외부 셋팅값 $\alpha$ 를 만져줄 수 있습니다. 이 값을 뾰족하게 건드리면 조물주의 성향 패턴이 미친 듯이 바뀝니다.

  • 설정값을 크게 10.0 으로 줬을 때: 조물주가 박애주의자가 되어서 기사 1장을 쓸 때 정치, 경제, 사회, 연예 토픽을 골고루 넓적하게 잘 섞어서(비율이 무색무취 반반 섞임) 짬뽕 문서를 찍어냅니다.
  • 설정값을 극한으로 0.1 로 줄였을 때: 조물주가 극단적 편집증에 빠져서 문서를 배출할 때마다 “이번 기사는 무조건 정치 100% 몰빵이다!!! 다른 토픽 다 버려!” 라며 뾰족하게 극단적 편식 문서만 구워냅니다.

01. 플레이트 표기법 (Plate Notation) 이란?

저렇게 주사위 확률 분포를 섞어서 문서를 뽑아내는 연쇄 작용의 수학적 관계들을 글로 쓰다 보면 종이가 터져나가고 코더들이 이해를 못 합니다. 그래서 통계학자들은 “이 변수에서 저 변수로 확률이 흘러간다!” 를 네모난 종이판(Plate)과 화살표 도식 기호로 그려서 하나의 건축 도면으로 아주 이쁘게 압축해 버렸는데 이를 플레이트 기하학 도식이라 부릅니다.

Graphical Plate Notation Rules

02. 도면 기호의 직관적 해석 흐름

네모난 사각형 상자(Plate)는 무한 반복 루프문(for-loop) 을 뜻합니다. 밖에서 안으로 들어가는 화살표는 확률 통계 계산의 영향을 준다는 인과관계를 나타냅니다.

  • 상태 1 ($\alpha$): 디리클레 셋팅값 (조물주의 룰렛 박애주의/극단주의 조절 스위치)
  • 상태 2 ($\theta$ 세타): 방금 스위치로 찍어져 나온 이번 1번째 문서 전용 “정치 70%, 경제 30%” 짜리 맞춤형 혼합 비율 주사위 배정.
  • 상태 3 ($Z$): 비율 주사위를 드르륵 굴려서 실제로 이번에 당첨된 토픽의 정체. (아, 이번 단어는 70 확률 뚫고 [정치 방] 배정됨!)
  • 상태 4 ($\phi$ 파이): 정치 토픽이라는 꼬리표가 붙었으니, 저기 벽에 걸린 거대한 정치 전용 단어 주머니(확률 테이블 파이)를 가져온 다음 뒤적거립니다.
  • 상태 5 ($W$, 유일한 회색 원): 주머니를 뒤적이다 가장 높은 확률에 걸린 국회 라는 단어 카드를 확 꺼내어서, 잉크를 묻혀 종이에 기록 완료!
    • (참고: 도면에서 색깔이 칠해진 유일한 변수 $W$는 우리가 겉으로 유일하게 관찰할 수 있는 최종 아웃풋 단어 스펠링을 뜻합니다. 나머진 다 투명한 가상 상태입니다)

03. 현실 분석 관점에서의 역주행 (거꾸로 타는 보일러)

학자들은 위 도면을 보고 감탄하는 게 아니라 뒷골을 잡습니다. 우리가 진짜로 가진 건 도면 맨 마지막 종착타에 칠해진 지푸라기 잉크 데이터 문서 텍스트 $W$ 뭉치밖에 없기 때문입니다! $\theta$ 니 $Z$ 니 $\phi$ 같은 신계의 확률 상태는 우리가 알 턱이 없습니다!

우리의 목적은 단 하나입니다. 무수히 쌓인 종이 $W$ 변수를 손에 쥐고, 강제로 화살표를 거꾸로 잡아 뜯어 올라가면서 과연 확률이 어떻게 수렴했는지 역산하여, 최종적으로 이 거대한 모형의 윗대가리 주사위 분포표인 $\theta$ (세타)와 $\phi$ (파이) 매트릭스 백과사전을 완전히 복원 복구해 내는 미션입니다.

컴퓨터가 이 불가능에 가까운 역주행 확률 복구를 도대체 어떤 계산 코드로 뚫어내는지, 전설의 통계 해킹술 깁스 샘플링의 무식하고도 정교한 과정이 바로 시작됩니다.

서브목차