진실을 꿰뚫는 지표의 파괴력: 정밀도, 재현율, F1, ROC/AUC

혼동 행렬표를 들여다보면, 기계가 저지른 ‘1종 억울한 시민 범죄’와 ‘2종 눈 뜬 장님 방관 범죄’를 포착해 냈습니다. 이 수치들을 나눗셈하여, 회사 경영진이 이 딥러닝 모델의 성격을 확실히 통제할 수 있도록 모델의 성향 스탯을 조율하는 궁극의 평가 메트릭스를 배웁니다.

00. 예민함의 스탯: 정밀도 (Precision)

오로지 “경찰청 모델이 감옥에 가둔 범인들의 순도”에만 집착하는 수학적 비율 지표입니다.

\[\text{Precision} = \frac{TP}{TP + FP}\]

방정식 해석: 분모는 경찰 모델이 무전기를 들고 “(수갑 채운) 잡은 놈 몽땅 다 와봐!(TP+FP)” 입니다. 즉 모델이 스팸으로 강력히 찍어서 검찰에 송치한 무리 전체 분량입니다.
지표 폭락의 순간: 만약 실적이 궁해서 너무 허술하고 조잡(FP)하게 아무나 다 범인이라고 마구잡이로 잡아들여서 감옥이 억울하게 끌려온 선량한 무고한 시민 대학생들(FP, 에러율)로 가득 차 버렸다면?
$\to$ 진짜 진또배기 범인(TP)의 엑기스 비율이 수직으로 폭락하면서 이 수사 방식의 ‘정밀도(예리함)’ 는 완전히 바닥에 꽂히며 쓰레기 형사 모델로 전락합니다.
이메일 스팸 분류기에서 상사 메일을 거르지 않도록 가장 치명적으로 지켜야 할 목숨 같은 방어막 파라미터입니다.

01. 투망 사냥의 스탯: 재현율 (Recall)

오로지 “전국에 흩어진 10명의 암살자 중, 내 그물망 레이더에 몇 명이나 안 놓치고 잡혔냐?” 에만 집착하는 수학 지표입니다.

\[\text{Recall} = \frac{TP}{TP + FN}\]

방정식 해석: 분모는 세상 어딘가에 실재하는 진짜 오리지널 찐 테러범(TP)과, 내 허접한 경찰 시스템을 유도리있게 완전히 속이고 일반인인 척 길거리를 유유히 걸어 나간 눈 뜬 장님 테러범(FN)을 모조리 합친 숫자입니다!
지표 폭락의 순간: 모델 파라미터를 빡빡하게 세팅해서 검색 확률 그물망을 너무 듬성듬성 치는 바람에, 폭발물을 든 찐 범인 놈(FN)들이 검색대를 모조리 다 뚫고 웃으며 비행기에 탑승해 도망가 버리면?
$\to$ 모델의 재현 확률(레이더 스캔 생포율)은 참담하게 바닥으로 부서집니다.
병원 암 판정 AI 시스템이나 공항 X-ray 무기 테러리스트 검색대에서 무조건 목숨 걸고 1.0(100%)을 만들어야 하는 공격형 가중치 지표입니다.

02. 트레이드-오프 (Trade-off) 시소 게임의 잔혹함

정밀도와 재현율은 잔인한 수학적 딜레마로, 완벽하게 거꾸로 타는 시소판 위에 올려져 있습니다.

“단 1명의 무고한 억울한 시민이 생기는 걸 막기 위해 절대로 함부로 의심 수갑을 채우지 않겠다! (정밀도Precision 극투자 가중치)” $\to$ 이렇게 세팅하면 길거리에 진짜 연쇄살인범들이 다 증거 불충분으로 풀려나가(Recall 재현율 개박살) 나라가 멸망합니다.
“테러범이 세상에 도망다니는 꼴을 난 단 한 명도 볼수 없다!! 지나가는 길쭉한 가방 멘 놈들 몽땅 다 무조건 일단 감옥에 잡아들여!! (재현율Recall 극투자 만땅)” $\to$ 진짜 범인은 싹 다 잡았지만, 지나가던 우산 든 초등학생들, 낚싯대 백팩 메고 가던 100만 명 일반 시민까지 다 피눈물 흘리며 감옥에 억울하게 수감되어 국가(정밀도 Precision 파탄)가 멸망합니다.

이를 어떻게 균형감 있게 파라미터 계수로 타협하느냐가 머신러닝 오퍼레이터 최고 연봉자의 능력입니다.

03. 조화평균의 산물: F1-Score 지표 (최후의 심판관)

결국 재현율과 정밀도, 어느 한쪽으로 극단적으로 꼼수를 부리거나 쏠리지 않게 기괴하게 밸런스를 맞추어 놓은 현존하는 머신러닝 최고 권위의 통합 분류 점수판 평가식입니다.

\[F_1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}\]

단순한 (X+Y)/2 의 산술평균 더하기가 아닙니다. 이 공식은 조화평균(Harmonic Mean) 이라는 분수 역수 곱셈 기법을 치함으로써, 모델이 꼼수를 써서 강제로 정밀도만 1.0으로 높여놓고 재현율은 0.0 으로 바닥을 기고 있을 경우 자비 없이 0.0을 곱해버려 최종 점수를 0점으로 락인시키는 방어막을 칩니다. 이 점수가 0.9 이상이면 진짜 대단한 S급 인공지능이 확실합니다.

Machine Evaluation Metrics All

04. 권위의 최정점 곡선 (ROC / PR Curve) 과 넓이 (AUC)

머신러닝 평가지의 마침표입니다. 위의 꼼수조차 더 이상 의미 없게 인공지능을 완전히 나체로 벗겨놓고 뼈대 기초 체력을 측량합니다.

임계값 (Threshold) 롤링 꼼수 무력화: 어떤 놈은 스팸일 확률이 $0.5$만 넘으면 스팸으로 판정하고, 어떤 놈은 수치를 빡빡하게 올려서 확률 $0.8$ 이상은 돼야 범인 팻말을 들도록 조정할 수 있습니다.
이 임계값을 0.0부터 1.0까지 마우스로 모든 범위를 시뮬레이션으로 수천 번 움직이면서, 그때마다 출렁이면서 격동 치는 재현율 그래프의 무한 궤적점(ROC 선형) 붓으로 우주에 그려 버립니다.
아예 그 ROC 곡선 궤적포텐셜 아래에 깔린 모든 넓이 전체 면적 구간 (AUC, Area Under Curve) 색칠된 덩치 퍼센티지를 구합니다!

ROC PR Curve Mathematical Setup

결국 외부 설정값(임계치)의 인간의 조작이나 혀 내밀기 입김을 막론하고, 이 딥러닝 망 모델 자체가 가지고 태어난 본연의 정보 분류 분별력, 스탯, 기초체력이 얼마나 단단한 무적함대인지 단 한 방에 입증해 주는 궁극의 우상향 면적 평가 도구입니다! 세상의 모든 AI 논문은 이 도표로 끝이 납니다.

서브목차