2. 텍스트 전처리와 통계적 접근

2주차 과정에서는 기계가 텍스트를 인식하기 위해 전처리하는 과정과 쪼개는 방법을 알아봅니다.

2.1 텍스트 데이터의 언어학적 계층 구조
- 2.1.1 컴퓨터가 고기를 먹는 토큰화 비유
- 2.1.2 텍스트 분석 스펙트럼 (어휘/구문/의미 표현)
2.2 토큰화(Tokenization) 기술과 품사 태깅
- 2.2.1 토큰 단위 크기 논쟁 (문자 vs 단어 vs 문장)
- 2.2.2 품사 태깅(POS)의 역사: 꽉 막힌 사전 vs 확률적 눈치
2.3 문맥의 보존 기술: N-gram과 RAG 청킹
- 2.3.1 구 표현의 혁명: N-gram 기차 칸 매달기
- 2.3.2 텍스트 덩어리화(Chunking)와 알파벳 BIO 태그
- 2.3.3 현대 RAG 검색 증강 시스템의 청킹 기술 딜레마
2.4 전처리 지옥의 6단계 파이프라인과 정제
- 2.4.1 데이터 청소(Preprocessing) 막노동 6단계 조립 라인
- 2.4.2 쓰레기 필터 소각장: 정제(Cleaning)의 실체
- 2.4.3 가족 호적 강제 통합: 정규화(Normalization)
2.5 마법의 그물망 정규표현식과 형태소 다이어트
- 2.5.1 문자열 검색 제왕: 정규표현식(Regex)
- 2.5.2 다이어트 성형: 표제어 추출과 어간 추출 (어원 찾기)
- 2.5.3 한글 전처리: 교착어 조사 분해기 (KoNLPy)
2.6 LLM의 미지 언어 방어막: 서브워드 토큰화 (BPE)
- 2.6.1 고전 NLP 심장마비의 원인: OOV 에러
- 2.6.2 띄어쓰기의 배신과 알파벳 쪼개기(BPE)의 구원

서브목차