NLP와 관련된 개념들
문서
- document
- 텍스트, 또는 텍스트로 이루어진 단락, 기사, 책 등 여러 가지를 문서라고 지칭할 수 있다.
- 공통적인 특징은 문자열(string)로 표현된다는 것.
말뭉치
- corpus
- 문서들의 모음으로, 자연언어처리 모델의 학습에 사용된다.
불용어
- stop words
- 텍스트 분석에 도움이 되지 않는 단어들.
- a, the, 관사 등은 문서나 단어의 의미를 해석하는 데 도움이 되지 않는다.
토큰
- token
- 컴퓨터가 텍스트를 분석하고 이해할 수 있도록 텍스트를 나눈 가장 기본적인 단위.
- NLP 모델은 문장 전체를 한 번에 이해하기 어렵기 때문에, 이 문장을 의미 있는 작은 조각들로 나누는 과정이 필요하며, 이 조각 하나하나가 바로 토큰이다.
사전
- dictionary
- 단어 또는 토큰들에 대해 id 값을 매긴 것.
Comments