NLP와 관련된 개념들

문서

  • document
  • 텍스트, 또는 텍스트로 이루어진 단락, 기사, 책 등 여러 가지를 문서라고 지칭할 수 있다.
  • 공통적인 특징은 문자열(string)로 표현된다는 것.

말뭉치

  • corpus
  • 문서들의 모음으로, 자연언어처리 모델의 학습에 사용된다.

불용어

  • stop words
  • 텍스트 분석에 도움이 되지 않는 단어들.
  • a, the, 관사 등은 문서나 단어의 의미를 해석하는 데 도움이 되지 않는다.

토큰

  • token
  • 컴퓨터가 텍스트를 분석하고 이해할 수 있도록 텍스트를 나눈 가장 기본적인 단위.
  • NLP 모델은 문장 전체를 한 번에 이해하기 어렵기 때문에, 이 문장을 의미 있는 작은 조각들로 나누는 과정이 필요하며, 이 조각 하나하나가 바로 토큰이다.

사전

  • dictionary
  • 단어 또는 토큰들에 대해 id 값을 매긴 것.

Comments