728x90 반응형 token1 [Etc] Token and Tokenizer Token의 의미 문장을 구성하는 (최소)의미 단위. 일반적으로 하나의 word가 token에 해당하며, 영어에서는 whitespace character(공백문자) 및 punctuation mark 등을 구분자(delimeter)로 하여 나눈 결과들을 보통 token이라고 부름. Tokenizer Token으로 나누는 처리를 하는 component (or object)를 가르킴. Parser라는 용어로도 사용되는 경우가 많음. Tokenize (~parsing)는 결국 문장을 token으로 분해하는 처리를 의미하는데, 이를 수행하는 object를 tokenizer라고 함. 참고 한국어는 보통 tokenize를 할 때, 띄어쓰기 외에도 조사,어미 등을 고려한 음절 등으로 처리해야 하며, 때문에 영어에 비해.. 2023. 12. 6. 이전 1 다음 728x90 반응형