728x90 반응형 split1 [Etc] Token and Tokenizer Token의 의미문장을 구성하는 (최소)의미 단위. 일반적으로 하나의 word가 token에 해당하며,영어에서는 whitespace character(공백문자) 및 punctuation mark 등을 구분자(delimiter)로 하여 나눈 결과들을보통 token이라고 부름. TokenizerToken으로 나누는 처리를 하는 component (or object)를 가르킴.Parser라는 용어로도 사용되는 경우가 많음.Tokenize (~parsing)는 결국 문장을 token으로 분해하는 처리를 의미하는데, 이를 수행하는 object를 tokenizer라고 함.참고한국어는 보통 tokenize를 할 때, 띄어쓰기 외에도 조사,어미 등을 고려한 음절 등으로 처리해야 하며, 때문에 영어에 비해 token의 .. 2023. 12. 6. 이전 1 다음 728x90 반응형