与英文的自然分词不同,中文分词存在着众所周知的难度,把中文的句子切分成有意义的词,就是中文分词,也称切词。目前还是一个难题———对于需要上下文区别的词以及新词(人名、地名等)很难完美的划分。国际上将同样存在分词问题的中国、日本和韩国并称为CJK(Chinese Japanese Korean)。分词机制的好坏,直接影响到用户对搜索结果的满意度,所以如何分词是搜索引擎的重中之重。 到目前为止,中文分词包括三种方法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。以下是三种分词方法的比较: