Используя IK-токенизатор, были расширены версии solr4.7.2 и lucene4.7.2, применяя метод сегментации слов на основе пиньинь. Используется IK2012FF и JDK1.6.
Прежде всего, благодарим автора jieba fxsjy за его бескорыстный вклад. Без него мы бы не познакомились с алгоритмом сегментации слов jieba и у нас не было бы текущей версии на Java.
Java открытый проект cws_evaluation: оценка результатов работы китайского токенизатора. Этот сайт является зеркальным сайтом cws_evaluation на GitHub, используется только для резервного копирования.