200 oschina mirror 1717164241
0
IK — китайская сегментация слов, совместимая с solr/lucene6.6.0, оптимизация поиска цифр и английских символов.
2 месяца назад
200 oschina mirror 1717164241
0
Используя IK-токенизатор, были расширены версии solr4.7.2 и lucene4.7.2, применяя метод сегментации слов на основе пиньинь. Используется IK2012FF и JDK1.6.
Не обновлено
200 oschina mirror 1717164241
0
Prose — это библиотека для обработки текста на языке Go, которая поддерживает токенизацию, частеречную разметку и распознавание именованных сущностей.
200 oschina mirror 1717164241
0
200 oschina mirror 1717164241
0
2 месяца назад
200 oschina mirror 1717164241
0
Kcws — это система сегментации слов и проект корпуса на основе глубокого обучения.
2 месяца назад
200 oschina mirror 1717164241
0
2 месяца назад
200 oschina mirror 1717164241
0
Прежде всего, благодарим автора jieba fxsjy за его бескорыстный вклад. Без него мы бы не познакомились с алгоритмом сегментации слов jieba и у нас не было бы текущей версии на Java.
2 месяца назад
200 oschina mirror 1717164241
0
Цзебянь — лучший компонент для токенизации текста на Python.
Не обновлено
200 oschina mirror 1717164241
0
Плагин IK Analysis интегрирует анализатор Lucene IK (http://code.google.com/p/ik-analyzer/) в opensearch, поддерживает пользовательский словарь.
2 месяца назад
200 oschina mirror 1717164241
0
2 месяца назад
200 oschina mirror 1717164241
0
200 oschina mirror 1717164241
0
Java открытый проект cws_evaluation: оценка результатов работы китайского токенизатора. Этот сайт является зеркальным сайтом cws_evaluation на GitHub, используется только для резервного копирования.
2 месяца назад
200 oschina mirror 1717164241
0
Использование Office позволяет проводить сегментацию текста, которая может применяться к китайскому, тайскому и другим языкам.
Не обновлено
200 oschina mirror 1717164241
0
Не обновлено