试用ICTCLAS分词系统

贵所的ICTCLAS号称是目前最好的中文分词系统。今天使用了一下,记录下心得。

我的需求主要是分词,无需词性标注,而这一点可能恰恰是ICTCLAS的亮点。
主要流程:
ICTCLAS_Init(cfg_path)
ICTCLAS_ParagraphProcess(input, input_len, buffer, ENCODING, 0)
buffer是缓冲区,建议为6 * input_len
0是我不需要词性标注

对这个类包装了一下,方便今后使用。
PS:ICTCLAS确实够慢的,我这里对一个16KB的文档分词,QPS居然只有85……当然了,人家ICTCLAS的标称速度是500KB/s,我这里85*16=1.3MB,已经大于标称速度了……

以后有时间我会关注一下SCWS,开发者也是蛮活跃的。

ICTClas.h

ICTClas.cpp

Leave a Reply

Your email address will not be published.