中文分词包 THULAC 使用

说明

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能，详情见 thulac。

python 包使用

pip install thulac

代码：

import thulac

# 执行时如果遇到 AttributeError: module 'time' has no attribute 'clock'
# 是因为 pytyhon 3.8 已经废弃了 time.clock()
# 到出错的位置将 time.clock() 修改成 time.time()

if __name__ == "__main__":
    thul = thulac.thulac()
    result =thul.cut("我爱北京天安门", text=False)
    print(result)

执行结果：

Model loaded succeed
[['我', 'r'], ['爱', 'v'], ['北京', 'ns'], ['天安门', 'ns']]

其中 r/v/ns 等是词性，含义如下：

n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名
m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词
v/动词 a/形容词 d/副词 h/前接成分 k/后接成分 i/习语 
j/简称 r/代词 c/连词 p/介词 u/助词 y/语气助词
e/叹词 o/拟声词 g/语素 w/标点 x/其它

参考

李佶澳的博客

编程基础系统基础关注跟踪

Kubernetes Prometheus 超级账本

ElasticSearch

中文分词包 THULAC 使用

目录

说明

python 包使用

参考

推荐阅读