中文分词包 THULAC 使用

目录

说明

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包, 具有中文分词和词性标注功能,详情见 thulac

python 包使用

安装THULAC-Python

pip install thulac

代码:

import thulac

# 执行时如果遇到 AttributeError: module 'time' has no attribute 'clock'
# 是因为 pytyhon 3.8 已经废弃了 time.clock()
# 到出错的位置将 time.clock() 修改成 time.time()

if __name__ == "__main__":
    thul = thulac.thulac()
    result =thul.cut("我爱北京天安门", text=False)
    print(result)

执行结果:

Model loaded succeed
[['我', 'r'], ['爱', 'v'], ['北京', 'ns'], ['天安门', 'ns']]

其中 r/v/ns 等是词性,含义如下:

n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名
m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词
v/动词 a/形容词 d/副词 h/前接成分 k/后接成分 i/习语 
j/简称 r/代词 c/连词 p/介词 u/助词 y/语气助词
e/叹词 o/拟声词 g/语素 w/标点 x/其它

参考

  1. 李佶澳的博客

推荐阅读



赞助商广告

Copyright @2011-2019 All rights reserved. 转载请添加原文连接,合作请加微信lijiaocn或者发送邮件: [email protected],备注网站合作

友情链接:  李佶澳的博客  小鸟笔记  软件手册  编程手册  运营手册  网络课程  课程文档  精选文章  发现知识星球  百度搜索 谷歌搜索