pyhanlp用户自定义词典添加实例说明

pyhanlp用户自定义词典添加 实例说明

创新互联公司是一家专注于成都网站建设、成都做网站与策划设计,徐州网站建设哪家好?创新互联公司做网站,专注于网站建设十载,网设计领域的专业建站公司;建站业务涵盖:徐州等地区。徐州做网站价格咨询:028-86922220

pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp

经过测试, HanLP比nltk在中文分词和实体识别方面都更好用 .

pyhanlp用户自定义词典添加实例说明

如何向 pyhanlp添加自定义的词典?以python 2.7.9为例:

1.安装pyhanlp:pip install pyhanlp

2.在字典路径下添加自定义的词典:CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。

具体绝对路径可用 hanlp --version获取:

#hanlp --version

jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar

data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data

config:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties

#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"

3.建议在该路径下添加自己的词典文件例如 我的词典.txt,并将其加入上面的properties文件里的CustomDictionaryPath下面。

#cat 我的词典.txt  

codis集群 nz 1000

今日头条 nz 1000

 

第一列为词条,第二列为词性(默认为 n),第三列为词频

4.然后需要删除缓存文件,这样python才会重新加载新增的文件:

#rm -f CustomDictionary.txt.bin

 

5.测试新增的词典:

python -c "from pyhanlp import *;print(HanLP.segment('codis集群,今日头条'))"

五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes

警告: 读取

/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (没有那个文件或目录)

 

报这个错误没有关系,只是个 warning,重新加载缓存文件而已。

 

备注:

HanLP词性列表: 详细的词性列表可以查询 hanlp项目网站上内容,更为全面详细!

---------------------

作者:明月三千里 68

 


网页题目:pyhanlp用户自定义词典添加实例说明
本文网址:http://bzwzjz.com/article/iiegce.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 上市集团网站建设 品牌网站建设 教育网站设计方案 营销网站建设 专业网站设计 网站建设方案 成都网站制作 网站建设方案 成都网站建设流程 成都网站建设 成都定制网站建设 手机网站制作 成都商城网站制作 重庆手机网站建设 宜宾网站设计 外贸营销网站建设 响应式网站设计 成都网站制作 营销型网站建设 高端网站建设 定制网站制作 手机网站制作设计