您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息
三六零分类信息网 > 江门分类信息网,免费分类信息发布

Python3之 中文关键字提取

2022/3/11 0:57:53发布76次查看
关键字提取
关键字的提取是在当下互联网相关领域中应用广泛的一个技术。
所以对这方面具备初步的了解是十分必要的。
今天介绍的应用于中文关键字提取的第三方库是jieba。
python
jieba
结巴(jieba)是国人出的一个精品插件,可以对一段中文进行分词,有三种分词模式,可以适应不同需求。
目前已有python、java、c++和nodejs版本。
pip安装
pip install jieba
jieba分词
代码
participle.py
cut_all 参数用来控制是否采用全模式。
jieba.load_userdict(mydict.txt) 载入自定义词库。
cut_for_search 该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。
自定义词库
mydict.txt
mydict.txt
执行结果
执行结果
jieba关键词提取
jieba.analyse
通过引入jieba.analyse可以很容易的实现对于文章关键字的提取。
jieba.analyse.extract_tags提取文本中的关键字,topk为tf/idf权重最大的关键字。
jieba.analyse.set_idf_path引入自定义语料库
代码
keywordextraction.py
idf.txt文件引用自:https://raw.githubusercontent/fxsjy/jieba/master/extra_dict/idf.txt.big
执行结果
执行结果
江门分类信息网,免费分类信息发布

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录