查看“中文分词利器jieba、jiagu使用心得”的源代码
←
中文分词利器jieba、jiagu使用心得
跳转至:
导航
、
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
{{4}} 1、jieba项目地址:https://github.com/fxsjy/jieba 2、jiagu项目地址:https://github.com/ownthink/Jiagu 使用心得: 1、利用jieba进行关键词提取,提取之前可以通过 1、词性标注进行过滤,主要使用参数allowPOS , 2、加载停用词表进行词汇的过滤 2、关键词提取函数 jieba.analyse.extract_tags()基于tf-idf jieba.analyse.textrank()基于textrank 函数参数有一下几个: sentence 为待提取的文本 topK 为返回的关键词数量,默认值为20 withWeight 为是否一并返回关键词权重值,默认值为False allowPOS 仅包括指定词性的词,默认值为空,即不筛选 3、关键词提取算法详细原理,以及jieba源代码实习该算法的原理,推荐看这篇文章https://blog.csdn.net/suibianshen2012/article/details/68927060 4、利用jiagu进行关键词提取:jiagu使用的是深度学习,需要训练模型,所以好像很慢,就不推荐了。自己可以参考官方文档,跑跑,测试下。 5、jieba采用的词性表,可以找这个链接:https://blog.csdn.net/csdn_yxy/article/details/84974726 具体参数如图所示: [[文件:jieba采用的词性表.jpg]] 作者:你在干嘛HJ 链接:https://www.jianshu.com/p/d3183e08384e 来源:简书
该页面使用的模板:
模板:4
(
查看源代码
)
返回至
中文分词利器jieba、jiagu使用心得
。
导航菜单
个人工具
登录
名字空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
社区主页
新闻动态
最近更改
随机页面
帮助
华师附中老三届
站群链接
社友网(sn)
产品百科(cpwiki)
产品与服务(sn)
社区支持农业(sn)
工具
链入页面
相关更改
特殊页面
页面信息