16,821
个编辑
更改
无编辑摘要
收稿日期: 2013 - 06 - 04。教育部人文社会科学研究青年基金项目<br>
( 12YJCZH201) ; 杭州市科技发展计划重大科技创新专项( 20122511A18) 。<br>
王荣波,副教授,主研领域: 中文信息处理。谌志群,副教授。周建政,工程师。李治,工程师。高飞,硕士生。 中文信息处理。谌志群,副教授。周建政,工程师。李治,工程师。高飞,硕士生。 摘 要 语义相关度计算是自然语言处理领域的研究热点。现有的以文本相似度计算代替文本相关度计算的方法存在不足之处。提出从语形相似性和组元相关性两个方面来综合度量短文本之间的语义相关性,并提出 语义相关度计算是自然语言处理领域的研究热点。现有的以文本相似度计算代替文本相关度计算的方法存在不足之处。提出从语形相似性和组元相关性两个方面来综合度量短文本之间的语义相关性,并提出 2 个以 Wikipedia 作为外部知识库的短文本相关度计算算法作为外部知识库的短文本相关度计算算法: 最大词语关联法和动态组块法。在一个网络短文本测试集上对算法进行测评。实验结果表明,该算法与典型相似度计算算法比较,在正确率方面提高了 最大词语关联法和动态组块法。在一个网络短文本测试集上对算法进行测评。实验结果表明,该算法与典型相似度计算算法比较,在正确率方面提高了 20% 以上。<br>
关键词 短文本 Wikipedia 相关度计算 自然语言处理<br>
中图分类号 TP391 文献标识码 A DOI: 10. 3969 /j. issn. 1000-386x. 2015. 01. 021 SHORT TEXTS SEMANTIC RELEVANCE COMPUTATION METHOD BASED ON WIKIPEDIA Wang Rongbo1 Chen Zhiqun1 Zhou Jianzheng2 Li Zhi2 Gao Fei1 1 ( Institute of Cognitive and Intelligent Computing,Hangzhou Dianzi University,Hangzhou 310018,Zhejiang,China) 2 ( Tiange Technology( Hangzhou) Limited Company,Hangzhou 310005,Zhejiang,China) Abstract Semantic relevance computation is the research focus in natural language processing field. Existing approach has the deficiency, which replaces the texts relevance computation with texts similarity computation. In this paper,we present to measure the semantic relevance between short texts comprehensively from two aspects of morphological similarity and group elements relevance,and present two computation algorithms for short texts relevance using Wikipedia as the external knowledge base: the maximum words correlation ( MWC) algorithm and the dynamic chunking ( DC) algorithm. The algorithm has been texted and assessed on a network short texts test set. Experimental results show that compared with typical similarity computation algorithm,this algorithm improves the accuracy rate up to 20% and higher. Keywords Short texts Wikipedia Relevance computation Natural language processing
<br>'''0 引 言'''<br>互联网应用的快速发展与变革导致短文本大量出现[1],如即时聊天记录、新闻和 互联网应用的快速发展与变革导致短文本大量出现[1],如即时聊天记录、新闻和 BBS 标题、新闻跟帖、博客评论等,近几年微博成为另一个海量的短文本信息源。短文本之间的相关度计算是很多互联网应用的关键技术。目前在文本相似度计算标题、新闻跟帖、博客评论等,近几年微博成为另一个海量的短文本信息源。短文本之间的相关度计算是很多互联网应用的关键技术。目前在文本相似度计算( 包括短文本相似度计算) 方面已有不少研究成果,并在诸多领域得到应用[2,3]。文本相关度的概念与文本相似度的概念有联系也有区别[4]。“相关”强调的是文本内容的“关联性”,而“相 方面已有不少研究成果,并在诸多领域得到应用[2,3]。文本相关度的概念与文本相似度的概念有联系也有区别[4]。“相关”强调的是文本内容的“关联性”,而“相 似”强调的是语义 方 面 的“相 像 性”。例 如,词 语“iPhone”和 “iPad”之间更多的是具有相关性而非相似性,“餐桌”和“书桌”之间更多的是相似而非相关。又如,两个短文本“电脑走进了农村孩子的课堂,张老师第一次使用 “iPad”之间更多的是具有相关性而非相似性,“餐桌”和“书桌”之间更多的是相似而非相关。又如,两个短文本“电脑走进了农村孩子的课堂,张老师第一次使用 PPT 做公开课”和“乡村中小学计算机教育条件有待改善”均与农村地区教育中的电脑普及与使用相关,它们之间具有强烈的相关性,而语义相似度较小。互联网上的很多应用都需要文本相关度计算技术,如信息推荐系统中需要根据用户的偏好自动发现关联信息[5]做公开课”和“乡村中小学计算机教育条件有待改善”均与农村地区教育中的电脑普及与使用相关,它们之间具有强烈的相关性,而语义相似度较小。互联网上的很多应用都需要文本相关度计算技术,如信息推荐系统中需要根据用户的偏好自动发现关联信息[5]; 网络舆情分析系统中需要分析热点话题之间的相关性及其演化规律[6]网络舆情分析系统中需要分析热点话题之间的相关性及其演化规律[6]; 而在自动聊天系统中需要对海量的聊天记录进行归类与关联挖掘以改进自动聊天的效果[1]。而在自动聊天系统中需要对海量的聊天记录进行归类与关联挖掘以改进自动聊天的效果[1]。<br>网络上出现的短文本作为文本的一种,具有几个显著的特点[7],其中最重要的是单条短文本的长度一般都非常短网络上出现的短文本作为文本的一种,具有几个显著的特点[7],其中最重要的是单条短文本的长度一般都非常短( 如每条微博限 如每条微博限 140 字、新闻和 BBS 标题最多也就几十个字) ,因此样本特征非常稀疏,很难准确抽取有效的语言特征,也就难以充分挖掘与利用特征之间的关联性。短文本的特征稀疏性,使得现有的文本相关度计算算法难以取得良好的效果[8]。本文首先综述了现有的文本相关度计算技术,并介绍了基于 ,因此样本特征非常稀疏,很难准确抽取有效的语言特征,也就难以充分挖掘与利用特征之间的关联性。短文本的特征稀疏性,使得现有的文本相关度计算算法难以取得良好的效果[8]。本文首先综述了现有的文本相关度计算技术,并介绍了基于 Wikipedia 的语义相关度计算研究现状,然后提出以 的语义相关度计算研究现状,然后提出以 Wikipedia 作为外部知识库,实现网络短文本之间的相关度计算,并具体提出了最大词语关联法和动态组块法两个短文本相关度计算算法,最后在一个网络短文本测试集上对本文算法进行了评测。第 1 期 王荣波等: 基于 Wikipedia 的短文本语义相关度计算方法 83 1 相关研究<br><br>互联网应用的快速发展与变革导致短文本大量出现[1],如即时聊天记录、新闻和 BBS 标题、新闻跟帖、博客评论等,近几年微博成为另一个海量的短文本信息源。短文本之间的相关度计算是很多互联网应用的关键技术。目前在文本相似度计算( 包括短文本相似度计算) 方面已有不少研究成果,并在诸多领域得到应用[2,3]。文本相关度的概念与文本相似度的概念有联系也有区别[4]。“相关”强调的是文本内容的“关联性”,而“相 似”强调的是语义 方 面 的“相 像 性”。例 如,词 语“iPhone”和 “iPad”之间更多的是具有相关性而非相似性,“餐桌”和“书桌”之间更多的是相似而非相关。又如,两个短文本“电脑走进了农村孩子的课堂,张老师第一次使用 PPT 做公开课”和“乡村中小学计算机教育条件有待改善”均与农村地区教育中的电脑普及与使用相关,它们之间具有强烈的相关性,而语义相似度较小。互联网上的很多应用都需要文本相关度计算技术,如信息推荐系统中需要根据用户的偏好自动发现关联信息[5]; 网络舆情分析系统中需要分析热点话题之间的相关性及其演化规律[6]; 而在自动聊天系统中需要对海量的聊天记录进行归类与关联挖掘以改进自动聊天的效果[1]。网络上出现的短文本作为文本的一种,具有几个显著的特点[7],其中最重要的是单条短文本的长度一般都非常短( 如每条微博限 140 字、新闻和 BBS 标题最多也就几十个字) ,因此样本特征非常稀疏,很难准确抽取有效的语言特征,也就难以充分挖掘与利用特征之间的关联性。短文本的特征稀疏性,使得现有的文本相关度计算算法难以取得良好的效果[8]。本文首先综述了现有的文本相关度计算技术,并介绍了基于 Wikipedia 的语义相关度计算研究现状,然后提出以 Wikipedia 作为外部知识库,实现网络短文本之间的相关度计算,并具体提出了最大词语关联法和动态组块法两个短文本相关度计算算法,最后在一个网络短文本测试集上对本文算法进行了评测。----收稿日期: 2013 - 06 - 04。教育部人文社会科学研究青年基金项目( 12YJCZH201) ; 杭州市科技发展计划重大科技创新专项( 20122511A18) 。王荣波,副教授,主研领域: 中文信息处理。谌志群,副教授。周建政,工程师。李治,工程师。高飞,硕士生。作为外部知识库,实现网络短文本之间的相关度计算,并具体提出了最大词语关联法和动态组块法两个短文本相关度计算算法,最后在一个网络短文本测试集上对本文算法进行了评测。
<br>
'''1. 1 文本相关度计算研究'''<br>
'''2. 2 词形词序法'''<br>
可令 n≥m。构建两个短文本的词语特征相关矩阵,见式( 4) :<br>
S = s11 s12 … s1j … s1n s21 s22 … s2j … s2n<br>
其中,Sim( ai,bj) 为词语 ai和 bj之间的语义相关度值。有了组块
特征相关矩阵,可类似式( 5) 获取 A 和 B 的最大组块关联序列,
类似式( 6) 计算 A 和 B 之间的组块相关度,类似式( 7) 计算 A 和 B 之间的短文本相关度。 3 实验与分析<br>'''3. 1 Wikipedia 数据与测试集'''<br>
Wikipedia 作为百科知识库,主要包含词语( 概念) 解释文档
及文档之间的链接信息和概念的分类数据。为处理“多词一
行额外的动态组块提取和相关度计算,动态组块法的时间复杂
度较高。在应用系统研发过程中可根据实际需要选取合适
算法。 <br>'''4 结 语'''<br>
文本语义相关度计算是自然语言处理中的重要课题,短文
本语义相关度计算技术在网络信息泛滥的今天具有重大研究价
方向。<br>
参 考 文 献<br>
[1] 龚才春. 短文本语言计算的关键技术研究[D]. 北京: 中国科学中国科学院计算技术研究所,2008. <br>院计算技术研究所,2008. [2] Martins A,Figueiredo M,Aguiar P. Kernels and similarity measures for text classification[C]/ /Proceedings of ConfTele’2007,New York, USA,2007: 1-4. [3] 闫瑞,曹先彬,李凯. 面向短文本的动态组合分类算法[J]. 电子<br>学报,2009,37 ( 5) : 1019-1024. [4] 刘宏哲,须德. 基于本体的语义相似度和相关度计算研究综述<br>[J]. [4] 刘宏哲,须德. 基于本体的语义相似度和相关度计算研究综述[J]. 计算机科学,2012,39( 2) : 8-13. <br>[5] Yize Li,Jiazhong Nie,Yi Zhang,et al. Contextual recommendation based on text mining[C]/ /Proceedings of the 23rd International Con- ference on Computational Linguistics, Beijing, August 2010: 692-700. <br>[6] Waltinger U,Mehler A. Social Semantics and Its Evaluation by Means of Semantic Relatedness and Open Topic Models[C]/ /Proceedings of International Joint Conferences on Web Intelligence and Intelligent A- gent Technologies,Milan,Italy,15-18 Sept. 2009 : 42-49. [7] 胡佳妮,郭军,邓伟洪,等. 基于短文本的独立语义特征抽取算法<br>[J]. [7] 胡佳妮,郭军,邓伟洪,等. 基于短文本的独立语义特征抽取算法[J]. 通信学报,2007,28( 12) : 121-124. <br>[8] 何海江. 一种适应短文本的相关测度及其应用[J]. 计算机工程, 2009,35( 6) : 88-90,96. [9] 贾西平,彭宏,郑启伦,等. 一种基于主题的概率文档相关模型<br>[J]. 一种基于主题的概率文档相关模型[J]. 计算机科学,2008,35( 10) : 178-180,218. [10] 赵玉茗,徐志明,王晓龙,等. 基于词汇集聚的文档相关性计算<br>[J]. [10] 赵玉茗,徐志明,王晓龙,等. 基于词汇集聚的文档相关性计算[J]. 电子与信息学报,2008,30( 10) : 2512-2515. [11] 朱鲲鹏,魏芳. 基于文档相关度计算的网页预测模型[J]. 计算机<br>应用与软件,2012,29[11] 朱鲲鹏,魏芳. 基于文档相关度计算的网页预测模型[J]. 计算机应用与软件,2012,29( 2) : 109-112,189. <br>[12] Wikipedia[EB /OL]. http: / /www. wikipedia. org. <br>[13] Olena Medelyan,David Milne,Catherine Legg,et al. Mining meaning from Wikipedia[J]. International Journal of Human-Computer Stud- ies,2009,67( 9) : 716-754. <br>[14] Strube M,Ponzetto S. WikiRelate Computing Semantic Relatedness U- sing Wikipedia[C]/ /Proceedings of the 21st National Conference on Artificial Intelligence,Boston,2006: 1419-1424. <br>[15] Gabrilovich G,Markovitch S. Computing Semantic Relatedness using Wikipedia-based Explict Semantic Analysis[C]/ /Proceedings of the 20th International Joint Conference on Artificial Intelligence,2007: 1606-1611. <br>[16] Samer Hassan,Rada Mihalcea. Semantic Relateness Using Salient Se- mantic Analysis[C]/ /Proceedings of the 25th AAAI Conference on Artificial Intelligence,2011: 884-889. 92 计算机应用与软件 2015 年<br>[17] Somnath Banerjee,Krishnan Ramanathan,Ajay Gupta. Clustering Short Texts using Wikipedia[C]/ /Proceedings of the 30th annual internation- al ACM SIGIR conference on research and development in information retrieval,2007: 787-788. <br>[18] 李赟. 基于中文维基百科的语义知识挖掘相关研究[D]. 北京:北京邮电大学,2009. <br>[19] 刘军,姚天昉. 基于 Wikipedia 的语义相关度计算[J]. 计算机工程,2010,36(下转第 92 页19) : 42-46. <br>[20] 谌志群,高飞,曾智军. 基于中文维基百科的词语相关度计算[J]. 情报学报,2012,31( 12): 1265-1270. <br>92 计算机应用与软件 2015 年[21] 吕学强,任飞亮,黄志丹,等. 句子相似模型和最相似句子查找算法[J]. 东北大学学报: 自然科学版,2003,24( 6) : 531-534. <br>[22] 李素建,刘群,杨志峰. 基于最大熵模型的组块分析[J]. 计算机学报,2003,26( 12) : 1722-1777.<br
存储在 Cookies 中。这种方法使用起来很简单,它支持″SHA1″ 和″MD5″加密算法。加密算法可用语句 string Password = Form- sAuthentication. HashPasswordForStoringInConfigFile ( Pwd. Text. ToString( ) ,″MD5″) ; 验证码图片生成的函数单独放在 Validata. aspx. cs 文件中,便于登陆页面验证码图片的生成及对比校验。<br>
当管理员用户通过用户名、密码、验证码三重验证之后,服
考虑,可以采取一些加密手段进行加密。 ( 2) 系统在技术文章栏目中包含留言互动模块,在以后的<br>
研究中可以增加视频会议、专家系统等模块,使功能进一步完善<br>
和丰富。 <br>'''参 考 文 献 [1] 漆联全. 新疆红枣产业的现状、要求及其发展趋势[J]. 新疆农业''' <br>科学,2010,47[1] 漆联全. 新疆红枣产业的现状、要求及其发展趋势[J]. 新疆农业科学,2010,47( S2) : 8-12. <br> [2] 龙滔. 基于. NET 的数字图书馆管理信息系统的设计与实现[D].<br>长沙: 湖南大学软件学院,2012. [3] 林乐逸. 基于 ASP. NET MVC 和实体框架的软件项目管理平台<br>[D]. 和实体框架的软件项目管理平台[D]. 上海: 上海交通大学软件学院,2012. [4] 陈旭,毕军芳,仇天月,等. 基于共享服务模式的农业资源管理<br>WebGIS [4] 陈旭,毕军芳,仇天月,等. 基于共享服务模式的农业资源管理WebGIS 系统构建[J]. 中国农学通报,2013,29( 11) : 115-120. [5] 杨少友,黄心砚. 科研电子病历系统的设计[J]. 计算机应用与软<br>件,2013,30[5] 杨少友,黄心砚. 科研电子病历系统的设计[J]. 计算机应用与软件,2013,30( 5) : 73-75. [6] 吴开兴,陈旭,翟自勇. 居民健康档案管理系统的设计与实现[J].<br>计算机应用与软件,2013,30[6] 吴开兴,陈旭,翟自勇. 居民健康档案管理系统的设计与实现[J].计算机应用与软件,2013,30( 4) : 214-216. <br>[7] 李宗新,王庆成,刘开昌,等. 基于 Internet 的山东省作物种质资源<br>共享平台的开发与研究[J]. 的山东省作物种质资源共享平台的开发与研究[J]. 山东农业科学,2011( 9) : 9-14. [8] 肖锐,荆长伟,支俊俊,等. 浙江省土壤信息共享平台的构建与实现<br>[J]. [8] 肖锐,荆长伟,支俊俊,等. 浙江省土壤信息共享平台的构建与实现[J]. 科技通报,2013,29( 1) : 19-24. <br>[9] Lilburne L R,Hewitt E A,Webb T W. Soil and informatics science combine to develop S-map: A new generationsoil information system for New Zealand [J]. Geoderma,2012,170: 232-238. <br>[10] Panagos P J,Liedekerke M V,Montanarella L. Multiscale European soil information system( MEUSIS) : a multi-scale method to derive soil indi- cators[J]. Computational geosciences,2011,15( 3) :<br><br>463-475. (上接第 85 页) [17] Somnath Banerjee,Krishnan Ramanathan,Ajay Gupta. Clustering Short Texts using Wikipedia[C]/ /Proceedings of the 30th annual internation- al ACM SIGIR conference on research and development in information retrieval,2007: 787-788. [18] 李赟. 基于中文维基百科的语义知识挖掘相关研究[D]. 北京:<br>北京邮电大学,2009. [19] 刘军,姚天昉. 基于 Wikipedia 的语义相关度计算[J]. 计算机工<br>程,2010,36( 19) : 42-46. [20] 谌志群,高飞,曾智军. 基于中文维基百科的词语相关度计算[J]. 情报学报,2012,31( 12) : 1265-1270. [21] 吕学强,任飞亮,黄志丹,等. 句子相似模型和最相似句子查找--算法[J]. 东北大学学报收稿日期: 自然科学版,2003,24( 62013 - 06 - 04。教育部人文社会科学研究青年基金项目 12YJCZH201) : 531-534. [22] 李素建,刘群,杨志峰. 基于最大熵模型的组块分析[J]. 计算机学报,2003,26; 杭州市科技发展计划重大科技创新专项( 1220122511A18) 。王荣波,副教授,主研领域: 1722-1777.中文信息处理。谌志群,副教授。周建政,工程师。李治,工程师。高飞,硕士生。