更改

基于 Wikipedia 的短文本语义相关度计算方法

删除2,545字节, 2022年7月15日 (五) 11:16
无编辑摘要
收稿日期: 2013 - 06 - 04。教育部人文社会科学研究青年基金项目<br>
( 12YJCZH201) ; 杭州市科技发展计划重大科技创新专项( 20122511A18) 。<br>
王荣波,副教授,主研领域: 中文信息处理。谌志群,副教授。周建政,工程师。李治,工程师。高飞,硕士生。 中文信息处理。谌志群,副教授。周建政,工程师。李治,工程师。高飞,硕士生。 摘 要 语义相关度计算是自然语言处理领域的研究热点。现有的以文本相似度计算代替文本相关度计算的方法存在不足之处。提出从语形相似性和组元相关性两个方面来综合度量短文本之间的语义相关性,并提出 语义相关度计算是自然语言处理领域的研究热点。现有的以文本相似度计算代替文本相关度计算的方法存在不足之处。提出从语形相似性和组元相关性两个方面来综合度量短文本之间的语义相关性,并提出 2 个以 Wikipedia 作为外部知识库的短文本相关度计算算法作为外部知识库的短文本相关度计算算法: 最大词语关联法和动态组块法。在一个网络短文本测试集上对算法进行测评。实验结果表明,该算法与典型相似度计算算法比较,在正确率方面提高了 最大词语关联法和动态组块法。在一个网络短文本测试集上对算法进行测评。实验结果表明,该算法与典型相似度计算算法比较,在正确率方面提高了 20% 以上。<br>
关键词 短文本 Wikipedia 相关度计算 自然语言处理<br>
中图分类号 TP391 文献标识码 A DOI: 10. 3969 /j. issn. 1000-386x. 2015. 01. 021 SHORT TEXTS SEMANTIC RELEVANCE COMPUTATION METHOD BASED ON WIKIPEDIA Wang Rongbo1 Chen Zhiqun1 Zhou Jianzheng2 Li Zhi2 Gao Fei1 1 ( Institute of Cognitive and Intelligent Computing,Hangzhou Dianzi University,Hangzhou 310018,Zhejiang,China) 2 ( Tiange Technology( Hangzhou) Limited Company,Hangzhou 310005,Zhejiang,China) Abstract Semantic relevance computation is the research focus in natural language processing field. Existing approach has the deficiency, which replaces the texts relevance computation with texts similarity computation. In this paper,we present to measure the semantic relevance between short texts comprehensively from two aspects of morphological similarity and group elements relevance,and present two computation algorithms for short texts relevance using Wikipedia as the external knowledge base: the maximum words correlation ( MWC) algorithm and the dynamic chunking ( DC) algorithm. The algorithm has been texted and assessed on a network short texts test set. Experimental results show that compared with typical similarity computation algorithm,this algorithm improves the accuracy rate up to 20% and higher. Keywords Short texts Wikipedia Relevance computation Natural language processing
<br>'''0 引 言'''<br>互联网应用的快速发展与变革导致短文本大量出现[1],如即时聊天记录、新闻和 互联网应用的快速发展与变革导致短文本大量出现[1],如即时聊天记录、新闻和 BBS 标题、新闻跟帖、博客评论等,近几年微博成为另一个海量的短文本信息源。短文本之间的相关度计算是很多互联网应用的关键技术。目前在文本相似度计算标题、新闻跟帖、博客评论等,近几年微博成为另一个海量的短文本信息源。短文本之间的相关度计算是很多互联网应用的关键技术。目前在文本相似度计算( 包括短文本相似度计算) 方面已有不少研究成果,并在诸多领域得到应用[2,3]。文本相关度的概念与文本相似度的概念有联系也有区别[4]。“相关”强调的是文本内容的“关联性”,而“相 方面已有不少研究成果,并在诸多领域得到应用[2,3]。文本相关度的概念与文本相似度的概念有联系也有区别[4]。“相关”强调的是文本内容的“关联性”,而“相 似”强调的是语义 方 面 的“相 像 性”。例 如,词 语“iPhone”和 “iPad”之间更多的是具有相关性而非相似性,“餐桌”和“书桌”之间更多的是相似而非相关。又如,两个短文本“电脑走进了农村孩子的课堂,张老师第一次使用 “iPad”之间更多的是具有相关性而非相似性,“餐桌”和“书桌”之间更多的是相似而非相关。又如,两个短文本“电脑走进了农村孩子的课堂,张老师第一次使用 PPT 做公开课”和“乡村中小学计算机教育条件有待改善”均与农村地区教育中的电脑普及与使用相关,它们之间具有强烈的相关性,而语义相似度较小。互联网上的很多应用都需要文本相关度计算技术,如信息推荐系统中需要根据用户的偏好自动发现关联信息[5]做公开课”和“乡村中小学计算机教育条件有待改善”均与农村地区教育中的电脑普及与使用相关,它们之间具有强烈的相关性,而语义相似度较小。互联网上的很多应用都需要文本相关度计算技术,如信息推荐系统中需要根据用户的偏好自动发现关联信息[5]; 网络舆情分析系统中需要分析热点话题之间的相关性及其演化规律[6]网络舆情分析系统中需要分析热点话题之间的相关性及其演化规律[6]; 而在自动聊天系统中需要对海量的聊天记录进行归类与关联挖掘以改进自动聊天的效果[1]。而在自动聊天系统中需要对海量的聊天记录进行归类与关联挖掘以改进自动聊天的效果[1]。<br>网络上出现的短文本作为文本的一种,具有几个显著的特点[7],其中最重要的是单条短文本的长度一般都非常短网络上出现的短文本作为文本的一种,具有几个显著的特点[7],其中最重要的是单条短文本的长度一般都非常短( 如每条微博限 如每条微博限 140 字、新闻和 BBS 标题最多也就几十个字) ,因此样本特征非常稀疏,很难准确抽取有效的语言特征,也就难以充分挖掘与利用特征之间的关联性。短文本的特征稀疏性,使得现有的文本相关度计算算法难以取得良好的效果[8]。本文首先综述了现有的文本相关度计算技术,并介绍了基于 ,因此样本特征非常稀疏,很难准确抽取有效的语言特征,也就难以充分挖掘与利用特征之间的关联性。短文本的特征稀疏性,使得现有的文本相关度计算算法难以取得良好的效果[8]。本文首先综述了现有的文本相关度计算技术,并介绍了基于 Wikipedia 语义相关度计算研究现状,然后提出以 的语义相关度计算研究现状,然后提出以 Wikipedia 作为外部知识库,实现网络短文本之间的相关度计算,并具体提出了最大词语关联法和动态组块法两个短文本相关度计算算法,最后在一个网络短文本测试集上对本文算法进行了评测。第 1 期 王荣波等: 基于 Wikipedia 的短文本语义相关度计算方法 83 1 相关研究<br><br>互联网应用的快速发展与变革导致短文本大量出现[1],如即时聊天记录、新闻和 BBS 标题、新闻跟帖、博客评论等,近几年微博成为另一个海量的短文本信息源。短文本之间的相关度计算是很多互联网应用的关键技术。目前在文本相似度计算( 包括短文本相似度计算) 方面已有不少研究成果,并在诸多领域得到应用[2,3]。文本相关度的概念与文本相似度的概念有联系也有区别[4]。“相关”强调的是文本内容的“关联性”,而“相 似”强调的是语义 方 面 的“相 像 性”。例 如,词 语“iPhone”和 “iPad”之间更多的是具有相关性而非相似性,“餐桌”和“书桌”之间更多的是相似而非相关。又如,两个短文本“电脑走进了农村孩子的课堂,张老师第一次使用 PPT 做公开课”和“乡村中小学计算机教育条件有待改善”均与农村地区教育中的电脑普及与使用相关,它们之间具有强烈的相关性,而语义相似度较小。互联网上的很多应用都需要文本相关度计算技术,如信息推荐系统中需要根据用户的偏好自动发现关联信息[5]; 网络舆情分析系统中需要分析热点话题之间的相关性及其演化规律[6]; 而在自动聊天系统中需要对海量的聊天记录进行归类与关联挖掘以改进自动聊天的效果[1]。网络上出现的短文本作为文本的一种,具有几个显著的特点[7],其中最重要的是单条短文本的长度一般都非常短( 如每条微博限 140 字、新闻和 BBS 标题最多也就几十个字) ,因此样本特征非常稀疏,很难准确抽取有效的语言特征,也就难以充分挖掘与利用特征之间的关联性。短文本的特征稀疏性,使得现有的文本相关度计算算法难以取得良好的效果[8]。本文首先综述了现有的文本相关度计算技术,并介绍了基于 Wikipedia 的语义相关度计算研究现状,然后提出以 Wikipedia 作为外部知识库,实现网络短文本之间的相关度计算,并具体提出了最大词语关联法和动态组块法两个短文本相关度计算算法,最后在一个网络短文本测试集上对本文算法进行了评测。----收稿日期: 2013 - 06 - 04。教育部人文社会科学研究青年基金项目( 12YJCZH201) ; 杭州市科技发展计划重大科技创新专项( 20122511A18) 。王荣波,副教授,主研领域: 中文信息处理。谌志群,副教授。周建政,工程师。李治,工程师。高飞,硕士生。作为外部知识库,实现网络短文本之间的相关度计算,并具体提出了最大词语关联法和动态组块法两个短文本相关度计算算法,最后在一个网络短文本测试集上对本文算法进行了评测。
<br>
'''1. 1 文本相关度计算研究'''<br>
目前的自然语言相关度计算研究主要集中在词汇层面[4],文本之间的相关度研究由于其在网络信息处理中的重要作用近年来也逐渐成为研究热点。主流技术分为两类目前的自然语言相关度计算研究主要集中在词汇层面[4],文本之间的相关度研究由于其在网络信息处理中的重要作用近年来也逐渐成为研究热点。主流技术分为两类: 基于词语共现的方法[8,9]和基于外部知识库的方法[10,11]。词语共现模型是经典的自然语言处理模型,其基本思想是如果两个文本包含较多的共同词语那么它们是语义相关的或相似的。贾西平等[9] 提出了一个以词语共现模型为基础的概率文档相关模型,通过概率推理和合理近似,把求解文档之间的相关性转化为计算 LDA主题向量之间的相似性。赵玉茗等[10]提出以知网为知识库,提取文档中存在语义关联的词语链及其权重作为文档的形式化表达,并在此基础上进行文档之间的相关度计算。朱鲲鹏等[11]通过词频统计和基于知网的词语概念相似度计算模型来计算网页文档间的主题相关度。在短文本相关度研究方面,何海江[8]提出一种扩展向量空间模型的相关度向量空间模型基于词语共现的方法[8,9]和基于外部知识库的方法[10,11]。词语共现模型是经典的自然语言处理模型,其基本思想是如果两个文本包含较多的共同词语那么它们是语义相关的或相似的。贾西平等[9] 提出了一个以词语共现模型为基础的概率文档相关模型,通过概率推理和合理近似,把求解文档之间的相关性转化为计算 LDA主题向量之间的相似性。赵玉茗等[10]提出以知网为知识库,提取文档中存在语义关联的词语链及其权重作为文档的形式化表达,并在此基础上进行文档之间的相关度计算。朱鲲鹏等[11]通过词频统计和基于知网的词语概念相似度计算模型来计算网页文档间的主题相关度。在短文本相关度研究方面,何海江[8]提出一种扩展向量空间模型的相关度向量空间模型( cVSM) ,并把它应用于博客和 ,并把它应用于博客和 BBS 评论文本的相关度计算领域。综合以上研究,发现现有的文本相关度计算方法基本都是借鉴文本相似度的计算方法。相似性度量虽然能够在一定程度上反映相关性度量。但是,在强调考察文本之间的关联程度而非相似程度的很多互联网应用当中,这类方法往往不能取得良好的应用效果,而短文本由于其特征稀疏性,效果更差。因此,迫切需要研究新的文本相关度评论文本的相关度计算领域。综合以上研究,发现现有的文本相关度计算方法基本都是借鉴文本相似度的计算方法。相似性度量虽然能够在一定程度上反映相关性度量。但是,在强调考察文本之间的关联程度而非相似程度的很多互联网应用当中,这类方法往往不能取得良好的应用效果,而短文本由于其特征稀疏性,效果更差。因此,迫切需要研究新的文本相关度( 特别是针对网络短文本的相关度) 计算方法。 计算方法。 <br>'''1. 2 基于 Wikipedia 的语义相关度计算研究'''<br>本文提出引入 Wikipedia 作为外部知识库,在计算词语之间相关度的基础上来计算短文本之间的语义相关度。Wikipedia是目前世界上规模最大、覆盖面最广的在线百科知识库[12],近年来很多研究者把它应用到自然语言处理中,取得了很好的效果[13]。Strube 作为外部知识库,在计算词语之间相关度的基础上来计算短文本之间的语义相关度。Wikipedia是目前世界上规模最大、覆盖面最广的在线百科知识库[12],近年来很多研究者把它应用到自然语言处理中,取得了很好的效果[13]。Strube 等[14]最早利用 Wikipedia 作为语义知识库来对词语相关度进行计算,并与基于 作为语义知识库来对词语相关度进行计算,并与基于 WordNet 的方法作了对比,发现它在相关度计算中的优势体现在它的覆盖面比较广。Gabrilovich 的方法作了对比,发现它在相关度计算中的优势体现在它的覆盖面比较广。Gabrilovich 等[15]提出一种基于 Wikipedia 解释文档来实现文档特征向量语义扩展的方法,可以实现对词语或者更长文本的相关度计算。 解释文档来实现文档特征向量语义扩展的方法,可以实现对词语或者更长文本的相关度计算。 Hassan 等[16]改进了文献[15]中提出的方法,首先从 Wikipedia中抽取重要概念以及概念的解释文档,然后基于概念范围之间的距离来衡量词语语义相关度。在短文本相关度计算方面, Wikipedia中抽取重要概念以及概念的解释文档,然后基于概念范围之间的距离来衡量词语语义相关度。在短文本相关度计算方面, Banerjee 等[17]首先收集 Wikipedia 解释文档,并利用开源文本检索工具 解释文档,并利用开源文本检索工具 Lucene 建立文档索引,然后将短文本进行预处理得到两个单词序列,针对每个词语通过检索系统获取检索文档来进行词语语义扩展进而计算词语相关度。在国内,针对中文文本也有类似的研究。李赟[18]根据 建立文档索引,然后将短文本进行预处理得到两个单词序列,针对每个词语通过检索系统获取检索文档来进行词语语义扩展进而计算词语相关度。在国内,针对中文文本也有类似的研究。李赟[18]根据ikipedia 中文版的分类层次以及文档链接体系构建了分类图和文档图,通过概念之间的路径信息进行了概念之间的相关度计算。刘军等[19]利用 Wikipedia 中文版的分类层次以及文档链接体系构建了分类图和文档图,通过概念之间的路径信息进行了概念之间的相关度计算。刘军等[19]利用 的分类层次进行倒排索引,通过余弦相似度来计算两个词语的语义相关度。我们在这方面也做了一定工作,在借鉴向量空间模型和谷歌相似度计算方法基础上,提出构建 Wikipedia 分类层次进行倒排索引,通过余弦相似度来计算两个词语的语义相关度。我们在这方面也做了一定工作,在借鉴向量空间模型和谷歌相似度计算方法基础上,提出构建 Wikipedia 分类图和相关语义向量来实现汉语词语相关度的计算[20]。该方法也是本文提出的短文本相关度计算方法的基础。 分类图和相关语义向量来实现汉语词语相关度的计算[20]。该方法也是本文提出的短文本相关度计算方法的基础。 <br>'''2 短文本语义相关度计算方法'''<br>'''2. 1 方法描述'''<br>从原理上来说,要度量两个短文本之间的相关性,需要对短文本进行深层的语义分析,在获取短文本深层语义的基础上来计算短文本之间的语义相关度。但是目前自然语言语义分析的技术水平还难以满足要求。我们认为,在目前的技术条件下,引入文本浅层分析技术,从语形相似性和组元相关性两个方面来综合度量两个短文本之间的语义相关性是合理、可行的。所谓语形相似性是指两个短文本在结构上、在词语构成上的共同之处。组元相关性指两个短文本包含的组成单元从原理上来说,要度量两个短文本之间的相关性,需要对短文本进行深层的语义分析,在获取短文本深层语义的基础上来计算短文本之间的语义相关度。但是目前自然语言语义分析的技术水平还难以满足要求。我们认为,在目前的技术条件下,引入文本浅层分析技术,从语形相似性和组元相关性两个方面来综合度量两个短文本之间的语义相关性是合理、可行的。所谓语形相似性是指两个短文本在结构上、在词语构成上的共同之处。组元相关性指两个短文本包含的组成单元( 如词语和组如词语和组块) 在语义方面的相关性。基于以上分析,本文引入常见的词形词序法[21]度量短文本之间的语形相似性。同时由于现有大部分研究将文本相似度作为文本相关度,而词形词序法是有代表性的文本相似度计算方法,因此本文将词形词序法作为一种传统的文本相关度计算方法,与本文方法进行实验比较。本文提出的两种方法以我们已有的基于 在语义方面的相关性。基于以上分析,本文引入常见的词形词序法[21]度量短文本之间的语形相似性。同时由于现有大部分研究将文本相似度作为文本相关度,而词形词序法是有代表性的文本相似度计算方法,因此本文将词形词序法作为一种传统的文本相关度计算方法,与本文方法进行实验比较。本文提出的两种方法以我们已有的基于 Wikipedia 的词语相关度计算方法[20]为基础,通过计算短文本之间的组元相关度的词语相关度计算方法[20]为基础,通过计算短文本之间的组元相关度( 词语相关度和组块相关度词语相关度和组块相关度) ,并综合语形相似度和组元相关度来计算短文本之间的相关度。具体来说,语形相似度计算结合词语相关度计算构成最大词语关联法,语形相似度计算结合组块相关度计算得到动态组块法。 ,并综合语形相似度和组元相关度来计算短文本之间的相关度。具体来说,语形相似度计算结合词语相关度计算构成最大词语关联法,语形相似度计算结合组块相关度计算得到动态组块法。 <br>
'''2. 2 词形词序法'''<br>
词形词序法是一种衡量句子相似度的常见方法[21]。短文本一般只包含 词形词序法是一种衡量句子相似度的常见方法[21]。短文本一般只包含 1 ~ 2 句子,甚至只包含几个词语,我们引入词形词序法来计算短文本之间的语形相似度。设 句子,甚至只包含几个词语,我们引入词形词序法来计算短文本之间的语形相似度。设 sameWC( A,B) 短文本 为短文本 A 和 B 中相同词语的个数,当同一词语在 A 和 B 中出现的次数不同时,以出现次数少的计数,则短文本 中出现的次数不同时,以出现次数少的计数,则短文本 A 和 B 的词形相似度可由式的词形相似度可由式( 1) 计算: WordSim( A,B) = 2 × samewc( A,B) len( A) + len( B) ( 1)可以证明,0≤WordSim( A,B) ≤1。 设 OnceWS( A,B) 表示 A 和 B 中都出现且只出现一次的词语集合。Pfirst中都出现且只出现一次的词语集合。Pfirst( A,B) 表示 OnceWS( A,B) 的词语在 A 中的位置序号构成的向量。Psecond中的位置序号构成的向量。Psecond( A,B) 表示 Pfirst( A,B) 中的分量按对应词语在 中的分量按对应词语在 B 中的词序排列生成的向量。RevOrd( A,B) 表示Psecond表示Psecond( A,B) 各相邻分量的逆序数。则 A 和 B 的词序相似度可由式的词序相似度可由式( 2) 计算: OrdSim( A,B) = 1 - RevOrd( A,B) OnceWS( A,B) -1 OnceWS( A,B) >1 1 OnceWS( A,B) =1 0 OnceWS( A,B) { =0 ( 2)易证,0≤OrdSim( A,B) ≤1。综合考察词形相似度和词序相似度,短文本 ≤1。综合考察词形相似度和词序相似度,短文本 A 和 B 的语形相似度可由式( 3) 计算: Simword ( A,B) = λ1 × WordSim( A,B) + λ2 × OrdSim( A,B) ( 3)其中 λ1和 λ2为常数,并且满足 λ1 + λ2 = 1,因此 0≤Simword ( A, B) ≤1。由于词形相似度起主要作用,词序相似度起次要作用,因此一般有 ≤1。由于词形相似度起主要作用,词序相似度起次要作用,因此一般有 λ1 > λ2。 2. 3 最大词语关联法两个短文本包含的词语最大词语关联法两个短文本包含的词语( 特别是名词) 之间的语义相关性是这两个短文本之间相关性的重要反映。设 之间的语义相关性是这两个短文本之间相关性的重要反映。设 A 和 B 是两个待84 是两个待84 计算机应用与软件 2015 比较的短文本,经过分词和词性过滤后,得到两个短文本的特征词向量 年比较的短文本,经过分词和词性过滤后,得到两个短文本的特征词向量 A' = { a1,a2,…,am } 和 B' = { b1,b2,…,bn } ,不失一般性,
可令 n≥m。构建两个短文本的词语特征相关矩阵,见式( 4) :<br>
S = s11 s12 … s1j … s1n s21 s22 … s2j … s2n<br>
其中,Sim( ai,bj) 为词语 ai和 bj之间的语义相关度值。有了组块
特征相关矩阵,可类似式( 5) 获取 A 和 B 的最大组块关联序列,
类似式( 6) 计算 A 和 B 之间的组块相关度,类似式( 7) 计算 A 和 B 之间的短文本相关度。 3 实验与分析<br>'''3. 1 Wikipedia 数据与测试集'''<br>
Wikipedia 作为百科知识库,主要包含词语( 概念) 解释文档
及文档之间的链接信息和概念的分类数据。为处理“多词一
行额外的动态组块提取和相关度计算,动态组块法的时间复杂
度较高。在应用系统研发过程中可根据实际需要选取合适
算法。 <br>'''4 结 语'''<br>
文本语义相关度计算是自然语言处理中的重要课题,短文
本语义相关度计算技术在网络信息泛滥的今天具有重大研究价
方向。<br>
参 考 文 献<br>
[1] 龚才春. 短文本语言计算的关键技术研究[D]. 北京: 中国科学中国科学院计算技术研究所,2008. <br>院计算技术研究所,2008. [2] Martins A,Figueiredo M,Aguiar P. Kernels and similarity measures for text classification[C]/ /Proceedings of ConfTele’2007,New York, USA,2007: 1-4. [3] 闫瑞,曹先彬,李凯. 面向短文本的动态组合分类算法[J]. 电子<br>学报,2009,37 ( 5) : 1019-1024. [4] 刘宏哲,须德. 基于本体的语义相似度和相关度计算研究综述<br>[J]. [4] 刘宏哲,须德. 基于本体的语义相似度和相关度计算研究综述[J]. 计算机科学,2012,39( 2) : 8-13. <br>[5] Yize Li,Jiazhong Nie,Yi Zhang,et al. Contextual recommendation based on text mining[C]/ /Proceedings of the 23rd International Con- ference on Computational Linguistics, Beijing, August 2010: 692-700. <br>[6] Waltinger U,Mehler A. Social Semantics and Its Evaluation by Means of Semantic Relatedness and Open Topic Models[C]/ /Proceedings of International Joint Conferences on Web Intelligence and Intelligent A- gent Technologies,Milan,Italy,15-18 Sept. 2009 : 42-49. [7] 胡佳妮,郭军,邓伟洪,等. 基于短文本的独立语义特征抽取算法<br>[J]. [7] 胡佳妮,郭军,邓伟洪,等. 基于短文本的独立语义特征抽取算法[J]. 通信学报,2007,28( 12) : 121-124. <br>[8] 何海江. 一种适应短文本的相关测度及其应用[J]. 计算机工程, 2009,35( 6) : 88-90,96. [9] 贾西平,彭宏,郑启伦,等. 一种基于主题的概率文档相关模型<br>[J]. 一种基于主题的概率文档相关模型[J]. 计算机科学,2008,35( 10) : 178-180,218. [10] 赵玉茗,徐志明,王晓龙,等. 基于词汇集聚的文档相关性计算<br>[J]. [10] 赵玉茗,徐志明,王晓龙,等. 基于词汇集聚的文档相关性计算[J]. 电子与信息学报,2008,30( 10) : 2512-2515. [11] 朱鲲鹏,魏芳. 基于文档相关度计算的网页预测模型[J]. 计算机<br>应用与软件,2012,29[11] 朱鲲鹏,魏芳. 基于文档相关度计算的网页预测模型[J]. 计算机应用与软件,2012,29( 2) : 109-112,189. <br>[12] Wikipedia[EB /OL]. http: / /www. wikipedia. org. <br>[13] Olena Medelyan,David Milne,Catherine Legg,et al. Mining meaning from Wikipedia[J]. International Journal of Human-Computer Stud- ies,2009,67( 9) : 716-754. <br>[14] Strube M,Ponzetto S. WikiRelate Computing Semantic Relatedness U- sing Wikipedia[C]/ /Proceedings of the 21st National Conference on Artificial Intelligence,Boston,2006: 1419-1424. <br>[15] Gabrilovich G,Markovitch S. Computing Semantic Relatedness using Wikipedia-based Explict Semantic Analysis[C]/ /Proceedings of the 20th International Joint Conference on Artificial Intelligence,2007: 1606-1611. <br>[16] Samer Hassan,Rada Mihalcea. Semantic Relateness Using Salient Se- mantic Analysis[C]/ /Proceedings of the 25th AAAI Conference on Artificial Intelligence,2011: 884-889. 92 计算机应用与软件 2015 年<br>[17] Somnath Banerjee,Krishnan Ramanathan,Ajay Gupta. Clustering Short Texts using Wikipedia[C]/ /Proceedings of the 30th annual internation- al ACM SIGIR conference on research and development in information retrieval,2007: 787-788. <br>[18] 李赟. 基于中文维基百科的语义知识挖掘相关研究[D]. 北京:北京邮电大学,2009. <br>[19] 刘军,姚天昉. 基于 Wikipedia 的语义相关度计算[J]. 计算机工程,2010,36(下转第 92 页19) : 42-46. <br>[20] 谌志群,高飞,曾智军. 基于中文维基百科的词语相关度计算[J]. 情报学报,2012,31( 12): 1265-1270. <br>92 计算机应用与软件 2015 年[21] 吕学强,任飞亮,黄志丹,等. 句子相似模型和最相似句子查找算法[J]. 东北大学学报: 自然科学版,2003,24( 6) : 531-534. <br>[22] 李素建,刘群,杨志峰. 基于最大熵模型的组块分析[J]. 计算机学报,2003,26( 12) : 1722-1777.<br 
存储在 Cookies 中。这种方法使用起来很简单,它支持″SHA1″ 和″MD5″加密算法。加密算法可用语句 string Password = Form- sAuthentication. HashPasswordForStoringInConfigFile ( Pwd. Text. ToString( ) ,″MD5″) ; 验证码图片生成的函数单独放在 Validata. aspx. cs 文件中,便于登陆页面验证码图片的生成及对比校验。<br>
当管理员用户通过用户名、密码、验证码三重验证之后,服
考虑,可以采取一些加密手段进行加密。 ( 2) 系统在技术文章栏目中包含留言互动模块,在以后的<br>
研究中可以增加视频会议、专家系统等模块,使功能进一步完善<br>
和丰富。 <br>'''参 考 文 献 [1] 漆联全. 新疆红枣产业的现状、要求及其发展趋势[J]. 新疆农业''' <br>科学,2010,47[1] 漆联全. 新疆红枣产业的现状、要求及其发展趋势[J]. 新疆农业科学,2010,47( S2) : 8-12. <br> [2] 龙滔. 基于. NET 的数字图书馆管理信息系统的设计与实现[D].<br>长沙: 湖南大学软件学院,2012. [3] 林乐逸. 基于 ASP. NET MVC 和实体框架的软件项目管理平台<br>[D]. 和实体框架的软件项目管理平台[D]. 上海: 上海交通大学软件学院,2012. [4] 陈旭,毕军芳,仇天月,等. 基于共享服务模式的农业资源管理<br>WebGIS [4] 陈旭,毕军芳,仇天月,等. 基于共享服务模式的农业资源管理WebGIS 系统构建[J]. 中国农学通报,2013,29( 11) : 115-120. [5] 杨少友,黄心砚. 科研电子病历系统的设计[J]. 计算机应用与软<br>件,2013,30[5] 杨少友,黄心砚. 科研电子病历系统的设计[J]. 计算机应用与软件,2013,30( 5) : 73-75. [6] 吴开兴,陈旭,翟自勇. 居民健康档案管理系统的设计与实现[J].<br>计算机应用与软件,2013,30[6] 吴开兴,陈旭,翟自勇. 居民健康档案管理系统的设计与实现[J].计算机应用与软件,2013,30( 4) : 214-216. <br>[7] 李宗新,王庆成,刘开昌,等. 基于 Internet 的山东省作物种质资源<br>共享平台的开发与研究[J]. 的山东省作物种质资源共享平台的开发与研究[J]. 山东农业科学,2011( 9) : 9-14. [8] 肖锐,荆长伟,支俊俊,等. 浙江省土壤信息共享平台的构建与实现<br>[J]. [8] 肖锐,荆长伟,支俊俊,等. 浙江省土壤信息共享平台的构建与实现[J]. 科技通报,2013,29( 1) : 19-24. <br>[9] Lilburne L R,Hewitt E A,Webb T W. Soil and informatics science combine to develop S-map: A new generationsoil information system for New Zealand [J]. Geoderma,2012,170: 232-238. <br>[10] Panagos P J,Liedekerke M V,Montanarella L. Multiscale European soil information system( MEUSIS) : a multi-scale method to derive soil indi- cators[J]. Computational geosciences,2011,15( 3) :<br><br>463-475. (上接第 85 页) [17] Somnath Banerjee,Krishnan Ramanathan,Ajay Gupta. Clustering Short Texts using Wikipedia[C]/ /Proceedings of the 30th annual internation- al ACM SIGIR conference on research and development in information retrieval,2007: 787-788. [18] 李赟. 基于中文维基百科的语义知识挖掘相关研究[D]. 北京:<br>北京邮电大学,2009. [19] 刘军,姚天昉. 基于 Wikipedia 的语义相关度计算[J]. 计算机工<br>程,2010,36( 19) : 42-46. [20] 谌志群,高飞,曾智军. 基于中文维基百科的词语相关度计算[J]. 情报学报,2012,31( 12) : 1265-1270. [21] 吕学强,任飞亮,黄志丹,等. 句子相似模型和最相似句子查找--算法[J]. 东北大学学报收稿日期: 自然科学版,2003,24( 62013 - 06 - 04。教育部人文社会科学研究青年基金项目 12YJCZH201) : 531-534. [22] 李素建,刘群,杨志峰. 基于最大熵模型的组块分析[J]. 计算机学报,2003,26; 杭州市科技发展计划重大科技创新专项( 1220122511A18) 。王荣波,副教授,主研领域: 1722-1777.中文信息处理。谌志群,副教授。周建政,工程师。李治,工程师。高飞,硕士生。
行政员、groupone、管理员
16,821
个编辑