维基百科的信息组织与分类优化研究

来自通约智库
跳转至: 导航搜索

维基百科的信息组织与分类优化研究 

陈舒 2010210621   (华中师范大学信息管理学院) 

摘要:维基百科作为世界百科全书,在信息的传递与获取方面为网络学习提供了良好的基础平台,而提取信息的便捷性又依赖于网络信息组织的严谨性,故对维基百科信息组织进行完善的研究有重要的意义。本文针对维基百科目前在分类上的缺陷,就其组织模式及分类体系在条目的管理模式重组和分类模式的改进方面做出了研究并提出了组织模式的改变、条目的智能检测、标引细粒度化等、网页分类相关等相应的优化方案,为维基百科的信息检索精准化提供了理论依据。 关键词:维基百科;自组织;分类;优化;条目;标引 


1引言 

维基百科(http://www.wikipedia.org/)是基于Wiki技术的用户自组织形式的网络百科全书,它服务于10种语言,是世界范围内的资源共享平台。百科成立于2001年,其数据组织形式以条目为基础,由维基媒体基金会统筹组织管理,由维基志愿者参与维护,同时维基用户拥有对条目的修改、定义与评论的权利而维基本身则并不对条目进行润色。在用户检索的体验上,维基主要采用分类法和主题法相结合的方式对条目进行处理。目前,维基百科在世界范围内都有较高的信誉,其在信息服务领域拥有一定的权威性。但是在对条目信息进行分类的过程中,维基百科仍体现出了部分分类不够明确、信息检索界限模糊、主题法搜索范围局限等问题。近几年来,学者们也针对维基百科信息组织方面做出了大量的研究,其中罗志成、马费成、吴晓东、宋倩倩在《从维基分类系统构建中文语义词典研究》中从语意词典的角度分析了维基百科的分类状况并运用相关实验编程实现了分类优化;毛军则在《元数据、自由分类法( Folksonomy)和大众的因特网》中结合维基的案例提出了目前网络信息时代,自由分类法的发展相对元数据更具有大众优势;熊忠阳、史艳、张玉芳在《基于维基百科和网页分块的主题爬行策略》中针对主题法集中研究了基于网页分块技术的主题爬行法,并通过相关的设计实现了该理论并在实践中得到了良好的效果;潘炜、沈超在《面向层次分类标签的词性标注系统》中提出一种在层次分类标签上的词性标注算法,该方法在语义网中的使用较现有系统,在性能方面取得了显著提升,这也是维基百科所可以借鉴的;张苇如、孙乐、韩先培在《基于维基百科和模式聚类的实体关系抽取方法》一文中提出了将基于关键词的分类及层次聚类算法于一体的模式聚类方法模型,实现实体对象的准确识别。基于语义网数据的形成和分类方法的研究众多,本文通过吸收众研究的理论与实践成果,结合用户对维基百科的检索体验,通过对维基百科条目数据的形成及其条目分类的模式与方法的探讨进而对其分类模式中存在的不足之处拟出相应的解决方案。

2维基的信息组织与分类 

2.1用户的自组织模式   维基百科的信息来源为用户,信息的管理与完善也来源于用户本身。来自全国各地的注册用户拥有对相关条目进行评价、编辑、删除、分类等权利,但是对于创建、删除条目等对维基信息影响力度较大的操作需要由系统管理员进行测试与审核,其实现方案主要是通过限制条目的格式与长度,对条目的安全性、合法性进行检测等手段对信息进行初次规范化。维基的系统管理员是来自各地的志愿者团队,在对维基信息条目的管理上,系统管理员对用户拟定了层次放权的方式,即不同级别的用户,对条目的处理有不同权限;在对维基信息的上传准则上,管理员们主要通过采用Wiki技术,设置简单的格式化语法让用户对其上传的信息进行规范化;在对信息的整合上,维基站在中立的角色上对不同用户上传的不同信息采用保留的举措,存储网页每一次更动的版本并进行客观的展示;同时,基于用户对维基上的条目进行标签及评论,特色内容、新闻动态、最新更改等板块中的信息也会相应的生成与完善。 

2.2主题法   与百度百科、google等搜索引擎类似,维基百科的主题法信息检索是维基信息的主要检索方式之一。维基对于主题的分类在计算机自行分词的基础上加上了分类树的分析方法,用户检索时,搜索系统根据主题爬行的形式实现目标定位。在主题的确立上,以则语义识别系统为主,用户上传条目的标签注释为辅,最后经过管理员的审核与评定而最终定版。维基的条目解释页面中的词均以加粗的形式显示,同时在与目标条目相关的词信息上都生成了条目导航的功能,增加了用户使用效益。 

2.3分类法   维基的分类法较主题法而言在页面中体现得更为明显,首页与相关页面中的导航涉及等级分类与分面分类两种体现形式。分类搜索中采用等级与层级相结合的分类形式根据领域与地域双因素将不同的条目分布于不同的类目体系下,同时运用子分类再次将条目进行划分,在具体条目页面中则使用分面分类的形式实现相关条目之间的重定向,并且在页面底部详细说明条目的分类大类,很大程度上为用户的使用提供了便捷。 


3维基信息组织缺陷 

3.1自组织模式缺陷 

维基百科条目的自组织形式的管理模式在Web2.0的社交平台中容易为用户所接受,但其传播渠道主要为青年用户群体,对象较为局限,且其系统管理员为全国各地的志愿者而并非各领域的专家,故在对信息的审核与终端显示信息的投放上对相关条目的分类会产生一定的影响。同时,维基系统对条目的相关内容通过分词及语义进行分析的自行组织方式也容易产生分类不明确的现象。针对此现象,维基百科有必要从条目产生的源头进行控制以实现分类的精准化。


3.2分类模式的缺陷 

关键字查找与等级目录查找为维基百科的两种条目检索形式,两种模式的相互补充给用户体验的个性化提供了互换的渠道,但是在关键字查找与目录查找的效果上却出现了概念模糊不清、分类界限不明、检索词不能自动校正等不足之处。在关键字的检索过程中,维基的选项框中的下拉选项不能自动匹配条目名称,同时搜索中不支持较长的提问式查询,这些方面均增加了用户在主题词的输入过程中的复杂度。同时对于所要搜索的资料的关键词不明确的用户而言,非智能化的主题检索更容易造成检索不成功的现象。在等级目录的检索过程中,维基百科将条目的检索渠道分为按内容检索、按分类检索及按主题检索三种方式,同时在二级类目中又采用以学科、时间、发音、字码四种分类方式并存的分类体系,在一定程度上形成了健全的分类形式,适合各种行为方式检索的需要,但是针对同一用户而言,在对所需的既定主题信息的检索上企鹅造成了极大的困扰,各种检索形式的二级目录体系的不同,极大程度地增加了相同条目所属大类的不确定性。

4维基信息组织模式优化 

4.1组织形式优化 

(1)管理人员专业化 

在系统管理员的选择上,志愿者方案的延续在非营利组织的运营中有其必要性,但是基于管理员对条目的整理趋向于专业化的特性,维基百科可以邀请相关领域的专家联盟,利用专家的专业性对志愿者进行考评与再次选拔进而保证管理员的专业水准。 

(2)条目智能标签提取 

在系统的自行组织上,目前维基系统对条目的分词与智能提取的功能并不能完全满足条目精准分类的需求。在知识网络中,本体及语义词典的运用则有助于完善现有的功能。在条目的创建过程中,维基条目的初步分类主要由用户给定相应的标签来确定,这种模式在一定程度上可以实现条目的定向,但是由于个性化的差异,条目的分类往往难以为所有用户所认同,从而造成信息漏检的情况。基于此现象,维基可以完善条目创建系统,实现条目标签的自动生成功能,即通过计算机系统对用户输入条目信息进行检测,并将用户条目与系统的语义词典进行匹配分词,将初步形成的条目标签与系统构建的本体图实现链接,从而形成比较完善与精准的分类主题词索引项。其智能生成功能如下(图3.1.2 条目标签的自动生成):

0-IMG 8033-0.jpg

4.2分类模式优化 

(1)检索主题词的模糊匹配   关键字检索的非智能性除了技术方面关于维基系统的搜索引擎的不健全性之外,也极大程度地依赖于存储的条目与检索词的智能匹配性。维基百科条目的唯一确定性是导致这种现象的根源,对相关子在条目中设置相关解释信息在此时显示了其必要性。通过对相关条目名称进行解释并实现两者的模糊匹配,将解释与模糊匹配的内容存储于不同的数据库中,用户输入检索词时系统便自动调用解释语言中的非规范化语句,从而实现检索过程中的模糊匹配与智能提取的功能。但是仅仅使用解释性语言实现的模糊匹配却对系统管理员的工作量要求很大,而且在维基百科的大众分类法中,用户可以为文章标引一定的类目,同时又为这些类目标引一定的父类目,从而构成一个页面与类目的分类体系。通过对这些类目关系的本体模型的构建以及对其相应数据的存储在模糊匹配的信息更新与智能检索上能提高检索效率,同时还能实现长句搜索的功能。 

(2)网页分块的主题爬行 

目录式检索中的界限模糊与分类不清的现象极大程度的体现了维基百科后台对条目分类处理上的不足。主题爬行的分类体系已经难以适应信息爆炸时代用户实现信息精确搜索的需求,熊忠阳等学者提出的基于网页分块的主题爬行的信息处理方案是一种很好的分类处理方式,在网页的相关度的测试中能实现词语映射到概念过程中的消歧以及噪声信息、噪声链接的自动过滤以及相关信息的自动聚集。在主题爬行选取信息匹配链接的基础上加入网页相关性的计算与检测能很好的滤去冗杂以及不符合要求的信息,从而在条目的分类中实现不符合要求的条目的自动去除,从而提高条目分类的准确性。 

(3)冗余分类剔除 

在前台的检索目录上,多样化的检索渠道的合并也有一定的必要性,二级类目中的按字码、发音进行分类的功能体系不被人关注而出现被搁置的现象比较明显,将此渠道剔除在很大程度上能简化分类空间。同样,在维基页面分类系统中,也存在着若干为了方便管理而添加的元类目,例如:“维基百科站务”、“最近更改”等板块,但是这些类目所含语义信息较少,而且很多是对维基库中类目的条目的重复显示,需要其进行删减。 

(4)细粒度分词 

用户标签方式产生的网络元数据在条目的分类中带来了一定的复杂性,而李向和李建华的研究中提出的基于Folksonomy的Web 服务发现模型则能有效的解决这一点,它利用领域本体作为分类的体系标准,用细粒度的分类体系指导文本分类,以达到增加语义和提高查全率的作用,同时由于本体本身概念的层次关系,类别编号采用数字形式,使条目的存储和扩充都很方便,并且本体作为分类体系,使这种分类体系不拘泥于固定模式,可以随着本体变化而变化,在网络模型改变时也具有可融合性。 

(5)标引相关联 

条目分类的不确定性导致了在维基百科的检索过程中经常出现检索不到相关信息的情况,这种现象的产生与条目标签的标引深度不够有紧密的联系。分词粒度的完善有时并不能实现语义的完全吻合,这就要求系统能检测到隐含的类目间语句之间的相关性。共标引关系的识别能通过第三方找到相关联的条目并建立联系、递推关系的判断能通过逻辑思维推断两个条目之间的相似与否、类与实例关系能查询到相关的父类与子类并建立联系,将这些标引方法结合至分面分类的页面中能很好的帮助用户实现目标性查找。    5结语   本文通过对维基百科目前的组织模式和分类体系的研究,基于用户检索的体验,指出了其中存在的组织模式的不甚合理、分类界限不够明确而导致的检索效率不高的缺陷,同时结合相关研究学者的信息组织优化实验成果,针对这些问题从维基百科网站的结构重组和后台技术的实现两个角度提出了相应的优化解决方案。结合了前研究者的层次标签分类的系统环境、语义相似度的计算方法及网页分块与主题爬行等实践方法从下至上将维基百科的信息组织优化方式从条目、标引、主题词等方面进行理论分析与实验认证,从而实现了维基百科分类体系的完善。但是这些理论目前还处于模型阶段,实践的可行性还有待后续研究的充实。

参考文献: 

  1. 罗志成,马费成,吴晓东,宋倩倩.从维基分类系统构建中文语义词典研究[J].信息系统学报,2008(02):68-77. 
  2. 邓天颖.TAG:无序中有序的个性化分类传播[J].河北大学学报(哲学社会科学版),2006(02). 
  3. 李向,李建华.基于Folksonomy的服务发现研究[J].计算机工程与设计,2010(23). 
  4. 郎君,忻舟,秦兵,刘挺,李生.集成多种背景语义知识的共指消解[J].中文信息学报,2009(03). 
  5. 潘伟,沈超.面向层次分类标签的词性标注系统[J].计算机工程,2009(21). 
  6. 罗志成,付真真.外部因素对维基百科序化过程的影响分析[J].图书情报知识,2008(03). 
  7. 周庆山,王京山.维基百科信息自组织模式探析[J].情报资料工作,2007(02). 
  8. 罗志成,关婉湫,张勤.维基百科与百度百科比较分析[J].情报理论与实践,2009(04). 
  9. 王丹丹.维基百科自组织模式下质量保证机制分析[J].情报科学,2009(05). 
  10. 毛军.元数据、自由分类法(Folksonomy)和大众的因特网[J].现代图书情报技术,2006(02). 
  11. 熊忠阳,史艳,张玉芳.基于维基百科和网页分块的主题爬行策略[J].计算机应用,2011,31(12). 
  12. 盛志超,陶晓鹏.基于维基百科的语义相似度计算方法[J]. 计算机工程,2011,37(07). 
  13. 张苇如,孙乐,韩先培.基于维基百科和模式聚类的实体关系抽取方法[N].中文信息学报,2012,26(02). 
  14. 汪祥,贾焰,周斌,丁兆云,梁政.基于中文维基百科链接结构与分类体系的语义相关度计算[J].小型微型计算机系统,2011(11).