同义词检索结果按词义自动聚类方法技术

技术编号:8594028 阅读:302 留言:0更新日期:2013-04-18 07:13
本发明专利技术提供一种同义词检索结果按词义自动聚类方法,包括以下步骤:S1,向同义词检索系统提交检索词进行一级检索,获得一级检索结果;S2,将所述一级检索结果中的每个词都进行二级检索,获得二级检索结果;S3,构建所述二级检索结果的交集矩阵;S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵;S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类。能够对同义词检索系统的检索结果自动进行词义聚类,从而使检索者更加准确简明的获得所需的检索信息,提高检索者的检索体验。

【技术实现步骤摘要】

本专利技术属于文献检索和知识组织
,具体涉及一种。
技术介绍
同义词在自然语言处理、信息检索等领域中具有十分重要的应用意义,通过扩展检索提高文献数据库和网络检索的效率,推动文献自动标引和检索的智能化,并能应用于分类表、叙词表、语义网络、本体等知识组织系统的构建,以及自动分类、自动文摘、自动翻译、自动问答和其他中文信息处理领域。目前有各种类型的同义词检索系统,以客户端(比如有道、灵格斯、金山词霸等)或网络在线(比如)方式为用户提供同义词检索服务,表I分别列出了一些常见的客户端和在线的同义词检索系统。表1.同义词检索系统不例同义词检索系统客户端方式在线方式有道词典http ://www. synonymdictionary. com.au/灵格斯翻译专家http ://www. synonymy, com/金山词霸http ://www. synonymfor. com/微软必应词典http: / / www. e-synonym .1nfo/目前同义词检索系统存在一个普遍的缺陷,就是对同义词检索结果没有按照词义聚类。在实际应用中,通常只需要其中一种词义的同义词。以英文词汇“pl本文档来自技高网...

【技术保护点】
一种同义词检索结果按词义自动聚类方法,其特征在于,包括以下步骤:S1,向同义词检索系统提交检索词进行一级检索,获得一级检索结果;S2,将所述一级检索结果中的每个词都进行二级检索,获得二级检索结果;S3,构建所述二级检索结果的交集矩阵;S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵;S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类。

【技术特征摘要】
1.一种同义词检索结果按词义自动聚类方法,其特征在于,包括以下步骤 Si,向同义词检索系统提交检索词进行一级检索,获得一级检索结果; S2,将所述一级检索结果中的每个词都进行二级检索,获得二级检索结果; S3,构建所述二级检索结果的交集矩阵; S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵; S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类。2.根据权利要求1所述的同义词检索结果按词义自动聚类方法,其特征在于,所述一级检索结果得到m个词,则S3,构建所述二级检索结果的交集矩阵具体为 S31,初始化(m+1) X (m+1)大小的交集矩阵SM ; S32,将所述一级检索结果填入所述交集矩阵的首行首列; S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格。3.根据权利要求2所述的同义词检索结果按词义自动聚类方法,其特征在于,S32,将所述一级检索结果填入所述交集矩阵的首行首列具体为 将所述一级检索结果填入所述交集矩阵的首行具体为将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格[O,I]、[O,2]... ; 将所述一级检索结果填入所述交集矩阵的首列具体为将所还一级检索结果按顺序分别填入所述交集矩阵的下列单元格[1,0]、[2,0]... [m,0]; 其中,所述一级检索结果填入所述交集矩阵首行的顺序与填入所述交集矩阵首列的顺序相同。4.根据权利要求2所述的同义词检索结果按词义自动聚类方法,其特征在于,S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格具体为 对于所述交集矩阵除首行首列以外的其它任意一个单元格,即第[i,j]单元格,所述第[i,j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集。5.根据权利要求1所述的同义词检索结果按词义自动聚类方法,其特征在于,S4,根据所述...

【专利技术属性】
技术研发人员:刘伟王星
申请(专利权)人:中国科学技术信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1