一种基于中文词对关系相似度的类比检索控制方法技术

技术编号:8387193 阅读:245 留言:0更新日期:2013-03-07 07:50
本发明专利技术提供基于中文词对关系相似度类比检索控制方法,其用于基于关键词检索获取目标词,包括:a.获取词对;b.根据所述检索结果抽取包含所述词对的短句;c.根据所述包含所述词对的短句集合抽取词对关系模式集合;d.对所述词对关系模式集合中的第一关系词集合进行一次聚类以获得第二关系词集合;e.对所述第二关系词集合进行二次聚类,并将所述二次聚类获得的结果作为第一中间关系词集合;g.将所述第一中间关系词集合中的关系词逐一与所述关键词形成第一词对,重复步骤a至e;h.将每一个所述第二中间关系词集合作为目标词集合。本发明专利技术基于大规模文本信息统计,在实体关系未知的前提下找出实体对间存在的多种关系,并根据每个关系找出对应的候选项。

【技术实现步骤摘要】

本专利技术涉及中文词对关系相似度和信息检索
,具体地说是基于中文词对关系相似度的类比检索技术。
技术介绍
随着WWW的持续发展和搜索引擎的不断进步,网络搜索变得越来越容易。第一代搜索引擎是以Yah00为代表的人工目录分类导航检索的网站搜索,它开始了互联网搜索的时代。第二代是以Google为代表的是基于关键词和特殊算法的搜索,是依靠机器抓取的、建立在超链分析基础上的大规模网页搜索,其搜索结果的准确度从网站上升至了网页。目前的搜索引擎还存在一些问题,如单一的搜索引擎不能覆盖整个Internet资源,搜索不够精确,不能真实反映用户意图。下一代搜索引擎的目标是能够模仿人的一些思维和想法,是 概念的模糊搜索,它通过分析网页之间的关联,建立一种类似人的思维的更智能化的概念分类方式,通过模仿人的思维模式,对要查找的概念进行关键字联想和分类来扩大搜索的外延和深度。本专利技术希望提出一种新的检索控制方法。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供。根据本专利技术的一个方面,提供,其用于基于至少一个关键词检索获取至少一个目标词,其特征在于,包括如下步骤a.获取词对,其中所述词对为与所述关键词和所述目标词相同关系的词对;b.根据所述检索结果,抽取包含所述词对的短句,其中所述短句为同时包含所述词对的一个完整的句子;c.根据所述包含所述词对的短句集合抽取词对关系模式集合;d.对所述词对关系模式集合中的第一关系词集合进行一次聚类以获得第二关系词集合;e.对所述第二关系词集合进行二次聚类,并将所述二次聚类获得的结果作为第一中间关系词集合;g.将所述第一中间关系词集合中的关系词逐一与所述关键词形成第一词对,重复上述步骤a至步骤e,从而针对每一个所述第一词对得到与所述第一词对对应的第二中间关系词集合,其中,所述关系词为所述关系模式中除所述词对之外的至少一个词语;h.将每一个所述第二中间关系词集合作为目标词集合,其中,每一个所述第二中间关系词集合中的关系词对应一个所述目标词集合,所述第四关系词集合与所述第二中间关系词集合形成二维结果集。优选地,在所述步骤e与所述步骤g之间还包括步骤f.对所述第一中间关系词集合进行三次聚类,并将所述三次聚类获得的结果作为所述第一中间关系词集合,其中,所述步骤g中对所述每个第一词对重复上述步骤a至步骤f。优选地,所述步骤a包括如下步骤a’在搜索引擎中检索所述词对。优选地,所述步骤a包括如下步骤al.将所述词对的检索结果中的标题分条目抽取出来。优选地,所述步骤c包括如下步骤cl.抽取所述包含所述词对的短句的集合中所述每一个短句的关系模式;c2.将所述关系模式按照关系模型进行分组,形成所述词对关系模式集合。优选地,所述步骤Cl还包括如下步骤cll.将所述包含所述词对的短句的集合中所述每一个短句分成具有独立语义的词语;cl2.将所述每一个短句中的所述每一个具有独立语义的词语进行词性标注;cl3.抽取所述每一个短句中词性为名词和动词的所述具有独立语义的词语;cl4.将抽取得到的所述每一个短句中的词语组合作为所述短句的所述关系模式。优选地,所述步骤c2还包括如下步骤c21.将所述关系模式与所述关系模型进 行匹配,具有相同的所述关系模型的所述关系模式分为一组;c22.将每一组中相同的所述关系模式进行合并,并累加所述关系模式的频率;c23.将每一组中不同的所述关系模式进行相似度计算;c24.将所述相似度超过第一阈值的所述关系模式进行合并,并累加所述关系模式的频率;c25.将所有经过上述合并操作的所述关系模式作为所述词对关系模式集合,其中所述每个词对关系模式对应一个频率值。优选地,所述步骤d包括如下步骤dl.抽取所述词对关系模式集合中所述第一关系词集合;d2.将所述第一关系词集合进行一次聚类,以获得所述第二关系词集合。优选地,所述步骤dl还包括如下步骤dll.抽取所述词对关系模式集合中所述每一个词对关系模式中的关系词,其中,所述关系词为所述词对关系模式中除了所述词对外的词语;dl2.将所有所述关系词作为所述第一关系词集合,其中,所述每个关系词对应一个频率值,所述频率值为所述关系词所在所述词对关系模式出现的频率; 优选地,所述步骤d2还包括如下步骤d21.将所述第一关系词集合中相同的所述关系词进行合并,并累加所述关系词对应的所述频率值;d22.将经过上述合并的所述关系词根据所述频率值进行排序;d23.将经过上述排序的所述关系词集合作为所述第二关系词隹A 口 O优选地,所述步骤e包括如下步骤el.将所述第二关系词集合中的所述关系词进行分组;e2.将每组中所述关系词的所述频率值最高的所述关系词作为候选词;e3.所述每组选出的候选词集合作为所述第一中间关系词集合; 优选地,所述步骤el还包括如下步骤ell.将所述第二关系词集合中的所述频率值最高的所述关系词作为中心词;el2.将所述第二关系词集合中的除所述中心词外所述所有的关系词与所述中心词进行相似度计算;el3.将所述相似度相同的所述关系词分为一组。优选地,所述步骤f包括如下步骤fl.将所述第一中间关系词集合中的所述所有的关系词进行两两相似度计算;f2.将所述相似度超过第二阈值的所述关系词进行合并,并累加所述关系词对应的所述频率值;f3.经过上述合并后的关系词集合作为所述第~■中间关系词集合。优选地,所述步骤g前还包括如下步骤il.判断所述第二中间关系词集合是否为所述目标词集合。;i2.若所述第二中间关系词集合不为所述目标词集合,则继续执行步骤g。优选地,在所述步骤i2后还包括如下步骤i3.若所述第二中间关系词集合为所述目标词集合,则执行步骤h。本专利技术基于词对之间的关系相似度对搜索关键词进行类比扩展,假设未知领域信息与已知领域信息在表现形式上具有相似性,通过比较已知领域信息和未知领域信息的关系相似度可以推测出未知领域的相关信息。例如,如果某一品牌产品的用户想搜索其他品牌的产品,她不知道想要的产品的名称或描述自己想要的产品的关键字,但常用品牌的产品及熟知品牌产品如何工作,产品功能和使用场合等等是用户熟知的,这是搜索其他品牌产品的一个重要线索。具体来讲,大多数用户知道ipod,一种苹果公司销售的音乐播放器。如果想要查找微软的相关产品,他们就要找到ipod和微软销售的音乐播放器的类比关系。更具体的就是,提供一个包含三个词条的元组,例如(苹果、iPod、微软),本专利技术就能把Zune查找出来。本领域技术人员理解,iPod是苹果公司的音乐播放器,Zune是微软的音乐播放器。潜在关系搜索是一种基于中文词对间类比关系程度进行检索的一种新型检索模·式。对于用户的未知领域,可以有效的获取需要的信息。本专利技术采用的方法基于大规模文本信息统计,可以在实体关系未知的前提下,找出实体对间存在的多种关系,然后根据每个关系找出此关系对应的候选项。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显 图I示出了获得间关系词的控制方法的示意 图2不出18种关系I旲型的不意 图3示出本专利技术第一实施例的,基于中文词对关系相似度的类比检索方法的流程图; 图4示出本专利技术第一实施例的,抽取词对关系的流程图;以及 图5示出本专利技术第一实施例的,本文档来自技高网...

【技术保护点】
一种基于中文词对关系相似度的类比检索控制方法,其用于基于至少一个关键词检索获取至少一个目标词,其特征在于,包括如下步骤:a.获取词对,其中所述词对为与所述关键词和所述目标词相同关系的词对;b.?根据所述检索结果,抽取包含所述词对的短句,其中所述短句为同时包含所述词对的一个完整的句子;c.?根据所述包含所述词对的短句集合抽取词对关系模式集合;d.?对所述词对关系模式集合中的第一关系词集合进行一次聚类以获得第二关系词集合;e.?对所述第二关系词集合进行二次聚类,并将所述二次聚类获得的结果作为第一中间关系词集合;g.?将所述第一中间关系词集合中的关系词逐一与所述关键词形成第一词对,重复上述步骤a至步骤e,从而针对每一个所述第一词对得到与所述第一词对对应的第二中间关系词集合,其中,所述关系词为所述关系模式中除所述词对之外的至少一个词语;h.?将每一个所述第二中间关系词集合作为目标词集合,其中,每一个所述第二中间关系词集合中的关系词对应一个所述目标词集合,所述第四关系词集合与所述第二中间关系词集合形成二维结果集。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕钊梁超
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1