一种基于时间变化计算关键词对动态相关度的控制方法技术

技术编号:8413142 阅读:152 留言:0更新日期:2013-03-14 02:09
本发明专利技术提供一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法,其特征在于,包括如下步骤:a.基于冲激过程计算关键词对相关度冲激增量;b.基于衰减过程计算关键词对相关度衰减减量;以及c.根据冲激增量以及衰减减量计算关键词对动态相关度。本发明专利技术是根据关键词对在网络文档中的共现信息并结合关键词对相关度值的衰减特性和冲激特性来动态调整关键词对间相关强度,其有的优点包括:更实时地把握信息,更贴近关键词对间真是相关强度的变化趋势,更高效更快捷。

【技术实现步骤摘要】

本专利技术涉及用于搜索系统的关键词对动态相关度计算方法领域,具体的说是一种针对关键词间随着时间的推移而动态变化的相关强度的度量方法。
技术介绍
在搜索系统中,一项关键的任务是确定哪些关键词是与用户关心的被查询关键词是相关的,相关的强弱程度如何,另外,考虑某些网络文档具有很强时效性,如网络新闻,这就要求关键词之间的相关强度动态改变。如“地震”这一关键词,在2008年,与“四川”最相关,然而在2011年,相关度最强的关键词应该是“日本”,如何反映相关度的时效性非常重要。·在信息检索和自然语言处理等领域中,相关度计算方法主要分为两类。第一类是根据语言知识和分类体系计算,通常的方法是利用知网或《同义词词林》等知识源提供的分类体系,去计算词语间的语义相关程度。此类方法通常将相关度计算构建在相似度计算的基础之上,也没有充分考虑词语间的关系,存在相关度不完整的缺点;而且,基于分类体系的方法依赖于一个静态、封闭的知识库,不能及时更新,所计算的相关度值是一个静态值。第二类是统计方法,采用概念统计,参数估计和特征获取等学习模型获得词语共现规律,计算语义的相关程度。在统计方法中,利用大规模语料库,通过统计的方法计算词语的相关度,这种方法能避免上述的问题。最基本的方法是通过对词语共现频率的计算,确定词语间的相关强度,认为共现频率越高的词语,他们之间的相关程度也越高。但是,本类方法针对时效性很强的网络信息,仍然存在着很大的不足,如该方法所度量的是整个语料库的一个临时值,它不能很好地体现词语之间的相关强度随时间的动态变化。
技术实现思路
针对网络信息的动态特性和现有技术的不足,本专利技术提供一种基于共现统计的关键词对动态相关度计算方法,能够根据关键词对在网络文档中的共现信息及其共现的时间点来调整关键词对间的相关强度,并对现有关键词对相关强度的更新设定了一个合理的更新周期。本专利技术解决其技术问题所采用的技术方案是一种针对关键词对间随着时间的推移而动态变化的相关度的度量方法,应用在搜索系统中,首先挖掘关键词对在网络文档中共现信息,归纳关键词对相关度随时间变化的发展规律。然后根据关键词对相关度随时间变化的发展规律建立关键词对相关度衰减模型和关键词对相关度冲激模型,整合两模型,得到关键词对动态相关度算法表达式,最后把关键词对动态相关度表达式应用于关键词对间的相关强度计算。根据本专利技术的又一方面,还提供一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法,其特征在于,包括如下步骤a.基于冲激过程计算关键词对相关度冲激增量;b.基于衰减过程计算关键词对相关度衰减减量;以及c.根据冲激增量以及衰减减量计算关键词对动态相关度。根据本专利技术的又一方面,还提供一种用于关键词搜索的关键词对动态相关度计算方法,其特征在于,包括如下步骤a.建立关键词对相关度值衰减模型;b.建立关键词对相关度值冲激模型构建关键词对动态相关度算法表达式。优选地,所述步骤a包括如下步骤al.根据关键词对相关度值随时间变化的发展规律,通过指数拟合得到关键词对相关度值衰减示意图;a2.根据所述关键词对相关度值衰减示意图,确定关键词对相关度值的衰减量,其计算方法如(2 )式所示。优选地,所述步骤b包括的步骤如下bl.根据关键词对相关度值随时间变化的发展规律,得到关键词对相关度值冲激示意图;b2.根据所述关键词对相关度值冲激示意图,确定关键词对相关度值的增量,其计算方法如(3)式所示。 优选地,所述步骤c包括如下步骤cl.对关键词对相关度值衰减模型和冲激模型进行整合;c2.根据整合模型对关键词对相关度值进行动态调整,并建立定量的动态相关度表达式如(4)式所示。与
技术介绍
相比,本专利技术有一下优点本方法在计算关键词对间的相关度时,考虑到了关键词对在某段时间上如果在网络文档中大量共现,那么它们在此段时间内的相关强度将会得到加强;如果关键词对在某段时间上不再在网络文档中出现,那么它们在此段时间内的相关强度将会以一个合理的比率衰减,通过相关度值的加强和衰减,得到的相关度值更能合理反映关键词对实际的相关强度。本方法在计算关键词对间的相关度时,考虑到了关键词对相关度计算方法的高效性,采取每过时间周期更新一次的策略,压缩了不必要的更新次数,提供了系统的效率。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显图I示出根据本专利技术的第一实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度的流程图;图2示出根据本专利技术的第二实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度生成相关公式的流程图;图3示出根据本专利技术的一个具体实施例的,对关键词搜索后的数据处理曲线图;图4示出根据本专利技术的一个具体实施方式的,一种在搜索系统中基于时间变化计算关键词对动态相关度值衰减模型示意图;图5示出根据本专利技术的一个具体实施方式的,一种在搜索系统中基于时间变化计算关键词对动态相关度值冲激模型示意图;以及图6示出根据本专利技术的一个具体实施方式的,平均差异值随值的变化示意图。具体实施例方式通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显图I示出根据本专利技术的第一实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度的流程图。具体地,图I示出了三个步骤。首先是步骤S201,根据关键词对的冲激过程计算关键词对动态相关度的冲激增量。步骤S202,根据关键词对的衰减过程计算关键词对的衰减减量。最后是步骤S203,根据上述步骤S201以及步骤S202计算的冲激增量以及衰减减量结合获得所述关键词对的动态相关度。进一步地,上述衰减过程的减量公式以及冲激过程的增量公式由相关数据以及数据图像拟合生成,具体地,如图2所示,在此不予赘述。更具体地,本领域技术人员理解,本专利技术提供的一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法优选地,适用于实体词对动态相关度计算,所述实体 词指人名、地名、机构名及专有名词,且实体间的相关度的动态性更为明显。图2示出根据本专利技术的第二实施例的,一种在搜索系统中基于时间变化计算关键词对动态相关度生成相关公式的流程图。具体地,本图示出了 6个步骤,该6个步骤具体描述了如何根据网络关键词对数据获取关键词对动态相关度变化规则。首先是步骤S301,选取关键词对作为搜索关键词,经过相同时间间隔多次进行搜索,也就是周期性地对选取的关键词对进行搜索。优选地,步骤S301之前包括,周期性地获取网络新闻作为训练语料库。步骤S302,记录每次搜索结果获取上述关键词对共现句的个数。具体地,本领域技术人员理解,搜索结果优选地提取搜索结果的标题和摘要,并以句子为单位记录每次搜索结果的共现句个数。其中,本专利技术以所述关键词对共现句个数的变化与所述关键词对动态相关度的变化相适应为前提,也就是所述共现句的个数的变化代表所述关键词对的动态相关度的变化。步骤S303,对上述间隔时间以及个数的数据进行处理获取关键词对动态相关度变化规贝U,优选地将上述数据根据次数-时间画出相关数据的函数图象。所述关键词对动态相关度变化规则根据所述函数图象可得所述关键词对动态相关度经过冲激过程所述关键词对动态相关度上升再经过衰减过程所述关键词对动态相关度下降本文档来自技高网
...

【技术保护点】
一种在搜索系统中基于时间变化计算关键词对动态相关度的控制方法,其特征在于,包括如下步骤:a.基于冲激过程计算关键词对相关度冲激增量;b.基于衰减过程计算关键词对相关度衰减减量;以及c.根据冲激增量以及衰减减量计算关键词对动态相关度。

【技术特征摘要】

【专利技术属性】
技术研发人员:王知书杨静
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1