一种基于检索串的关键词扩展方法、装置和系统制造方法及图纸

技术编号:10127620 阅读:118 留言:0更新日期:2014-06-12 19:57
本发明专利技术实施方式提出了一种基于检索串的关键词扩展方法、装置和系统。方法包括:设置预设关键词集合,将预设关键词集合中的预设关键词作为模式串,并且将预设关键词集合建为键树;接收检索串,并基于检索串获取网页搜索结果;利用键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的模式串确定基于该检索串的扩展关键词。本发明专利技术实施方式丰富了关键词匹配结果,扩展了检索串的关键词,提高了展示内容的全面性。而且,量化了检索串与关键词之间的相似度,保证了展示内容的相关性。

【技术实现步骤摘要】
一种基于检索串的关键词扩展方法、装置和系统
本专利技术实施方式涉及信息处理
,更具体地,涉及一种基于检索串的关键词扩展方法、装置和系统。
技术介绍
在当今的信息时代中,各种信息设备应运而生:有用于话音传输的固定电话、移动电话;有用于信息资源共享、处理的服务器和个人电脑;有用于视频数据显示的各种电视机等等。这些设备都是在特定领域内为解决实际的需求而产生的。随着电子消费、计算机、通信(3C)融合的到来,人们越来越多地将注意力放到了对各个不同领域的信息设备进行综合利用的研究上,以充分利用现有资源设备来为人们更好的服务。搜索引擎广告就是一种针对信息综合利用的示范性应用。搜索引擎广告也称为关键词广告,是指广告主根据自己的产品或服务的内容、特点等确定关键词,撰写广告内容并自主定价投放在搜索引擎上的广告。当用户搜索的内容与广告主的关键词匹配时,相应的广告就可能会被展示,并在用户点击后按照广告主对该关键词的出价收费。搜索引擎广告展示的过程概括如下:广告主向搜索引擎广告系统提交有效关键词,连同出价、广告物料(标题、描述)等信息以倒排索引的形式,加载到匹配系统中,匹配系统对用户提交的检索串(query)进行在线分析,找到对应各种匹配类型的关键词;再通过关键词的倒排信息,完成后续的广告拉取、精选、排序等竞价排名过程,最终展示给用户。然而,现有技术中仅从检索串字面抽取关键词,所获得的关键词数量有限,因此难以保证展示内容的全面性。而且,现有技术中所提取的关键词与检索串仅局限于文本上的关联,其他语义上相关的关键词很难被找到。从检索串本身抽取出来的关键词往往是检索串的一部分,两者字面上虽然有一定的相关性,然而很难保证意图上的一致。比如从检索串“北京鲜花快递哪里最便宜”里可以找到关键词“最便宜”,但是这两者的意图不完全匹配。如果直接用关键词“最便宜”去查询展示内容,容易展示出与用户本意相差较多的展示内容,从而导致展示内容并不相关。
技术实现思路
本专利技术实施方式提出一种基于检索串的关键词扩展方法,从而扩展关键词,提高展示内容的全面性。本专利技术实施方式提出一种基于检索串的关键词扩展装置,从而扩展关键词,提高展示内容的全面性。本专利技术实施方式提出一种基于检索串的关键词扩展系统,从而扩展关键词,提高展示内容的全面性。本专利技术实施方式的具体方案如下:一种基于检索串的关键词扩展方法,该方法包括:设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;接收检索串,并基于所述检索串获取网页搜索结果;利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。一种基于检索串的关键词扩展装置,该装置包括键树建立单元、搜索结果获取单元和关键词扩展单元,其中:键树建立单元,用于设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;搜索结果获取单元,用于接收检索串,并基于所述检索串获取网页搜索结果;关键词扩展单元,用于利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。一种基于检索串的关键词扩展系统,其特征在于,包括客户端、搜索引擎、关键词扩展装置,其中:客户端,用于接收检索串,并基于所述检索串向搜索引擎查询网页搜索结果;搜索引擎,用于向客户端提供对应于检索串的网页搜索结果;关键词扩展装置,用于设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树,利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。从上述技术方案可以看出,在本专利技术实施方式中,设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;接收检索串,并基于所述检索串获取网页搜索结果;利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。由此可见,应用本专利技术实施方式以后,使用搜索结果对原始检索串进行扩充(比如文本扩充和语义扩充),通过模式算法在搜索结果中查找关键词,从而极大地丰富了关键词匹配结果,扩展了检索串的相关关键词,提高了展示内容的全面性。而且,在本专利技术实施方式中,利用网页搜索结果表征检索串和关键词的语义特征,结合文本相关性和分类等特征,通过机器学习方法训练得到相似度计算模型,量化了检索串与关键词之间的相似度,从而保证了展示内容的相关性。另外,可以将本专利技术实施方式可以应用到各种终端中,可以跨平台跨终端使用本专利技术实施方式,适用范围非常广泛。附图说明图1为根据本专利技术实施方式的基于检索串的关键词扩展方法流程图;图2为根据本专利技术实施方式的关键词扩展示意图;图3为根据本专利技术实施方式的关键词与检索串相关性度量示意图;图4为根据本专利技术实施方式的关键词扩展以及关键词与检索串相关性度量的示意图;图5为根据本专利技术实施方式的逻辑回归模型的训练流程图;图6为根据本专利技术实施方式的基于检索串的关键词扩展装置结构图;图7为根据本专利技术实施方式的基于检索串的关键词扩展系统结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。在现有技术中,经常涉及到由检索串到关键词的映射,也就是检索串的匹配。现有技术常见的检索串匹配方法主要包括:(1)从检索串本身匹配关键词,如精确匹配、词组匹配和广泛匹配(这里特指有语素删除的广泛匹配,抽取出的关键词是检索串的一个或几个子串的组合)。例如有广告主提交了如下关键词:<ABCDEF、ABC、CDE、ACD、CA>(其中A、B、C、D、E、F是单个语素);当有用户输入检索串ABCDEF,则搜索引擎的广告匹配系统通过精确匹配,可以找到关键词ABCDEF;通过词组匹配,可以找到关键词ABC和CDE;通过广泛匹配,可以找到关键词ACD和CA。(2)利用特定的分析技术,如word删除、检索串替换(querysubstitution)、纠错、词干抽取、共同点击等方法,对变换后的检索串(query)匹配关键词。例如,检索串替换可以利用会话日志(sessionlog)数据,通过统计方法得到相似检索串或片段(phrase),对检索串进行改写替换,并给出改写后的串和原串之间的相似度衡量。某些情况下,用户在使用搜索引擎的过程中出现拼写错误或不规范的输入,导致没有合适的关键词触发出来,纠错就是针对性地对输入检索串进行修正、改写,正确表达检索意图。然而,上述方式中都是仅从检索串字面抽出关键词,因此关键词数量有限,从而难于保证展示内容的全面性。而且,通过上述方式所找到的关键词仅仅局限于文本上的关联,很难找到其他语义上相关的关键词,因此容易展示出与用户本意相差较多的展示内容,导致展示内容并不相关。在本专利技术实施方式中,可以根据检索串的自然搜索结果,将搜索结果全文,或者预定数目的标题和/或摘要汇集在一起,以作为检索串扩展内容,并从中找出扩展关键词。图1为根据本专利技术实施方式的基于检索串的关键词扩展方法流程图。如图1所示,该方法包括:步骤101:设置预设关键词集合,将所述预设关键词集合中本文档来自技高网
...
一种基于检索串的关键词扩展方法、装置和系统

【技术保护点】
一种基于检索串的关键词扩展方法,其特征在于,该方法包括:设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;接收检索串,并基于所述检索串获取网页搜索结果;利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。

【技术特征摘要】
1.一种基于检索串的关键词扩展方法,其特征在于,该方法包括:设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;接收检索串,并基于所述检索串获取网页搜索结果;利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词;该方法进一步包括:从所述检索串本身提取扩展关键词,以及利用检索串变换方式获取扩展关键词;将所述由模式串确定的基于该检索串的扩展关键词、从所述检索串本身提取的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合;该方法进一步包括:从所述扩展关键词集合中的扩展关键词和检索串,分别提取至少两个比较特征,所述比较特征包括文本特征、分类特征或语义特征;基于所述扩展关键词集合中的扩展关键词和检索串的每个比较特征,计算所述扩展关键词集合中的扩展关键词和检索串之间的每个比较特征的相关性;根据逻辑回归模型对各个比较特征的相关性进行特征拟合,以得到扩展关键词集合中的扩展关键词和检索串的相关性指标;基于所述扩展关键词集合中的扩展关键词和检索串的相关性指标,从所述扩展关键词集合中确定符合预定相关性指标门限值的扩展关键词。2.根据权利要求1所述的关键词扩展方法,其特征在于,所述针对该网页搜索结果执行模式匹配以获得模式串包括:针对该网页搜索结果执行多模式匹配以获得多个模式串,或者针对该网页搜索结果执行单模式匹配以获得单个模式串。3.根据权利要求1所述的关键词扩展方法,其特征在于,该方法进一步包括:从所述检索串本身提取扩展关键词;将所述由模式串确定的基于该检索串的扩展关键词以及从所述检索串本身提取的扩展关键词相聚合,以获得扩展关键词集合。4.根据权利要求1所述的关键词扩展方法,其特征在于,该方法进一步包括:利用检索串变换方式获取扩展关键词;将所述由模式串确定的基于该检索串的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。5.根据权利要求1所述的关键词扩展方法,其特征在于,所述文本特征包括公共子串、共有语素或编辑距离;所述语义特征包括标题域的语义特征、摘要域的语义特征、标题域和摘要域整合后的语义特征、去掉检索串和关键词共有语素表示后标题域的语义特征、去掉检索串和关键词的共有语素后摘要域的语义特征及去掉检索串和关键词的共有语素后标题域和摘要域整合后的语义特征。6.一种基于检索串的关键词扩展装置,其特征在于,该装置包括键树建立单元、搜索结果获取单元和关键词扩展单元,其中:键树建立单元,用于设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;搜索结果获取单元,用于接收检索串,并基于所述检索串获取网页搜索结果;关键词扩...

【专利技术属性】
技术研发人员:王艳敏王迪赫南张文斌胡立新刘小兵胡景贺朱建朋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1