用于挖掘意图的方法和设备技术

技术编号:10255590 阅读:226 留言:0更新日期:2014-07-24 22:51
本发明专利技术公开了用于挖掘意图的方法和设备。该用于挖掘意图的方法包括:接收步骤,接收输入的查询;预获取步骤,基于所接收到的查询来获取第一组候选意图;构建步骤,为所述查询构建至少一个临时意图模式;获取步骤,基于所述至少一个临时意图模式来获取第二组候选意图;以及组合步骤,将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图;其中,所述临时意图模式包括所述查询和上下文字符。

【技术实现步骤摘要】

本专利技术涉及数据搜索。特别地,本专利技术涉及一种用于挖掘意图的方法和设备。更特别地,本专利技术涉及针对用户提交的搜索查询来挖掘用户意图的方法和设备。
技术介绍
目前,互联网正在快速发展,在互联网中常常产生大量的信息(诸如官方公布的科技信息、个人产生的日记或者博客等),并且互联网用户在大量的互联网信息中搜索所希望的信息这一方式已经越来越普遍。为了在海量的互联网数据中找到所希望的信息,信息检索系统诸如搜索引擎变得越来越重要。目前,在实际进行网络搜索的过程中,用户往往为了方便而输入简短但是含糊的查询,并希望找到其希望的搜索结果。然而,在此情况下,大多数的依赖现有技术的信息检索系统不足以准确地返回用户希望的搜索结果,这是因为不同用户可能通过使用相同的简短且含糊的查询作为输入来搜寻不同的解释搜索结果,而现有技术所提供的搜索结果往往不能正确地契合用户的意图。目前传统的信息检索系统如图1所示,该图示出了传统信息检索系统的用户界面,其中示出了输入的查询以及搜索结本文档来自技高网...
用于挖掘意图的方法和设备

【技术保护点】
一种用于挖掘意图的方法,包括:接收步骤,接收输入的查询;预获取步骤,基于所接收到的查询来获取第一组候选意图;构建步骤,为所述查询构建至少一个临时意图模式;获取步骤,基于所述至少一个临时意图模式来获取第二组候选意图;以及组合步骤,将所述第一组候选意图和第二组候选意图进行组合以获得所述查询的候选意图;其中,所述临时意图模式包括所述查询和上下文字符。

【技术特征摘要】
1.一种用于挖掘意图的方法,包括:
接收步骤,接收输入的查询;
预获取步骤,基于所接收到的查询来获取第一组候选意图;
构建步骤,为所述查询构建至少一个临时意图模式;
获取步骤,基于所述至少一个临时意图模式来获取第二组候选意
图;以及
组合步骤,将所述第一组候选意图和第二组候选意图进行组合以
获得所述查询的候选意图;
其中,所述临时意图模式包括所述查询和上下文字符。
2.根据权利要求1所述的方法,其中,所述接收步骤包括:
解析步骤,对所接收到的查询进行解析以获得所接收到的查询中
的各概念;以及
位置调整步骤,通过将所获得的各概念进行位置调整,由此生成
至少一个重组后的查询;
其中,所述预获取步骤基于所述至少一个重组后的查询来获得所
述第一组候选意图;且
所述构建步骤为所述至少一个重组后的查询构建所述至少一个临
时意图模式。
3.根据权利要求2所述的方法,其中,所述接收步骤还包括:
过滤步骤,基于第一预定参数来对所生成的至少一个重组后的查
询进行过滤,
其中,所述预获取步骤基于所述至少一个重组后的查询中的其第
一预定参数大于等于第一阈值的查询来获得所述第一组候选意图;且
所述构建步骤为所述至少一个重组后的查询中的其第一预定参数
大于等于所述第一阈值的查询构建所述至少一个临时意图模式,
其中,所述第一预定参数为所述至少一个重组后的查询在数据搜
索资源中的出现频率。
4.根据权利要求1所述的方法,其中所述构建步骤包括:
将所述查询分割成至少一个子查询;
对于所述至少一个子查询中的每一个,获得该子查询的至少一个
临时意图模式;
基于所述至少一个子查询中的每一个的临时意图模式中的每一个
与其余子查询的组合,得到该查询的至少一个临时意图模式。
5.根据权利要求4所述的方法,其中所述构建步骤还包括:
基于第二预定参数来对所得到的组合进行过滤以获得所述至少一
个临时意图模式,
其中,所述至少一个临时意图模式包含所述组合中的其第二预定
参数大于等于第二阈值的组合,
其中,所述第二预定参数为所得到的组合在数据搜索资源中的出
现频率。
6.根据权利要求4所述的方法,其中,所述获得该子查询的至少
一个临时意图模式包括:
从意图训练库或者用户搜索历史选择记录中的各数据中提取包含
该子查询的最短字符串;
对所提取的最短字符串进行泛化以得到该子查询的至少一个临时
意图模式,
其中,在该最短字符串不包含连接字符的情况下,将该最短字符
串中的除该子查询之外的其它内容用通配符替换,在此情况下该上下
文字符为通配符;
在该最短字符串包含与该子查询紧邻的连接字符的情况下,将该
最短字符串中的除该子查询和与该子查询紧邻的连接字符之外的其它

\t内容用通配符替换,在此情况下该上下文字符为通配符和该连接字符。
7.根据权利要求1所述的方法,其中,所述构建步骤包括:
从所述第一组候选意图中泛化出至少一个第一意图模式;
计算所述至少一个第一意图模式中的各意图模式的覆盖率和置信
度;以及
确定所述至少一个第一意图模式中的其覆盖率大于等于第三阈值
或其置信度大于等于第四阈值的意图模式作为所述至少一个临时意图
模式。
8.根据权利要求7所述的方法,其中,所述泛化步骤包括:对于
所述第一组候选意图中的每一个
在该候选意图不包含连接字符的情况下,将该候选意图中的除该
查询之外的其它内容用通配符替换,在此情况下该上下文字符为通配
符;
在该候选意图包含与该查询紧邻的连接字符的情况下,将该意图
查询中的除该查询和与该查询紧邻的连接字符之外的其它内容用通配
符替换,在此情况下该上下文字符为通配符和该连接字符。
9.根据权利要求1所述的方法,其中,所述构建步骤包括:
通过对所述第一组候选意图中的每一个进行结构分析来提取至少
一个结构模式;
计算所述至少一个结构模式中的各结构模式的覆盖率和置信度;
以及
确定所述至少一个结构模式中的其覆盖率大于等于第五阈值或其
置信度大于等于第六阈值的结构模式作为所述至少一个临时意图模
式。
10.根据权利要求1所述的方法,其中所述上下文字符为通配符

\t和连接字符中的至少一个,
其中,所述连接字符包含冠词、前置词和连词中的至少一个。
11.根据权利要求1所述的方法,其中,所述上下文字符是用户
预先设定的,或者是从意图训练库、用户历史选择记录和所述第一组
候选意图中的至少一个中获取的。
12.根据权利要求1所述的方法,其中,所述组合步骤包括根据
各候选意图所对应的临时意图模式的参数来将各候选意图进行排序,
其中,所述临时意图模式的参数包含所述临时意图模式的置信度
和覆盖率中的至少一个。
13.根据权利要求1-12中任一项所述的方法,其中,所述方法
进一步包括:
在所获得的所述查询的候选意图之中构建至少一个排他合集,其
中每个排他合集包括至少两个相互排他的候选意图。
14.根据权利要求13所述的方法,其中,所述方法进一步包括:
利用所述至少一个排他合集使所获得的所述查询的候选意图多样
化。
15.根据权利要求1-12中任一项所述的方法,其中,所述方法
进一步包括:
获取要被获得的意图的数量n,其中n为自然数;
从至少一个数据搜索资源获取与所述查询和所获得的所述查询的
候选意图相关的一组搜索结果;以及
基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对
n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1
个候选意图重叠的非重叠搜索结果的数量计算的。
16.根据权利要求13所述的方法,其中,所述方法进一步包括:
获取要被获得的意图的数量n,其中n为自然数;
从至少一个数据搜索资源获取与所述查询和所获得的所述查询的
候选意图相关的一组搜索结果;以及
基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对
n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1
个候选意图重叠的非重叠搜索结果的数量计算的。
17.根据权利要求14所述的方法,其中,所述方法进一步包括:
获取要被获得的意图的数量n,其中n为自然数;
从至少一个数据搜索资源获取与所述查询和多样化后的候选意图
相关的一组搜索结果;以及
基于合计的非重叠率选择n个意图,所述合计的非重叠率是针对
n个候选意图、基于n个候选意图中的各候选意图不与任意其它n-1
个候选意图重叠的非重叠搜索结果的数量计算的。
18.一种用于挖掘意图的设备,包括:
接收单元,被配置用于接收输入的查询;
预获取单元,被配置用于基于所接收到的查询来获取第一组候选
意图;
构建单元,被配置用于为所述查询构建至少一个临时意图模式;
获取单元...

【专利技术属性】
技术研发人员:胡钦谙黄耀海那森李荣军夏云庆
申请(专利权)人:佳能株式会社清华大学
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1