主题挖掘方法和设备、以及查询扩展方法和设备技术

技术编号:10925525 阅读:88 留言:0更新日期:2015-01-21 08:26
本发明专利技术涉及主题挖掘方法和设备及查询扩展方法和设备。该主题挖掘方法包括:从知识库中获取多个句子;将至少一个句子转换为由多模因素的一个模式、条件及多值属性的一个值构成的条件三元组形式的第一断言声明;针对第一断言声明产生多模因素和多值属性分别与第一断言声明的条件三元组中的相同而多值属性的值不同的条件三元组形式的假设;计算每个假设的置信度并提取出置信度大于预定第一阈值的假设作为第二断言声明;将第一和第二断言声明组合以获得从多值属性到多模因素的映射,并且验证该映射是否是满射;在映射是满射的情况下,输出表示多值属性是多模因素的前提的前提断言对主题。得益于本发明专利技术,可以挖掘出隐含的用户查询主题从而提高召回率。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及主题挖掘方法和设备及查询扩展方法和设备。该主题挖掘方法包括:从知识库中获取多个句子;将至少一个句子转换为由多模因素的一个模式、条件及多值属性的一个值构成的条件三元组形式的第一断言声明;针对第一断言声明产生多模因素和多值属性分别与第一断言声明的条件三元组中的相同而多值属性的值不同的条件三元组形式的假设;计算每个假设的置信度并提取出置信度大于预定第一阈值的假设作为第二断言声明;将第一和第二断言声明组合以获得从多值属性到多模因素的映射,并且验证该映射是否是满射;在映射是满射的情况下,输出表示多值属性是多模因素的前提的前提断言对主题。得益于本专利技术,可以挖掘出隐含的用户查询主题从而提高召回率。【专利说明】主题挖掘方法和设备、以及查询扩展方法和设备
本专利技术涉及文本挖掘技术,特别地涉及从较大的文本数据库中发掘隐含的用户查 询主题的主题挖掘方法,即挖掘出某些没有直接文字记载但是可能作为用户查询的答案的 用户查询主题。
技术介绍
如今使用的机电装置的功能变得越来越多,并且这些机电装置通常能支持许多个 性化的功能。以多功能打印机(MFP)为例,其将复印、打印、扫描、传真和远程操作功能结合 在一起,以便满足大多数人的需求。这些强大的装置极大地便利了专业用户,但是通常会给 缺乏经验的用户带来麻烦,这是因为功能强大的装置往往带来复杂的操作,从而使得用户 不知道如何使用该装置或者不能找出必要的信息来操作该装置。 鉴于这种情形,已经提出了一种对话辅助系统(dialogue assist system),其使 得用户能够找出用于操作机电装置的相关信息。用户通过使用语言或文本来向该系统输入 查询,该系统预测用户的意图,并且引导用户操作装置。 美国专利No. US7, 774, 198提出了一种用于通过向用户输入的查询分层地添加短 语来生成主题的方法。该专利认为用其它方法针对用户输入的查询生成的短语不一定有意 义,因此其使用已经存在的文本串并且通过确定文本串中的各个单元之间的句法关系来生 成主题。这个机制使得所生成的主题必须已经存在于知识库中,并且其内容被限制为包含 用户输入的查询中的至少一个表达。这个专利提出了通过向原始主题添加词语或短语来产 生新的优化的查询主题的方法,所产生的新的优化的查询主题与预定义的依存关系匹配。
技术实现思路
然而,本申请的专利技术人发现,现有技术的召回率(匹配用户意图)较低,这是因为 现有技术只能挖掘出直接存在于知识库中的主题,而无法挖掘出很多隐含的用户期望的主 题。 通过深入研究分析,本申请的专利技术人发现,在真实状态数据(ground truth)中,除 了现有技术(例如上述美国专利)能挖掘出的主题(即,如美国专利No. US7, 774, 198中公开 的由知识库中已经存在的句子中的组块(chunk)之间的依存链接构成的语言上依存主题) 之外,还存在一类数量较多的主题,即,用于帮助用户改变配置以实现目标功能的针对查询 的推荐主题(下文中将命名为"前提断言对主题(premises assertion pair topic)"),其 中在该功能的有效性与一多值属性的值之间存在前提映射。图1示出了本申请的专利技术人 作出的实验结果,其例示了真实状态数据中的各种类型主题的比例。该真实状态数据是通 过如下操作而获得的:从一个MFP手册随机选择十个功能名作为用户输入查询,并且针对 每个查询由人工收集尽可能多的在该MFP手册中有答案的问题,然后人工对所收集的问题 进行投票,并且去除那些不重要的问题,从而得到真实状态数据。最后,分析真实状态数据 中的这些主题的类型及其比例。从图1可以看出,前提断言对主题在真实状态数据中占据 20. 11%的较大比例(请注意,这并非大量统计得出的平均数据,而仅仅是出于例示的目的给 出)。 因此,需要一种能够挖掘出前提断言对主题的主题挖掘方法和设备,并且可以将 该主题挖掘方法和设备应用于查询扩展方法和设备。 根据本专利技术的一个方面,为了解决上述技术问题,本专利技术提供一种主题挖掘方法, 其包括:获取步骤,从至少一个知识库中获取多个句子;转换步骤,将所获取的句子中的 至少一个转换为条件三元组(condition triple form)形式的第一断言声明(assertion statement),其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多 值属性的一个值构成;产生步骤,针对第一断言声明产生条件三元组形式的假设,其中所 产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中 的多模因素和多值属性相同,所产生的假设中的多值属性的值不同于第一断言声明中的 多值属性的值;计算步骤,通过使用存储在所述至少一个知识库中的证据来计算每个假设 的置信度,并且从所述假设中提取出一个或更多个假设作为第二断言声明,其中每个第二 断言声明的置信度大于预定的第一阈值;组合步骤,将第一断言声明和第二断言声明组合 以获得从所述多值属性到所述多模因素的映射(mapping),并且验证所述映射是否是满射 (surjection);以及输出步骤,在从所述多值属性到所述多模因素的映射是满射的情况下, 输出表示所述多值属性是所述多模因素的前提的前提断言对主题。 根据本专利技术的另一方面,为了解决上述技术问题,本专利技术提供一种查询扩展方法, 其包括:接收自然语言形式的用户输入的查询;在至少一个知识库中检索基于所述查询的 结果;如上所述的主题挖掘方法,从所述结果中挖掘出主题;获取基于所挖掘出的主题的 查询。 根据本专利技术的另一方面,本专利技术提供一种主题挖掘设备,其包括:获取部件,被配 置为从至少一个知识库中获取多个句子;转换部件,被配置为将所获取的句子中的至少一 个转换为条件三元组形式的第一断言声明,其中所述第一断言声明的条件三元组由多模因 素的一个模式、条件、以及多值属性的一个值构成;产生部件,被配置为针对第一断言声明 产生条件三元组形式的假设,其中所产生的假设的条件三元组中的多模因素和多值属性分 别与第一断言声明的条件三元组中的多模因素和多值属性相同,所产生的假设中的多值属 性的值不同于第一断言声明中的多值属性的值;计算部件,被配置为通过使用存储在所述 至少一个知识库中的证据来计算每个假设的置信度,并且从所述假设中提取出一个或更多 个假设作为第二断言声明,其中每个第二断言声明的置信度大于预定的第一阈值;组合部 件,被配置为将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素 的映射,并且验证所述映射是否是满射;以及输出部件,被配置为在从所述多值属性到所述 多模因素的映射是满射的情况下,输出表示所述多值属性是所述多模因素的前提的前提断 言对主题。 根据本专利技术的另一方面,本专利技术提供一种查询扩展设备,其包括:接收部件,被配 置为接收自然语言形式的用户输入的查询;检索部件,被配置为在至少一个知识库中检索 基于所述查询的结果;如上所述的主题挖掘设备,被配置为从所述结果中挖掘出主题;获 取部件,被配置为获取基于所挖掘出的主题的查询。 如上所述,本专利技术提供了用于挖掘出前提断言对主题的主题挖掘方法和设备。本文档来自技高网
...

【技术保护点】
一种主题挖掘方法,包括:获取步骤,从至少一个知识库中获取多个句子;转换步骤,将所获取的句子中的至少一个转换为条件三元组形式的第一断言声明,其中所述第一断言声明的条件三元组由多模因素的一个模式、条件、以及多值属性的一个值构成;产生步骤,针对第一断言声明产生条件三元组形式的假设,其中所产生的假设的条件三元组中的多模因素和多值属性分别与第一断言声明的条件三元组中的多模因素和多值属性相同,所产生的假设中的多值属性的值不同于第一断言声明中的多值属性的值;计算步骤,通过使用存储在所述至少一个知识库中的证据来计算每个假设的置信度,并且从所述假设中提取出一个或更多个假设作为第二断言声明,其中每个第二断言声明的置信度大于预定的第一阈值;组合步骤,将第一断言声明和第二断言声明组合以获得从所述多值属性到所述多模因素的映射,并且验证所述映射是否是满射;以及输出步骤,在从所述多值属性到所述多模因素的映射是满射的情况下,输出表示所述多值属性是所述多模因素的前提的前提断言对主题。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄耀海张碧川李荣军王钊
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1