文档搜索装置和文档搜索方法制造方法及图纸

技术编号:10790422 阅读:44 留言:0更新日期:2014-12-17 19:18
发声内容估计部(14)基于学习了询问文档(1)的内容的设想提问与成为其回答的文档ID的对应关系的发声估计模型(9),从文档(1)内估计与用户输入分析结果(11)的回答相当的文档ID。结果合并部(16)将发声估计模型(9)的文档估计结果(15)与搜索索引(5)的文档搜索结果(13)进行合并来生成最终搜索结果(17)。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】发声内容估计部(14)基于学习了询问文档(1)的内容的设想提问与成为其回答的文档ID的对应关系的发声估计模型(9),从文档(1)内估计与用户输入分析结果(11)的回答相当的文档ID。结果合并部(16)将发声估计模型(9)的文档估计结果(15)与搜索索引(5)的文档搜索结果(13)进行合并来生成最终搜索结果(17)。【专利说明】
本专利技术涉及一种搜索被电子化的文档的章、节、项等细小的单位的文档搜索装置 和文档搜索方法。
技术介绍
对家电产品和车载设备等大量的设备附有记载了操作方法和故障时的应对方法 等的纸的使用说明书。其中,尤其在具有画面的信息设备中,使用说明书被电子化,能够直 接搜索和阅览。由此,无需特意携带纸的文档就能够阅览。另一方面,被电子化的文档的一 览性低,难以查找用户想要确认的内容,必须提供搜索功能。 作为在以往的搜索功能中的典型的功能中最简单的方式,有如下GREP搜索方 式:利用关键词进行搜索,将搜索到的部分从文档的开头起按出现顺序进行显示。并且有 如下逻辑型搜索方式:预先根据文档和提取出的关键词制作搜索索引,利用该搜索索引来 进行基于逻辑式的搜索,并显示候选。另外,在逻辑型搜索方式中无法定义表示输入关键 词与搜索索引之间的关联度的分数,因此有简单地输入关键词并对其出现频度进行计数 来决定分数的最佳匹配搜索方式。并且,有如下统计型搜索方式:根据关键词制作附加了 tf · idf (term frequency and inverse document frequency,词步页和逆文档步页率)等统计 性权重的搜索索引,利用与输入关键词的向量距离(内积)进行搜索并显示候选。通过这 些搜索方式的提供,能够搜索被电子化的文档,在某种程度上能够阅览用户所要求的部分。 在逻辑型搜索方式中,由于仅搜索与搜索条件严格一致的内容,因此,虽然具有如 果运用复杂的搜索条件则容易找到与用户的搜索意图一致的内容这样的优点,但另一方 面,存在如果搜索条件有一点不合适则容易导致搜索遗漏这样的缺点。另外,还存在构建复 杂的搜索式对于一般用户来说是障碍高这样的缺点。因而,最一般的逻辑型搜索是输入多 个关键词并通过0R逻辑运算求出搜索结果来呈现的方式。 另一方面,在最佳匹配搜索方式和统计型搜索方式的情况下,具有无需在关键词 中加入逻辑性结构而能够搜索这样的优点,而另一方面,由于文档中的关键词的出现次数 被简单地分数化,或者利用与出现倾向相应地加权的值计算分数,因此存在用户难以控制 这样的缺点。 鉴于这些方式的优点和缺点,作为有效利用双方的好处的方法,提出了将多个搜 索引擎合并来进行处理的方法。例如在专利文献1中公开了如下方法:通过将逻辑型搜索 方式和统计型搜索方式、或者最佳匹配搜索方式和统计型搜索方式分别独立地执行并将其 结果逻辑性地合并,来进行搜索。 具体地说,从逻辑型搜索方式的搜索引擎仅求得搜索结果候选的信息,从最佳匹 配搜索方式和统计型搜索方式的搜索引擎求得搜索结果候选及其分数作为信息。 在将逻辑型搜索方式与统计型搜索方式合起来的情况下,例如仅将逻辑式型搜索 结果和统计型搜索结果中文档ID重叠的内容作为最终结果候选,或者将逻辑式型搜索结 果和统计型搜索结果的文档ID的全部作为最终结果候选,在此基础上将统计型搜索结果 的分数使用于最终结果的排序。 并且,在将最佳匹配搜索方式与统计型搜索方式合并的情况下,使用分数的平均 来进行最终结果的排序。 另外,在以往的搜索方式中,提出了如下方法:为了减少由于关键词的表层上的差 异而无法搜索的情况,制作好同义词和近义词的表,将搜索条件中的关键词展开为同义词 和近义词来进行搜索。 专利文献1 :日本特开平10-143530号公报
技术实现思路
专利技术要解决的问题 以往的如以上那样构成,因此与通过单独的搜索方 式进行搜索时相比,容易得到用户所期望的搜索结果。然而,这些搜索方式中,用于制作搜 索索引的关键词的提取对象是搜索对象的文档本身,因此在使用单独的搜索方式的情况和 组合使用多个搜索方式的情况下,都是以搜索在文档内出现的关键词为基本。 另外,在实际的搜索场合下,进行搜索的一侧不得不在不知道文档中使用的关键 词是什么的状态下输入搜索条件,因此发生无法查到期望的文档的情况。为了解决这个问 题,进行基于同义词和近义词展开的搜索,由此能够期待一些改善。然而,使用说明书等文 档中,为了期待正确性而大多记载使用了专门用语以及对于独特功能的特别用语的说明, 导致对于一般用户和想要知道使用方法的初学者用户来说不知道将什么作为关键词来搜 索时能够得到期望的说明的状况的情况多。具体地说,作为表示汽车导航的地图朝向的用 语的"北基準(以北为基准)"或"自車基準(以本车为基准)"这样的用语对于汽车导航 初学者来说是连想像都想像不到的关键词,发生如下情况:想要以"走^ P〈方向# 09 ?上側(二々3地図(二^ (想要设为行驶的方向始终为上侧的地图)"这样的条件来进 行搜索,由于不存在适当的关键词而无法得到期望的搜索结果。 本专利技术是为了解决如上所述的问题而完成的,其目的在于针对用户利用自然语言 进行的输入呈现比利用简单的搜索方式得到的搜索结果更适当的搜索结果。 用于解决问题的方案 本专利技术所涉及的文档搜索装置具备:根据预先准备的文档制作的搜索索引;以及 文档搜索部,接收来自用户的输入,使用搜索索引从文档内搜索与该用户输入有关联的项 目;发声估计模型,学习了询问文档的内容的设想提问与成为该设想提问的回答的文档内 的项目的对应关系;发声内容估计部,根据发声估计模型从文档内估计与用户输入的回答 相当的项目;以及结果合并部,将从文档搜索部得到的文档搜索结果与从发声内容估计部 得到的文档估计结果进行合并来生成最终搜索结果。 本专利技术所涉及的文档搜索方法具备:用户输入步骤,接收来自用户的输入;文档 搜索步骤,使用根据预先准备的文档制作的搜索索引,从该文档内搜索与用户输入有关联 的项目;发声内容估计步骤,基于学习了询问文档的内容的设想提问与成为该设想提问的 回答的文档内的项目的对应关系的发声估计模型,从文档内估计与用户输入的回答相当的 项目;以及结果合并步骤,将从文档搜索步骤得到的文档搜索结果与从发声内容估计步骤 得到的文档估计结果进行合并来生成最终搜索结果。 专利技术的效果 根据本专利技术,使用学习了设想用户采用何种问法的提问与成为其回答的文档项目 的对应关系的发声估计模型,从文档内估计与用户输入的回答相当的项目,将估计结果与 索引搜索的结果进行合并,因此针对用户利用自然语言进行的输入能够呈现比利用简单的 搜索方式得到的结果更适当的搜索结果。 【专利附图】【附图说明】 图1是表示本专利技术的实施方式1所涉及的文档搜索装置的结构的框图。 图2是表示实施方式1所涉及的文档搜索装置的文档的例子的图。 图3是表示实施方式1所涉及的文档搜索装置的文档分析结果和搜索索引用的关 键词列表的例子的图。 图4是表示实施方式1所涉及的文档搜索装置的收集发声数据的例子的图。 图5是表示实施方式1所涉及的文档搜索装本文档来自技高网
...

【技术保护点】
一种文档搜索装置,具备:根据预先准备的文档制作的搜索索引;以及文档搜索部,接收来自用户的输入,使用所述搜索索引从所述文档内搜索与该用户输入有关联的项目,该文档搜索装置的特征在于,具备:发声估计模型,学习了询问所述文档的内容的设想提问与成为该设想提问的回答的所述文档内的项目的对应关系;发声内容估计部,基于所述发声估计模型从所述文档内估计与所述用户输入的回答相当的项目;以及结果合并部,将从所述文档搜索部得到的文档搜索结果与从所述发声内容估计部得到的文档估计结果进行合并来生成最终搜索结果。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:藤井洋一石井纯
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1