基于深度问答的提问型搜索词搜索方法及装置制造方法及图纸

技术编号:15329831 阅读:55 留言:0更新日期:2017-05-16 13:25
本发明专利技术提出一种基于深度问答的提问型搜索词的搜索方法和装置,其中,方法包括:通过对搜索词进行识别,确定搜索词为提问型的搜索词之后,从数据库中查询与该搜索词匹配的页面信息。进而根据各特征,对页面信息进行多特征分析,得到各特征的特征分值,并根据各特征的特征分值,对页面信息进行排序后进行展示。由于多个特征用于从多个维度评价页面信息回答所述搜索词所提问题的有效性,因此,能够将回答搜索词所提问题的页面信息展示给用户,避免了用户逐个查询的过程,解决了现有技术中搜索效率较差的技术问题。

Method and device for searching question type search words based on depth question and answer

The present invention includes a search method and apparatus, word question type deep question answering based on the method: through the identification of the search word, after determining the search term for questioning type search terms from the database query and matching the search word page information. Then, according to the characteristics of the page information for multi feature analysis, get the characteristic scores of each feature, and according to the characteristics of each feature score, page information sorting, display. Due to the multiple features for from a multi dimension evaluation page information to answer the search effectiveness, word questions can be answered so search word page information is displayed to the user in question, to avoid the process of user inquiry, to solve the technical problems of poor search efficiency in the prior art.

【技术实现步骤摘要】
基于深度问答的提问型搜索词搜索方法及装置
本专利技术涉及信息搜索
,尤其涉及一种基于深度问答的提问型搜索词搜索方法及装置。
技术介绍
深度问答(Deepquestionandanswer),是指理解人类的语言,智能识别问题的含义,并从海量的互联网数据中针对问题提取答案的技术。在现有技术的信息搜索过程中,用户可以自行设置搜索词,从而搜索引擎根据搜索词进行搜索,将搜索结果返回给用户。在搜索引擎运行的过程中,专利技术人发现:用户在一些情况下会提出一个问题作为搜索词,也就是说搜索词为提问型搜索词,在这种情况下,往往搜索结果与问题的答案相关性不高,用户在获取问题的答案时,还需要首先通过在搜索结果中点击相关链接,以查看页面中的具体内容,进而用户还需要自行总结归纳出问题的答案,因此,现有技术中,针对提问型搜索词进行搜索时搜索效率较差。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于深度问答的提问型搜索词的搜索方法,以解决现有技术中在采用提问型搜索词进行搜索时,搜索效率较差的技术问题。本专利技术的第二个目的在于提出一种提问型搜索词的搜索装置。本专利技术的第三个目的在于提出另一种提问型搜索词的搜索装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种基于深度问答的提问型搜索词的搜索方法,包括:对搜索词进行识别,确定所述搜索词为提问型的搜索词;从数据库中查询与所述搜索词匹配的页面信息;根据各特征,对所述页面信息进行多特征分析,得到各特征的特征分值;所述特征用于评价页面信息回答所述搜索词所提问题的有效性;根据各特征的特征分值,对所述页面信息进行排序;依据所述排序,对所述页面信息进行展示。本专利技术实施例的基于深度问答的提问型搜索词的搜索方法,通过对搜索词进行识别,确定搜索词为提问型的搜索词之后,从数据库中查询与该搜索词匹配的页面信息。进而根据各特征,对页面信息进行多特征分析,得到各特征的特征分值,并根据各特征的特征分值,对页面信息进行排序后进行展示。由于多个特征用于从多个维度评价页面信息回答所述搜索词所提问题的有效性,因此,能够将回答搜索词所提问题的页面信息展示给用户,避免了用户逐个查询的过程,解决了现有技术中搜索效率较差的技术问题。为达上述目的,本专利技术第二方面实施例提出了一种基于深度问答的提问型搜索词的搜索装置,包括:识别模块,用于对搜索词进行识别,确定所述搜索词为提问型的搜索词;查询模块,用于从数据库中查询与所述搜索词匹配的页面信息;分析模块,用于根据各特征,对所述页面信息进行多特征分析,得到各特征的特征分值;其中,所述特征用于评价页面信息回答所述搜索词所提问题的有效性;排序模块,用于根据各特征的特征分值,对所述页面信息进行排序;展示模块,用于依据所述排序,对所述页面信息进行展示。本专利技术实施例的提问型搜索词的搜索装置,通过对搜索词进行识别,确定搜索词为提问型的搜索词之后,从数据库中查询与该搜索词匹配的页面信息。进而根据各特征,对页面信息进行多特征分析,得到各特征的特征分值,并根据各特征的特征分值,对页面信息进行排序后进行展示。由于多个特征用于从多个维度评价页面信息回答所述搜索词所提问题的有效性,因此,能够将回答搜索词所提问题的页面信息展示给用户,避免了用户逐个查询的过程,解决了现有技术中搜索效率较差的技术问题。为达上述目的,本专利技术第三方面实施例提出了另一种提问型搜索词的搜索装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:对搜索词进行识别,确定所述搜索词为提问型的搜索词;从数据库中查询与所述搜索词匹配的页面信息;根据各特征,对所述页面信息进行多特征分析,得到各特征的特征分值;其中,所述特征用于评价页面信息回答所述搜索词所提问题的有效性;根据各特征的特征分值,对所述页面信息进行排序;依据所述排序,对所述页面信息进行展示。为了实现上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器被执行时,使得服务器能够执行一种提问型搜索词的搜索方法,所述方法包括:对搜索词进行识别,确定所述搜索词为提问型的搜索词;从数据库中查询与所述搜索词匹配的页面信息;根据各特征,对所述页面信息进行多特征分析,得到各特征的特征分值;其中,所述特征用于评价页面信息回答所述搜索词所提问题的有效性;根据各特征的特征分值,对所述页面信息进行排序;依据所述排序,对所述页面信息进行展示。为了实现上述目的,本专利技术第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种提问型搜索词的搜索方法,所述方法包括:对搜索词进行识别,确定所述搜索词为提问型的搜索词;从数据库中查询与所述搜索词匹配的页面信息;根据各特征,对所述页面信息进行多特征分析,得到各特征的特征分值;其中,所述特征用于评价页面信息回答所述搜索词所提问题的有效性;根据各特征的特征分值,对所述页面信息进行排序;依据所述排序,对所述页面信息进行展示。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所提供的一种基于深度问答的提问型搜索词的搜索方法的流程示意图;图2为搜索结果的示意图;图3为本专利技术实施例提供的一种提问型搜索词的搜索装置的结构示意图;图4为本专利技术实施例提供的又一种提问型搜索词的搜索装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的提问型搜索词的搜索方法和装置。其中,提问型搜索词是指用于提出问题以搜索到该问题的答案的搜索词。图1为本专利技术实施例所提供的一种基于深度问答的提问型搜索词的搜索方法的流程示意图。如图1所示,该基于深度问答的提问型搜索词的搜索方法包括:步骤101,对搜索词进行识别,确定所述搜索词为提问型的搜索词。具体地,为了确定哪些搜索词是在提出问题,需要对每个搜索词进行识别。经过识别步骤后,可以确切的知道搜索词是不是提出问题的提问型的搜索词。具体来说,可以根据所述搜索词中所包含的疑问词,和/或所述搜索词中的问答型结尾词,和/或所述搜索词的匹配的页面中属于问答型页面的比例,识别所述搜索词是否为提问型的搜索词。例如:判断搜索词是不是提出问题的提问型的搜索词,主要通过搜索词的内容,和搜索词所搜索到的结果两种数据来判断,先对搜索词进行分词,判断搜索词中是否有疑问词,若有疑问词,则搜索词属于提问型的搜索词;若没有疑问词,则进一步判断搜索词的结尾词是否为具有查询意图的问答型结尾词,如搜索词为河南省省长,结尾词为省长,可以判断用户有搜索河南省省长是谁的查询意图;如果结尾词不是问答型结尾词,则进一步判断搜索结果中是否含有较多的问答型页面,如本文档来自技高网...
基于深度问答的提问型搜索词搜索方法及装置

【技术保护点】
一种基于深度问答的提问型搜索词的搜索方法,其特征在于,包括以下步骤:对搜索词进行识别,确定所述搜索词为提问型的搜索词;从数据库中查询与所述搜索词匹配的页面信息;根据各特征,对所述页面信息进行多特征分析,得到各特征的特征分值;其中,所述特征用于评价页面信息回答所述搜索词所提问题的有效性;根据各特征的特征分值,对所述页面信息进行排序;依据所述排序,对所述页面信息进行展示。

【技术特征摘要】
1.一种基于深度问答的提问型搜索词的搜索方法,其特征在于,包括以下步骤:对搜索词进行识别,确定所述搜索词为提问型的搜索词;从数据库中查询与所述搜索词匹配的页面信息;根据各特征,对所述页面信息进行多特征分析,得到各特征的特征分值;其中,所述特征用于评价页面信息回答所述搜索词所提问题的有效性;根据各特征的特征分值,对所述页面信息进行排序;依据所述排序,对所述页面信息进行展示。2.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述数据库为离线数据库,所述数据库中所记载的页面信息包括:对页面进行实体抽取得到的实体数据;和/或,对页面中包含答案的段落进行抽取得到的分段数据;和/或,从问答型页面中对包含问题的段落,以及包含答案的段落以预设结构化方式进行组织所得到的结构化数据。3.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括深度卷积神经网络特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:根据所述页面信息中的单词,以及所述搜索词,利用深度卷积神经网络进行问题答案对的匹配,以确定出所述页面信息的第一特征分值;所述深度卷积神经网络已预先对问题和答案之间的匹配程度进行学习。4.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括数字特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:当所述搜索词所提问题的答案为数字形式时,依据度量单位抽取各个页面信息中的数字答案;若所述搜索词所需查询的数字答案为约数,则对抽取出的数字答案进行单遍聚类,得到每一个聚簇的分值;若所述搜索词所需查询的数字答案为确定的数值,则对抽取出的数据答案进行字面值聚类,得到每一个聚簇的分值;将所述聚簇的分值作为包含所述聚簇中数字答案的页面信息的第二特征分值。5.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括聚合特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:利用统计单词出现频次的算法,对页面信息所包含的各单词进行打分,得到用于指示各单词出现频次的分值;根据用于指示各单词出现频次的分值,确定包含所述单词的页面信息的第三特征分值。6.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括实体特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:根据所述搜索词所提问题,估计所述用户的查询意图;依据所述页面信息中的实体数据,对所述页面信息的各实体进行聚类,得到用于指示各实体数据能够满足所述查询意图的程度的第四特征分值。7.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括对齐特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:利用对齐模型,将所述搜索词与页面信息中的段落进行对齐,得到包含所述段落的页面信息的第五特征分值;其中,所述对齐模型已预先对问题和答案中单词的词对齐情况进行学习。8.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括长度特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:对所述页面信息的长度特征进行分析,得到用于指示页面信息所包含内容的丰富程度的第六特征分值。9.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括位置特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:对所述页面信息的位置特征进行分析,得到用于指示页面信息在搜索词匹配的全部页面信息中的排序情况的第七特征分值;所述排序依据所述搜索词与页面信息的匹配程度。10.根据权利要求1-9任一项所述的提问型搜索词的搜索方法,其特征在于,所述对搜索词进行识别,确定所述搜索词为提问型的搜索词,包括:根据所述搜索词中所包含的疑问词,和/或所述搜索词中的问答型结尾词,和/或所述搜索词的匹配的页面中属于问答型页面的比例,识别所述搜索词是否为提问型的搜索词。11.根据权利要求10所述的提问型搜索词的搜索方法,其特征在于,所述识别所述搜索词是否为提问型的搜索词之后,还包括:针对提问型的搜索词,采用预先训练的支持向量机模型,识别得到所述搜索词的问题类型和/或答案是否唯一。12.根据权利要求1-9任一项所述的提问型搜索词的搜索方法,其特征在于,所述根据各特征的特征分值,对所述页面信息进行排序,包括:对各特征的特征分值进行加权求和,得到各个页面信息的总分值,根据总分值对所述页面信息进行排序;其中,位置特征和长度特征的权重为用于指示所述搜索词与页面信息的匹配程度的搜索相关度;或者,将各个特征的特征分值输...

【专利技术属性】
技术研发人员:赵惜墨
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1