The present invention includes a search method and apparatus, word question type deep question answering based on the method: through the identification of the search word, after determining the search term for questioning type search terms from the database query and matching the search word page information. Then, according to the characteristics of the page information for multi feature analysis, get the characteristic scores of each feature, and according to the characteristics of each feature score, page information sorting, display. Due to the multiple features for from a multi dimension evaluation page information to answer the search effectiveness, word questions can be answered so search word page information is displayed to the user in question, to avoid the process of user inquiry, to solve the technical problems of poor search efficiency in the prior art.
【技术实现步骤摘要】
基于深度问答的提问型搜索词搜索方法及装置
本专利技术涉及信息搜索
,尤其涉及一种基于深度问答的提问型搜索词搜索方法及装置。
技术介绍
深度问答(Deepquestionandanswer),是指理解人类的语言,智能识别问题的含义,并从海量的互联网数据中针对问题提取答案的技术。在现有技术的信息搜索过程中,用户可以自行设置搜索词,从而搜索引擎根据搜索词进行搜索,将搜索结果返回给用户。在搜索引擎运行的过程中,专利技术人发现:用户在一些情况下会提出一个问题作为搜索词,也就是说搜索词为提问型搜索词,在这种情况下,往往搜索结果与问题的答案相关性不高,用户在获取问题的答案时,还需要首先通过在搜索结果中点击相关链接,以查看页面中的具体内容,进而用户还需要自行总结归纳出问题的答案,因此,现有技术中,针对提问型搜索词进行搜索时搜索效率较差。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于深度问答的提问型搜索词的搜索方法,以解决现有技术中在采用提问型搜索词进行搜索时,搜索效率较差的技术问题。本专利技术的第二个目的在于提出一种提问型搜索词的搜索装置。本专利技术的第三个目的在于提出另一种提问型搜索词的搜索装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种基于深度问答的提问型搜索词的搜索方法,包括:对搜索词进行识别,确定所述搜索词为提问型的搜索词;从数据库中查询与所述搜索词匹配的页面信息;根据各特 ...
【技术保护点】
一种基于深度问答的提问型搜索词的搜索方法,其特征在于,包括以下步骤:对搜索词进行识别,确定所述搜索词为提问型的搜索词;从数据库中查询与所述搜索词匹配的页面信息;根据各特征,对所述页面信息进行多特征分析,得到各特征的特征分值;其中,所述特征用于评价页面信息回答所述搜索词所提问题的有效性;根据各特征的特征分值,对所述页面信息进行排序;依据所述排序,对所述页面信息进行展示。
【技术特征摘要】
1.一种基于深度问答的提问型搜索词的搜索方法,其特征在于,包括以下步骤:对搜索词进行识别,确定所述搜索词为提问型的搜索词;从数据库中查询与所述搜索词匹配的页面信息;根据各特征,对所述页面信息进行多特征分析,得到各特征的特征分值;其中,所述特征用于评价页面信息回答所述搜索词所提问题的有效性;根据各特征的特征分值,对所述页面信息进行排序;依据所述排序,对所述页面信息进行展示。2.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述数据库为离线数据库,所述数据库中所记载的页面信息包括:对页面进行实体抽取得到的实体数据;和/或,对页面中包含答案的段落进行抽取得到的分段数据;和/或,从问答型页面中对包含问题的段落,以及包含答案的段落以预设结构化方式进行组织所得到的结构化数据。3.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括深度卷积神经网络特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:根据所述页面信息中的单词,以及所述搜索词,利用深度卷积神经网络进行问题答案对的匹配,以确定出所述页面信息的第一特征分值;所述深度卷积神经网络已预先对问题和答案之间的匹配程度进行学习。4.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括数字特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:当所述搜索词所提问题的答案为数字形式时,依据度量单位抽取各个页面信息中的数字答案;若所述搜索词所需查询的数字答案为约数,则对抽取出的数字答案进行单遍聚类,得到每一个聚簇的分值;若所述搜索词所需查询的数字答案为确定的数值,则对抽取出的数据答案进行字面值聚类,得到每一个聚簇的分值;将所述聚簇的分值作为包含所述聚簇中数字答案的页面信息的第二特征分值。5.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括聚合特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:利用统计单词出现频次的算法,对页面信息所包含的各单词进行打分,得到用于指示各单词出现频次的分值;根据用于指示各单词出现频次的分值,确定包含所述单词的页面信息的第三特征分值。6.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括实体特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:根据所述搜索词所提问题,估计所述用户的查询意图;依据所述页面信息中的实体数据,对所述页面信息的各实体进行聚类,得到用于指示各实体数据能够满足所述查询意图的程度的第四特征分值。7.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括对齐特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:利用对齐模型,将所述搜索词与页面信息中的段落进行对齐,得到包含所述段落的页面信息的第五特征分值;其中,所述对齐模型已预先对问题和答案中单词的词对齐情况进行学习。8.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括长度特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:对所述页面信息的长度特征进行分析,得到用于指示页面信息所包含内容的丰富程度的第六特征分值。9.根据权利要求1所述的提问型搜索词的搜索方法,其特征在于,所述特征包括位置特征,所述对所述页面信息进行多特征分析,得到各特征的特征分值,包括:对所述页面信息的位置特征进行分析,得到用于指示页面信息在搜索词匹配的全部页面信息中的排序情况的第七特征分值;所述排序依据所述搜索词与页面信息的匹配程度。10.根据权利要求1-9任一项所述的提问型搜索词的搜索方法,其特征在于,所述对搜索词进行识别,确定所述搜索词为提问型的搜索词,包括:根据所述搜索词中所包含的疑问词,和/或所述搜索词中的问答型结尾词,和/或所述搜索词的匹配的页面中属于问答型页面的比例,识别所述搜索词是否为提问型的搜索词。11.根据权利要求10所述的提问型搜索词的搜索方法,其特征在于,所述识别所述搜索词是否为提问型的搜索词之后,还包括:针对提问型的搜索词,采用预先训练的支持向量机模型,识别得到所述搜索词的问题类型和/或答案是否唯一。12.根据权利要求1-9任一项所述的提问型搜索词的搜索方法,其特征在于,所述根据各特征的特征分值,对所述页面信息进行排序,包括:对各特征的特征分值进行加权求和,得到各个页面信息的总分值,根据总分值对所述页面信息进行排序;其中,位置特征和长度特征的权重为用于指示所述搜索词与页面信息的匹配程度的搜索相关度;或者,将各个特征的特征分值输...
【专利技术属性】
技术研发人员:赵惜墨,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。