基于人工智能的搜索方法和装置制造方法及图纸

技术编号:14844383 阅读:71 留言:0更新日期:2017-03-17 11:25
本发明专利技术公开了一种基于人工智能的搜索方法和装置,其中,方法包括以下步骤:接收输入的查询语句;基于预先训练的冗余词识别模型确定查询语句中的冗余词;从查询语句中删除冗余词,以生成新的查询语句;根据新的查询语句进行搜索。该方法能够有效地对查询语句进行纠错,去掉冗余词,从而获取更准确的搜索结果,满足用户需求。

【技术实现步骤摘要】

本专利技术涉及信息检索
,尤其涉及一种基于人工智能的搜索方法和装置
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。语音搜索是一种全新的搜索模式,通过接收用户说出的语音,解析出用户的搜索意图,例如“明天天气如何”、“宫保鸡丁的做法”等,就能够获得相应的搜索结果,从而免去文字输入的繁琐。然而,用户在输入长查询语句时,由于噪声等原因的影响,在将语音转换为文字的过程中,可能会产生错误分词。如果用包含有错误分词的查询语句进行搜索,可能导致搜索到的结果无法满足用户的需要,甚至有些情况下没有搜索结果返回,从而影响用户的满意度。目前,主要通过对查询语句进行纠错,来减少错误分词的影响。但是,长查询语句中的纠错的效果并不能达到预期效果。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于人工智能的搜索方法,该方法能够有效地对查询语句进行纠错,去掉冗余词,从而获取更准确的搜索结果,满足用户需求。本专利技术的第二个目的在于提出一种基于人工智能的搜索装置。为了实现上述目的,本专利技术第一方面实施例提出了一种基于人工智能的搜索方法,包括:接收输入的查询语句;基于预先训练的冗余词识别模型确定查询语句中的冗余词;从查询语句中删除冗余词,以生成新的查询语句;根据新的查询语句进行搜索。本专利技术实施例的基于人工智能的搜索方法,通过预先训练的冗余词识别模型确定查询语句中的冗余词,并删除冗余词,生成新的查询语句,根据新的查询语句进行搜索。该方法能够有效地对查询语句进行纠错,去掉冗余词,从而获取更准确的搜索结果,满足用户需求。为达上述目的,本专利技术第二方面实施例提出了一种基于人工智能的搜索装置,包括接收模块,用于接收输入的查询语句;确定模块,用于基于预先训练的冗余词识别模型确定查询语句中的冗余词;删除模块,用于从查询语句中删除冗余词,以生成新的查询语句;搜索模块,用于根据新的查询语句进行搜索。本专利技术实施例的基于人工智能的搜索装置,通过预先训练的冗余词识别模型确定查询语句中的冗余词,并删除冗余词,生成新的查询语句,根据新的查询语句进行搜索。该方法能够有效地对查询语句进行纠错,去掉冗余词,从而获取更准确的搜索结果,满足用户需求。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明图1是根据本专利技术一个实施例的基于人工智能的搜索方法的流程图;图2是根据本专利技术一个具体实施例的基于人工智能的搜索方法的流程图;图3是根据本专利技术一个实施例的基于人工智能的搜索装置的结构示意图;图4是根据本专利技术一个具体实施例的基于人工智能的搜索装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的基于人工智能的搜索方法和装置。图1是根据本专利技术一个实施例的基于人工智能的搜索方法的流程图。如图1所示,该基于人工智能的搜索方法包括:S101,接收输入的查询语句。在本专利技术的一个实施例中,用户想要通过搜索引擎进行搜索,可通过搜索引擎提供的语音输入接口,通过语音输入的方式输入查询语句。S102,基于预先训练的冗余词识别模型确定查询语句中的冗余词。在接收到查询语句之后,可基于预先训练的冗余词识别模型确定查询语句中的冗余词。其中,冗余词识别模型为预先训练的用于识别查询语句中冗余词的模型。具体地,可根据RNNLM(RecurrentNeuralNetworkLanguageModel,递归神经网络语言模型)获取查询语句中每个分词的出现概率,根据各个分词的出现概率计算查询语句的第一困惑度。其中,困惑度即ppl,可用于衡量分词的成句概率。接下来,依次删除查询语句中的分词,分别计算删除每个分词后的查询语句的第二困惑度,然后计算第二困惑度与第一困惑度的比值。如果比值小于等于预设阈值,则删除的分词为冗余词,如果比值大于预设阈值,则删除的分词不是冗余词。S103,从查询语句中删除冗余词,以生成新的查询语句。在确定查询语句中的冗余词之后,可从查询语句中删除冗余词,利用剩下的分词组成新的查询语句。S104,根据新的查询语句进行搜索。利用去掉冗余词的查询语句进行搜索,从而获得更加符合用户需求的搜索结果。综上所述,本专利技术实施例的基于人工智能的搜索方法,通过预先训练的冗余词识别模型确定查询语句中的冗余词,并删除冗余词,生成新的查询语句,根据新的查询语句进行搜索。该方法能够有效地对查询语句进行纠错,去掉冗余词,从而获取更准确的搜索结果,满足用户需求。为了更清楚详细的描述本专利技术实施例,下面结合图2通过具体实施例对其进行进一步描述。图2是根据本专利技术一个具体实施例的基于人工智能的搜索方法的流程图。如图2所示,该基于人工智能的搜索方法包括:S201,接收输入的查询语句。在本专利技术的一个实施例中,用户想要通过搜索引擎进行搜索,可通过搜索引擎提供的语音输入接口,通过语音输入的方式输入查询语句。S202,通过RNNLM确定查询语句中每个分词的出现概率。其中,RNNLM主要用于获取查询语句中每个分词的出现概率。具体地,首先将查询语句切分为多个分词,然后分别计算每个分词出现在该查询语句中的出现概率。举例来说,查询语句为q,可将查询语句q切分成M个分词,那么查询语句q可表示为q={t1,t2,…,tM本文档来自技高网...
基于人工智能的搜索方法和装置

【技术保护点】
一种基于人工智能的搜索方法,其特征在于,包括:接收输入的查询语句;基于预先训练的冗余词识别模型确定所述查询语句中的冗余词;从所述查询语句中删除所述冗余词,以生成新的查询语句;根据所述新的查询语句进行搜索。

【技术特征摘要】
1.一种基于人工智能的搜索方法,其特征在于,包括:接收输入的查询语句;基于预先训练的冗余词识别模型确定所述查询语句中的冗余词;从所述查询语句中删除所述冗余词,以生成新的查询语句;根据所述新的查询语句进行搜索。2.如权利要求1所述的方法,其特征在于,基于预先训练的冗余词识别模型确定所述查询语句中的冗余词,包括:通过递归神经网络语言模型RNNLM确定所述查询语句中每个分词的出现概率;根据所述出现概率计算所述查询语句的第一困惑度;依次删除所述查询语句中的一个分词,分别计算删除分词后的查询语句的第二困惑度;基于预先训练的冗余词识别模型,根据所述第一困惑度和所述第二困惑度确定删除的分词是否为冗余词。3.如权利要求2所述的方法,其特征在于,通过递归神经网络语言模型RNNLM确定所述查询语句中每个分词的出现概率,包括:将当前分词的前N个分词输入至所述RNNLM,其中,N为自然数;通过所述RNNLM输出所述当前分词的出现概率。4.如权利要求2所述的方法,其特征在于,在通过递归神经网络语言模型RNNLM确定所述查询语句中每个分词的出现概率之前,还包括:获取查询日志中的训练语料;利用所述训练语料训练所述RNNLM。5.如权利要求2所述的方法,其特征在于,基于预先训练的冗余词识别模型,根据所述第一困惑度和所述第二困惑度确定删除的分词是否为冗余词,包括:计算所述第二困惑度和所述第一困惑度的比值;如果所述比值小于等于预设阈值,则确定删除的分词为冗余词。6.如权利要求5所述的方法,其特征在于,还包括:从所述查询日志中挖掘包含冗余词的查询语句样本;训练所述包含冗余词的查询语句样本,以获取所述预设阈值。7.一...

【专利技术属性】
技术研发人员:徐新超王丽杰朱曼瑜张军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1