【技术实现步骤摘要】
本专利技术涉及信息检索
,尤其涉及一种基于人工智能的搜索方法和装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。语音搜索是一种全新的搜索模式,通过接收用户说出的语音,解析出用户的搜索意图,例如“明天天气如何”、“宫保鸡丁的做法”等,就能够获得相应的搜索结果,从而免去文字输入的繁琐。然而,用户在输入长查询语句时,由于噪声等原因的影响,在将语音转换为文字的过程中,可能会产生错误分词。如果用包含有错误分词的查询语句进行搜索,可能导致搜索到的结果无法满足用户的需要,甚至有些情况下没有搜索结果返回,从而影响用户的满意度。目前,主要通过对查询语句进行纠错,来减少错误分词的影响。但是,长查询语句中的纠错的效果并不能达到预期效果。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于人工智能的搜索方法,该方法能够有效地对查询语句进行纠错,去掉冗余词,从而获取更准确的搜索结果,满足用户需求。本专利技术的第二个目的在于提出一种基于人工智能的搜索装置。为了实现上述目的,本专利技术第一方面实施例提出了一种基于人工智能的搜索方法,包括:接收输入的查询语句;基于预先训练的冗余词识别模型确定查询语句中的冗余词; ...
【技术保护点】
一种基于人工智能的搜索方法,其特征在于,包括:接收输入的查询语句;基于预先训练的冗余词识别模型确定所述查询语句中的冗余词;从所述查询语句中删除所述冗余词,以生成新的查询语句;根据所述新的查询语句进行搜索。
【技术特征摘要】
1.一种基于人工智能的搜索方法,其特征在于,包括:接收输入的查询语句;基于预先训练的冗余词识别模型确定所述查询语句中的冗余词;从所述查询语句中删除所述冗余词,以生成新的查询语句;根据所述新的查询语句进行搜索。2.如权利要求1所述的方法,其特征在于,基于预先训练的冗余词识别模型确定所述查询语句中的冗余词,包括:通过递归神经网络语言模型RNNLM确定所述查询语句中每个分词的出现概率;根据所述出现概率计算所述查询语句的第一困惑度;依次删除所述查询语句中的一个分词,分别计算删除分词后的查询语句的第二困惑度;基于预先训练的冗余词识别模型,根据所述第一困惑度和所述第二困惑度确定删除的分词是否为冗余词。3.如权利要求2所述的方法,其特征在于,通过递归神经网络语言模型RNNLM确定所述查询语句中每个分词的出现概率,包括:将当前分词的前N个分词输入至所述RNNLM,其中,N为自然数;通过所述RNNLM输出所述当前分词的出现概率。4.如权利要求2所述的方法,其特征在于,在通过递归神经网络语言模型RNNLM确定所述查询语句中每个分词的出现概率之前,还包括:获取查询日志中的训练语料;利用所述训练语料训练所述RNNLM。5.如权利要求2所述的方法,其特征在于,基于预先训练的冗余词识别模型,根据所述第一困惑度和所述第二困惑度确定删除的分词是否为冗余词,包括:计算所述第二困惑度和所述第一困惑度的比值;如果所述比值小于等于预设阈值,则确定删除的分词为冗余词。6.如权利要求5所述的方法,其特征在于,还包括:从所述查询日志中挖掘包含冗余词的查询语句样本;训练所述包含冗余词的查询语句样本,以获取所述预设阈值。7.一...
【专利技术属性】
技术研发人员:徐新超,王丽杰,朱曼瑜,张军,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。