用于确定语句意图的方法和装置制造方法及图纸

技术编号:17248414 阅读:30 留言:0更新日期:2018-02-11 06:34
本申请实施例公开了用于确定语句意图的方法和装置。该方法的一具体实施方式包括:获取待确定意图的语句;生成主干词语序列,主干词语序列包括以下至少一项:语句中的主干词、由语句中相邻的主干词组成的词组、由语句中的相同词性的主干词中相邻的主干词组成的词组;确定候选意图词集合,候选意图词为与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,预设意图词为预先从语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;基于每个候选意图词在知识图谱中的扩展信息组成的扩展语句和语句的相似度关系,确定语句的意图词并将确定出的意图词对应的意图作为语句的意图。该实施方式提高了意图分析的效率。

【技术实现步骤摘要】
用于确定语句意图的方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及用于确定语句意图的方法和装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能的目标是搭建一个通用的对话系统,而自动问答系统作为与对话系统最接近的形态,一直是人工智能研究的重点方向。在自动问答系统中,问题意图分析至关重要。现有的问题分析通常需要标注预先定义的特定领域的意图词集合,然后根据标注来构建提问语句中的实体与预定义的意图词集合的映射词典。
技术实现思路
本申请实施例的目的在于提出一种用于确定语句意图的方法和装置。第一方面,本申请实施例提供了一种用于确定语句意图的方法,该方法包括:获取待确定意图的语句;生成主干词语序列,主干词语序列包括以下至少一项:待确定意图的语句中的主干词、由待确定意图的语句中相邻的主干词组成的词组、由待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,预设意图词为预先从待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;基于候选意图词集合中的每个候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系,确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。在一些实施例中,生成主干词语序列包括:对待确定意图的语句进行切分并去掉停用词;标注切分后的词的词性;基于标注的词性提取主干词,生成候选主干词语序列,候选主干词语序列中主干词的顺序与待确定意图的语句中主干词的顺序一致;对于由候选主干词语序列中相邻的主干词组成的任一词组或者由候选主干词语序列的相同词性的主干词中相邻的主干词组成的任一词组,将该词组与待确定意图的语句所属领域的知识图谱中的词语进行匹配,响应于匹配成功,在候选主干词语序列中将组成该词组的主干词替换成该词组;将替换后的候选主干词语序列确定为主干词语序列。在一些实施例中,基于预设意图词集合和主干词语序列确定候选意图词集合包括:确定预设意图词集合中的预设意图词和主干词语序列中的主干词语在预设词向量模型中对应的词向量,预设词向量模型通过对待确定意图的语句所属领域的语料库中的词语预先进行训练而生成;基于确定出的词向量,从预设意图词集合中查找与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,将查找出的预设意图词作为候选意图词。在一些实施例中,基于候选意图词集合中的每个候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系确定待确定意图的语句的意图词包括:计算每个候选意图词对应的扩展语句与待确定意图的语句之间的相似度;将与待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为待确定意图的语句的意图词。在一些实施例中,该方法还包括:预先从至少一个领域的知识图谱中的词语中选取每个领域的预设意图词集合。在一些实施例中,待确定意图的语句包括:用户输入的待确定意图的语句;或从预设问答数据库中选取的待确定意图的语句,其中预设问答数据库包括从互联网互动社区站点获取的、由提问语句和回答语句组成的问答语句对。第二方面,本申请实施例提供了一种用于确定语句意图的装置,装置包括:语句获取模块,配置用于获取待确定意图的语句;词语生成模块,配置用于生成主干词语序列,主干词语序列包括以下至少一项:待确定意图的语句中的主干词、由待确定意图的语句中相邻的主干词组成的词组、由待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;候选意图词确定模块,配置用于基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,预设意图词为预先从待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;意图确定模块,配置用于基于候选意图词集合中的每个候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系,确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图。在一些实施例中,词语生成模包括:分词单元,配置用于对待确定意图的语句进行切分并去掉停用词;标注单元,配置用于标注切分后的词的词性;提取单元,配置用于基于标注的词性提取主干词,生成候选主干词语序列,候选主干词语序列中主干词的顺序与待确定意图的语句中主干词的顺序一致;组合单元,配置用于对于由候选主干词语序列中相邻的主干词组成的任一词组或者由候选主干词语序列的相同词性的主干词中相邻的主干词组成的任一词组,将该词组与待确定意图的语句所属领域的知识图谱中的词语进行匹配,响应于匹配成功,在候选主干词语序列中将组成该词组的主干词替换成该词组;主干词语生成单元,配置用于将替换后的候选主干词语序列确定为主干词语序列。在一些实施例中,候选意图词确定模块包括:向量化单元,配置用于确定预设意图词集合中的预设意图词和主干词语序列中的主干词语在预设词向量模型中对应的词向量,预设词向量模型通过对待确定意图的语句所属领域的语料库中的词语预先进行训练而生成;候选意图词确定单元,配置用于基于确定出的词向量,从预设意图词集合中查找与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,将查找出的预设意图词作为候选意图词。在一些实施例中,意图确定模块包括:相似度计算单元,配置用于计算每个候选意图词对应的扩展语句与待确定意图的语句之间的相似度;意图确定单元,配置用于将与待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为待确定意图的语句的意图词并将确定出的意图词对应的意图作为所述待确定意图的语句的意图。在一些实施例中,装置还包括:预设意图词获取模块,配置用于预先从至少一个领域的知识图谱中的词语中选取每个领域的预设意图词集合。在一些实施例中,待确定意图的语句包括:用户输入的待确定意图的语句;或从预设问答数据库中选取的待确定意图的语句,其中预设问答数据库包括从互联网互动社区站点获取的、由提问语句和回答语句组成的问答语句对。本申请实施例提供的用于确定语句意图的方法和装置,通过对待确定意图的语句进行处理来生成主干词语序列,而后基于从知识图谱中预先获取的预设意图词集合中的预设意图词与主干词语序列中的主干词语之间的相似度确定候选意图词集合,最后基于候选意图词在知识图谱中的扩展信息组成的扩展语句和待确定意图的语句的相似度关系确定待确定意图的语句的意图词并将确定出的意图词对应的意图作为待确定意图的语句的意图,从而有效利用了知识图谱中丰富的属性/关系来挖掘语句的意图,提升了意图分析的效率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构本文档来自技高网...
用于确定语句意图的方法和装置

【技术保护点】
一种用于确定语句意图的方法,其特征在于,所述方法包括:获取待确定意图的语句;生成主干词语序列,所述主干词语序列包括以下至少一项:所述待确定意图的语句中的主干词、由所述待确定意图的语句中相邻的主干词组成的词组、由所述待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与所述主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,所述预设意图词为预先从所述待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;基于所述候选意图词集合中的每个候选意图词在所述知识图谱中的扩展信息组成的扩展语句和所述待确定意图的语句的相似度关系,确定所述待确定意图的语句的意图词并将确定出的意图词对应的意图作为所述待确定意图的语句的意图。

【技术特征摘要】
1.一种用于确定语句意图的方法,其特征在于,所述方法包括:获取待确定意图的语句;生成主干词语序列,所述主干词语序列包括以下至少一项:所述待确定意图的语句中的主干词、由所述待确定意图的语句中相邻的主干词组成的词组、由所述待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与所述主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,所述预设意图词为预先从所述待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;基于所述候选意图词集合中的每个候选意图词在所述知识图谱中的扩展信息组成的扩展语句和所述待确定意图的语句的相似度关系,确定所述待确定意图的语句的意图词并将确定出的意图词对应的意图作为所述待确定意图的语句的意图。2.根据权利要求1所述的方法,其特征在于,所述生成主干词语序列包括:对所述待确定意图的语句进行切分并去掉停用词;标注切分后的词的词性;基于标注的词性提取主干词,生成候选主干词语序列,所述候选主干词语序列中主干词的顺序与所述待确定意图的语句中主干词的顺序一致;对于由所述候选主干词语序列中相邻的主干词组成的任一词组或者由所述候选主干词语序列的相同词性的主干词中相邻的主干词组成的任一词组,将该词组与所述待确定意图的语句所属领域的知识图谱中的词语进行匹配,响应于匹配成功,在所述候选主干词语序列中将组成该词组的主干词替换成该词组;将替换后的候选主干词语序列确定为主干词语序列。3.根据权利要求2所述的方法,其特征在于,所述基于预设意图词集合和主干词语序列确定候选意图词集合包括:确定所述预设意图词集合中的预设意图词和所述主干词语序列中的主干词语在预设词向量模型中对应的词向量,所述预设词向量模型通过对所述待确定意图的语句所属领域的语料库中的词语预先进行训练而生成;基于确定出的词向量,从所述预设意图词集合中查找与所述主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,将查找出的预设意图词作为候选意图词。4.根据权利要求3所述的方法,其特征在于,所述基于所述候选意图词集合中的每个候选意图词在所述知识图谱中的扩展信息组成的扩展语句和所述待确定意图的语句的相似度关系确定所述待确定意图的语句的意图词包括:计算每个候选意图词对应的扩展语句与所述待确定意图的语句之间的相似度;将与所述待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为所述待确定意图的语句的意图词。5.根据权利要求1-4之一所述的方法,其特征在于,所述方法还包括:预先从至少一个领域的知识图谱中的词语中选取每个领域的预设意图词集合。6.根据权利要求1-4之一所述的方法,其特征在于,所述待确定意图的语句包括:用户输入的待确定意图的语句和/或从预设问答数据库中选取的待确定意图的语句,其中所述预设问答数据库包括从互联网互动社区站点获取的、由提问语句和回答语句组成的问答语句对。7.一种用于确定语句意图的装置,其特征在于,所述装置包括:语句获取模块,配置用于获取待确定意图的语句;词语生成模块,配置用于生成主干词语序列,所述主干词语序列包括以下至少一项:所述待确定意图的语句中的主干词、由所述待确定意图的语句中相邻的主干词组成的词组、由...

【专利技术属性】
技术研发人员:戴祥鹰林义明郭辉周辉陈亮罗雨
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1