【技术实现步骤摘要】
用于确定语句意图的方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及用于确定语句意图的方法和装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能的目标是搭建一个通用的对话系统,而自动问答系统作为与对话系统最接近的形态,一直是人工智能研究的重点方向。在自动问答系统中,问题意图分析至关重要。现有的问题分析通常需要标注预先定义的特定领域的意图词集合,然后根据标注来构建提问语句中的实体与预定义的意图词集合的映射词典。
技术实现思路
本申请实施例的目的在于提出一种用于确定语句意图的方法和装置。第一方面,本申请实施例提供了一种用于确定语句意图的方法,该方法包括:获取待确定意图的语句;生成主干词语序列,主干词语序列包括以下至少一项:待确定意图的语句中的主干词、由待确定意图的语句中相邻的主干词组成的词组、由待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,预设意图词为预先从待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;基于候选意图词集合中的每个候选意图词在知识图谱中的扩展信息组 ...
【技术保护点】
一种用于确定语句意图的方法,其特征在于,所述方法包括:获取待确定意图的语句;生成主干词语序列,所述主干词语序列包括以下至少一项:所述待确定意图的语句中的主干词、由所述待确定意图的语句中相邻的主干词组成的词组、由所述待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与所述主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,所述预设意图词为预先从所述待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;基于所述候选意图词集合中的每个候选意图词在所述知识图谱中的扩展信息组成的扩展语句和所述待确定意图的语句的相似度关系,确定所述待确定意图的语句的意图词并将确定出的意图词对应的意图作为所述待确定意图的语句的意图。
【技术特征摘要】
1.一种用于确定语句意图的方法,其特征在于,所述方法包括:获取待确定意图的语句;生成主干词语序列,所述主干词语序列包括以下至少一项:所述待确定意图的语句中的主干词、由所述待确定意图的语句中相邻的主干词组成的词组、由所述待确定意图的语句中的相同词性的主干词中相邻的主干词组成的词组;基于预设意图词集合和主干词语序列确定候选意图词集合,候选意图词为与所述主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,所述预设意图词为预先从所述待确定意图的语句所属的领域的知识图谱中的词语中选取的用于表达意图的词;基于所述候选意图词集合中的每个候选意图词在所述知识图谱中的扩展信息组成的扩展语句和所述待确定意图的语句的相似度关系,确定所述待确定意图的语句的意图词并将确定出的意图词对应的意图作为所述待确定意图的语句的意图。2.根据权利要求1所述的方法,其特征在于,所述生成主干词语序列包括:对所述待确定意图的语句进行切分并去掉停用词;标注切分后的词的词性;基于标注的词性提取主干词,生成候选主干词语序列,所述候选主干词语序列中主干词的顺序与所述待确定意图的语句中主干词的顺序一致;对于由所述候选主干词语序列中相邻的主干词组成的任一词组或者由所述候选主干词语序列的相同词性的主干词中相邻的主干词组成的任一词组,将该词组与所述待确定意图的语句所属领域的知识图谱中的词语进行匹配,响应于匹配成功,在所述候选主干词语序列中将组成该词组的主干词替换成该词组;将替换后的候选主干词语序列确定为主干词语序列。3.根据权利要求2所述的方法,其特征在于,所述基于预设意图词集合和主干词语序列确定候选意图词集合包括:确定所述预设意图词集合中的预设意图词和所述主干词语序列中的主干词语在预设词向量模型中对应的词向量,所述预设词向量模型通过对所述待确定意图的语句所属领域的语料库中的词语预先进行训练而生成;基于确定出的词向量,从所述预设意图词集合中查找与所述主干词语序列中的主干词语的相似度大于相似度阈值的预设意图词,将查找出的预设意图词作为候选意图词。4.根据权利要求3所述的方法,其特征在于,所述基于所述候选意图词集合中的每个候选意图词在所述知识图谱中的扩展信息组成的扩展语句和所述待确定意图的语句的相似度关系确定所述待确定意图的语句的意图词包括:计算每个候选意图词对应的扩展语句与所述待确定意图的语句之间的相似度;将与所述待确定意图的语句相似度最高的扩展语句对应的候选意图词确定为所述待确定意图的语句的意图词。5.根据权利要求1-4之一所述的方法,其特征在于,所述方法还包括:预先从至少一个领域的知识图谱中的词语中选取每个领域的预设意图词集合。6.根据权利要求1-4之一所述的方法,其特征在于,所述待确定意图的语句包括:用户输入的待确定意图的语句和/或从预设问答数据库中选取的待确定意图的语句,其中所述预设问答数据库包括从互联网互动社区站点获取的、由提问语句和回答语句组成的问答语句对。7.一种用于确定语句意图的装置,其特征在于,所述装置包括:语句获取模块,配置用于获取待确定意图的语句;词语生成模块,配置用于生成主干词语序列,所述主干词语序列包括以下至少一项:所述待确定意图的语句中的主干词、由所述待确定意图的语句中相邻的主干词组成的词组、由...
【专利技术属性】
技术研发人员:戴祥鹰,林义明,郭辉,周辉,陈亮,罗雨,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。