基于深度学习的答案抽取方法、装置和存储介质制造方法及图纸

技术编号:21548097 阅读:49 留言:0更新日期:2019-07-06 21:33
本申请涉及一种基于深度学习的答案抽取方法、装置和存储介质,该方法包括:获取用户问题,以及,根据所述用户问题,获取与所述用户问题相关的文档内容;基于深度学习模型,在所述文档内容中确定抽取起始位置和抽取结束位置;将所述抽取起始位置和所述抽取结束位置之间的文档内容,确定为所述用户问题所对应的答案,并展示所述答案。本申请不需要人工提取特征来制定各种匹配规则来提取答案,直接将获取到的用户问题以及与用户问题相关的文档内容输入到深度学习模型便可以从文档内容中得到与用户问题相匹配的最合适的答案,简化了答案提取过程,且提高了答案准确性,从而大大提高了自动客服的效率和质量。

Answer Extraction Method, Device and Storage Media Based on Deep Learning

【技术实现步骤摘要】
基于深度学习的答案抽取方法、装置和存储介质
本申请涉及自然语言理解
,尤其涉及一种基于深度学习的答案抽取方法、装置和存储介质。
技术介绍
目前,许多商家为了减小客服人员的工作量提高办公效率,都会使用“智能客服”来自动回答客户的一些问题,这种“智能客服”大多是一种基于文档的自动问答系统。基于文档的自动问答系统一般包含三个模块,即问题处理、篇章检索和答案处理这三个模块。其工作流程为,用户以自然语言提出问题,问题处理模块对问题进行处理;然后系统中的篇章检索模块根据处理后的问题从海量文档集中检索到包含答案的相关文档;最后,答案处理模块通过一些答案抽取技术从相关文档中提取出包含答案的文档块,并返回给用户。相关技术中,这种自动问答系统在答案处理模块中,针对不同类型的问题,往往有不同的答案抽取方法。比如,对于简单事实型问题,可以基于词袋模型简单匹配答案,即在文档句段中抽取和预期答案类型相一致的命名实体作为候选答案;也可以基于表层模式匹配答案,其基本思想是问题的答案和问句关键词之间总有某些特定的表层关系,因此,算法不使用太多深层的语言处理,而是从文档句段中抽取出满足表层规则模式的候选答案。这种本文档来自技高网...

【技术保护点】
1.一种基于深度学习的答案抽取方法,其特征在于,包括:获取用户问题,以及,根据所述用户问题获取与所述用户问题相关的文档内容;基于深度学习模型,在所述文档内容中确定抽取起始位置和抽取结束位置;将所述抽取起始位置和所述抽取结束位置之间的文档内容,确定为所述用户问题所对应的答案,并展示所述答案。

【技术特征摘要】
1.一种基于深度学习的答案抽取方法,其特征在于,包括:获取用户问题,以及,根据所述用户问题获取与所述用户问题相关的文档内容;基于深度学习模型,在所述文档内容中确定抽取起始位置和抽取结束位置;将所述抽取起始位置和所述抽取结束位置之间的文档内容,确定为所述用户问题所对应的答案,并展示所述答案。2.根据权利要求1所述的方法,其特征在于,所述基于深度学习模型,在所述文档内容中确定抽取起始位置和抽取结束位置,包括:根据所述用户问题和所述文档内容分别得到待处理的用户问题和待处理的文档内容,分别对所述待处理的用户问题和所述待处理的文档内容进行分词,并对各个词进行词向量转换,得到第一问题矩阵和第一文档矩阵;对所述第一文档矩阵进行处理,使得处理后的第一文档矩阵包含问题信息,以及,对所述处理后的第一文档矩阵和所述第一问题矩阵分别进行编码,分别得到第二文档矩阵和第二问题矩阵;基于注意力机制,对所述第二文档矩阵和所述第二问题矩阵进行交互处理,得到第三文档矩阵;基于注意力机制,对所述第三文档矩阵进行自匹配处理,得到第四文档矩阵;基于指针网络,根据所述第四文档矩阵和所述第二问题矩阵,在所述文档内容中确定抽取起始位置和抽取结束位置。3.根据权利要求2所述的方法,其特征在于,所述根据所述用户问题和所述文档内容分别得到待处理的用户问题和待处理的文档内容,包括:对所有所述文档内容进行拼接,得到待处理的文档内容;和/或,对所述用户问题重复多次,并对重复的用户问题进行拼接,得到待处理的用户问题,其中,所述用户问题重复的次数为所述文档内容的总个数。4.根据权利要求2所述的方法,其特征在于,所述对所述第一文档矩阵进行处理,使得处理后的第一文档矩阵包含问题信息,包括:确定词共现特征,并将所述词共现特征拼接到所述第一文档矩阵中的相应文档词向量的尾部,得到处理后的第一文档矩阵。5.根据权利要求4所述的方法,其特征在于,所述词共现特征包括:第一词共现特征和/或第二词共现特征,所述确定词共现特征,并将所述词共现特征拼接到所述第一文档矩阵中的相应文档词向量的尾部,包括:对应所述待处理的文档内容中的每个词,如果所述词与待处理的用户问题中的至少一个词相同,则确定所述待处理的文档内容中所述词对应的第一词共现特征为第一值,否则,确定第一词共现特征为第二值,其中,所述第一值和所述第二值均为固定值,分别用于表示文档内容中的词在所述用户问题中出现或不出现,以及,将所述第一词共现特征拼接到所述第一文档矩阵中所述词所对应的词向量的尾部;和/或,分别计算所述第一文档矩阵中的各个词向量与所述第一问题矩阵中的各个词向量之间的相似度数值,以及,对应所述第一文档矩阵中的每个词向量,对所述相似度数值进行归一化,将归一化后的相似度数值作为第二词共现特征,拼接到所述第一文档矩阵中的相应词向量的尾部。6.根据权利要求2所述的方法,其特征在于,所述对所述处理后的第一文档矩阵和所述第一问题矩阵分别进行编码,分别得到第二文档矩阵和第二问题矩阵,包括:以所述处理后的第一文档矩阵作为预设的第一GRU网络的输入,采用所述第一GRU网络对所述处理后的第一文档矩阵进行处理,将所述第一GRU网络的输出层输出确定为第二文档矩阵;以及,根据所述第一问题矩阵确定输入问题矩阵,将所述输入问题矩阵作为预设的第二GRU网络的输入,采用所述第二GRU网络对所述输入问题矩阵进行处理,将所述第二GRU网络的输出层输出确定为第二问题矩阵。7.根据权利要求6所述的方法,其特征在于,所述根据所述第一问题矩阵确定输入问题矩阵,包括:如果所述第一GRU网络与所述第二GRU网络不同,则将所述第一问题矩阵确定为输入问题矩阵;或者,如果所述第一GRU网络与所述第二GRU网络相同,则对应所述第一问题矩阵中的每个词向量,在每个词向量的尾部拼接预设特征,得到拼接后的问题矩阵,并对所述拼接后的问题矩阵确定为输入问题矩阵,其中,所述预设特征的个数与所述词共现特征的个数相同。8.根据权利要求2所述的方法,其特征在于,所述基于注意力...

【专利技术属性】
技术研发人员:杨雪峰徐爽巨颖孙宁远
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1