文本处理方法及相关设备技术

技术编号:24091428 阅读:31 留言:0更新日期:2020-05-09 08:15
本申请实施例公开了一种文本处理方法及相关设备,该方法包括:基于第一词袋模型从待回答问句文本中,提取待回答问句文本对应的问句向量,并基于第一词嵌入矩阵,将待回答问句文本对应的问句向量转换为预设维度的向量,以得到待回答问句文本的特征数据;基于第二词袋模型分别从多个备选答案文本中,提取多个备选答案文本各自对应的答案向量,并基于第二词嵌入矩阵,分别将多个备选答案文本各自对应的答案向量转换为预设维度的向量,以得到多个备选答案文本各自对应的特征数据;根据待回答问句文本的特征数据与多个备选答案文本各自对应的特征数据的相似度,确定目标答案文本。采用本申请实施例,能够获得较为灵活的答案查找方式。

Text processing method and related equipment

【技术实现步骤摘要】
文本处理方法及相关设备
本申请涉及自动问答
,尤其涉及一种文本处理方法及相关设备。
技术介绍
在当今信息爆炸的社会,利用问答系统精确地向用户推送需要的信息已经成为一种比较普遍的方式。为了能够向用户推送更加丰富、准确的信息,通常会利用知识图谱的查询和推理来实现。如果知识图谱构建的涵盖范围越广,知识量越大,就越能给出更加丰富、准确的信息。现有技术在问答系统中对知识图谱的应用基本是作为知识库查询然后给出答案,这就很依赖于查询时用到的语言实体或者关系的准确性,需要完全一致的语言实体名称或者关系名称才可以查询到答案。所以最终能否向用户推送想要的答案很依赖于语言实体与关系抽取的精度,这样的方式并不灵活。
技术实现思路
本申请实施例公开了一种文本处理方法及相关设备,能够获得较为灵活的答案查找方式。第一方面,本申请实施例提供了一种文本处理方法,该方法包括:基于第一词袋模型从待回答问句文本中,提取所述待回答问句文本对应的问句向量,并基于第一词嵌入矩阵,将所述待回答问句文本对应的问句向量转换为预设维度的向量,以得到所述待回本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n基于第一词袋模型从待回答问句文本中,提取所述待回答问句文本对应的问句向量,并基于第一词嵌入矩阵,将所述待回答问句文本对应的问句向量转换为预设维度的向量,以得到所述待回答问句文本的特征数据;/n基于第二词袋模型分别从多个备选答案文本中,提取所述多个备选答案文本各自对应的答案向量,并基于第二词嵌入矩阵,分别将所述多个备选答案文本各自对应的答案向量转换为所述预设维度的向量,以得到所述多个备选答案文本各自对应的特征数据;/n根据所述待回答问句文本的特征数据与所述多个备选答案文本各自对应的特征数据的相似度,确定目标答案文本。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
基于第一词袋模型从待回答问句文本中,提取所述待回答问句文本对应的问句向量,并基于第一词嵌入矩阵,将所述待回答问句文本对应的问句向量转换为预设维度的向量,以得到所述待回答问句文本的特征数据;
基于第二词袋模型分别从多个备选答案文本中,提取所述多个备选答案文本各自对应的答案向量,并基于第二词嵌入矩阵,分别将所述多个备选答案文本各自对应的答案向量转换为所述预设维度的向量,以得到所述多个备选答案文本各自对应的特征数据;
根据所述待回答问句文本的特征数据与所述多个备选答案文本各自对应的特征数据的相似度,确定目标答案文本。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
迭代执行答案推荐模型的训练流程,直至所述答案推荐模型的训练效果满足预设条件,训练效果满足所述预设条件时的所述答案推荐模型包括所述第一词袋模型、所述第二词袋模型、所述第一词嵌入矩阵和所述第二词嵌入矩阵;
其中,所述答案推荐模型的训练流程包括:
根据所述答案推荐模型对应的损失调整所述第一词嵌入矩阵和所述第二词嵌入矩阵;
通过所述第一词袋模型、所述第二词袋模型以及调整后的所述第一词嵌入矩阵和所述第二词嵌入矩阵从预先选取得到的多个训练文本对中,提取所述多个训练文本对各自对应的特征数据对,以得到多个特征数据对,其中,一个所述训练文本对包括一个问句文本和一个答案文本,所述答案文本为正确文本答案或错误文本答案,一个所述特征数据对包括从目标训练文本对中的问句文本提取的特征数据和所述目标训练文本对中的答案文本提取的特征数据,所述目标训练文本对为所述多个训练文本对中的任一训练文本对;
根据多个第一特征数据对的相似度和多个第二特征数据对的相似度,确定所述答案推荐模型对应的损失,其中,所述第一特征数据对为所述多个训练文本对中的第一训练文本对对应的特征数据对,所述第一训练文本对包括一个问句文本和一个正确文本答案,所述第二特征数据对为所述多个训练文本对中的第二训练文本对对应的特征数据对,所述第二训练文本对包括一个问句文本和一个错误文本答案。


3.根据权利要求2所述的方法,其特征在于,所述预设条件为:
所述答案推荐模型对应的损失小于预设损失,或者,所述答案推荐模型的迭代训练次数大于预设次数。


4.根据权利要求2所述的方法,其特征在于,所述多个训练文本对为根据多个问句文本和多个答案文本确定的;所述迭代执行答案推荐模型的训练流程之前,还包括:
将知识图谱中的多个语言实体分别带入各自对应的问句文本模板中,以得到所述多个问句文本,其中,所述语言实体的类型和所述问句文本模板的问句类型具有对应关系;
从所述知识图谱中确定所述多个问句文本各自对应的正确答案文本,以得到所述多个答案文本。


5.根据权利要求4所述的方法,其特征在于,所述多个第一训...

【专利技术属性】
技术研发人员:王文
申请(专利权)人:深圳数联天下智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1