一种文本处理方法和装置、电子设备及存储介质制造方法及图纸

技术编号:36742323 阅读:10 留言:0更新日期:2023-03-04 10:21
本申请实施例提供了一种文本处理方法和装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取对话文本;通过第一字段分离符进行文本拼接得到第一候选文本;根据上下文关系对第一候选文本进行文本编码得到第一素材文本;根据上下文关系对参考文本进行文本编码得到第二素材文本;通过第二字段分离符将第一素材文本与第二素材文本进行文本拼接得到第三素材文本,根据第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置;根据开始位置以及结束位置,提取并输出目标文本为目标问题的答案。本申请实施例能够从一个更加的平滑的目标函数开始拟合,避免陷入局部最低点,更好的寻找全局最优点,预测结果更为准确。预测结果更为准确。预测结果更为准确。

【技术实现步骤摘要】
一种文本处理方法和装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种文本处理方法和装置、电子设备及存储介质。

技术介绍

[0002]对话型阅读理解又叫多轮问答阅读理解,模型需要根据当前的问题从参考文本中找到对应的答案输出,但跟一般的单轮阅读理解模型不同,大多数问题都是基于对话语境提出,即想要准确地理解当前问题的语义需要结合对话的上下文。
[0003]现有的方案往往是指代消解模型和阅读理解模型的组合,即首先会把当前的问题与历史的问答内容拼接,让模型显性地补全当前问题的语义,然后再把得到的补全的问题与参考文本拼接输入阅读理解模型进行答案生成。但是现有方案需要显性的指代消解的数据标注才可以进行训练,同时容易引起误差传播,导致预测结果不够准确。

技术实现思路

[0004]本申请实施例的主要目的在于提出一种不需要指代消解数据标注的指代消解,且准确率更高的文本处理方法和装置、电子设备及存储介质,旨在多轮问答阅读理解的场景中提高阅读理解模型输出的准确性。
[0005]为实现上述目的,本申请实施例的第一方面提出了一种文本处理方法,所述方法包括:
[0006]获取对话文本,所述对话文本包括当前问题、历史问答以及关键词;
[0007]将所述当前问题、所述历史问答以及所述关键词,通过第一字段分离符进行文本拼接得到第一候选文本;
[0008]根据上下文关系对所述第一候选文本进行文本编码得到第一素材文本;
[0009]获取参考文本,根据上下文关系对所述参考文本进行文本编码得到第二素材文本,所述参考文本包括目标问题;
[0010]通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本,根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置;所述目标文本为所述目标问题的答案内容;
[0011]根据所述开始位置以及所述结束位置,提取并输出所述目标文本。
[0012]在一些可行的实施例中,所述通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本,根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置,包括:
[0013]将所述第三素材文本输入至训练完成后的目标问答模型,输出得到所述目标文本的开始位置以及所述目标文本的结束位置;
[0014]所述目标问答模型的训练过程,包括以下步骤:
[0015]将训练文本素材进行切分得到若干训练数据集;
[0016]将若干个所述训练数据集输入至若干个待训练的候选问答模型,根据模型输出结果以及预设评价指标确定难度得分;
[0017]根据所述难度得分对所述训练数据集进行难易程度排序,得到训练集序列,通过所述训练集序列训练得到所述目标问答模型。
[0018]在一些可行的实施例中,所述获取对话文本,包括:
[0019]获取文本字典,根据所述文本字典对所述对话文本进行正则匹配,得到若干文本语句;
[0020]根据若干所述文本语句构建有向无环图,遍历所述有向无环图中每个节点的路径,根据所述路径确定得到所述关键词,并确定所述关键词的词性。
[0021]在一些可行的实施例中,所述目标问答模型的训练过程,还包括以下步骤:
[0022]获取训练文本素材中原始答案的第一起始词语以及第一结束词语;
[0023]获取目标问答模型预测得到所述目标文本的第二起始词语以及第二结束词语;
[0024]根据所述第一起始词语与第二起始词语通过交叉熵损失函数计算得到第一损失值,和/或,根据所述第一结束词语与第二结束词语通过交叉熵损失函数计算得到第二损失值;
[0025]根据所述第一损失值和/或第二损失值对所述目标问答模型进行参数调优。
[0026]在一些可行的实施例中,所述目标问答模型包括编码器和分类器;所述通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本,根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置,包括:
[0027]对所述第三素材文本进行分词,得到候选词,通过所述编码器将所述候选词转换为固定维度的词向量;
[0028]通过所述编码器,对所述第三素材文本中所包含的拼接语句进行向量化表示得到语句向量;
[0029]通过所述编码器,获取所述第三素材文本中所述候选词之间的位置关系;
[0030]根据所述词向量、所述语句向量以及所述位置关系,通过所述分类器输出所述候选词属于开始位置的概率或者属于结束位置的概率。
[0031]在一些可行的实施例中,所述获取对话文本,还包括:
[0032]确定所述对话文本存在所述文本字典的未登录词;
[0033]将所述未登录词输入至隐马尔科夫模型,通过所述隐马尔科夫模型输出得到起始概率、发射概率和转移概率;
[0034]根据所述起始概率、所述发射概率以及所述转移概率确定所述未登录词的词性。
[0035]在一些可行的实施例中,所述对所述第三素材文本进行分词,得到候选词,通过所述编码器将所述候选词转换为固定维度的词向量,包括:
[0036]将所述词向量进行组合得到词向量序列,在所述词向量序列的起始位置插入第一标识符;所述第一标识符用于聚集所述词向量序列中词向量的表征信息。
[0037]为实现上述目的,本申请实施例的第二方面提出了一种文本处理装置,所述装置包括:
[0038]素材获取单元,用于获取对话文本,所述对话文本包括当前问题、历史问答以及关
键词;
[0039]文本处理单元,用于将所述当前问题、所述历史问答以及所述关键词,通过第一字段分离符进行文本拼接得到第一候选文本;
[0040]第一编码单元,用于根据上下文关系对所述第一候选文本进行文本编码得到第一素材文本;
[0041]第二编码单元,用于获取参考文本,根据上下文关系对所述参考文本进行文本编码得到第二素材文本,所述参考文本包括目标问题;
[0042]第三编码单元,用于通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本,根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置;所述目标文本为所述目标问题的答案内容;
[0043]答案输出单元,用于根据所述开始位置以及所述结束位置,提取并输出所述目标文本。
[0044]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
[0045]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
[0046]本申请提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取对话文本,所述对话文本包括当前问题、历史问答以及关键词;将所述当前问题、所述历史问答以及所述关键词,通过第一字段分离符进行文本拼接得到第一候选文本;根据上下文关系对所述第一候选文本进行文本编码得到第一素材文本;获取参考文本,根据上下文关系对所述参考文本进行文本编码得到第二素材文本,所述参考文本包括目标问题;通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本,根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置;所述目标文本为所述目标问题的答案内容;根据所述开始位置以及所述结束位置,提取并输出所述目标文本。2.根据权利要求1所述的文本处理方法,其特征在于,所述通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本,根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置,包括:将所述第三素材文本输入至训练完成后的目标问答模型,确定所述目标文本的开始位置以及所述目标文本的结束位置;所述目标问答模型的训练过程,包括以下步骤:将训练文本素材进行切分得到若干训练数据集;将若干个所述训练数据集输入至若干个待训练的候选问答模型,根据模型输出结果以及预设评价指标确定难度得分;根据所述难度得分对所述训练数据集进行难易程度排序,得到训练集序列,通过所述训练集序列训练得到所述目标问答模型。3.根据权利要求1所述的文本处理方法,其特征在于,所述获取对话文本,包括:获取文本字典,根据所述文本字典对所述对话文本进行正则匹配,得到若干文本语句;根据若干所述文本语句构建有向无环图,遍历所述有向无环图中每个节点的路径,根据所述路径确定得到所述关键词,并确定所述关键词的词性。4.根据权利要求2所述的文本处理方法,其特征在于,所述目标问答模型的训练过程,还包括以下步骤:获取所述训练文本素材中原始答案的第一起始词语以及第一结束词语;获取目标问答模型预测得到所述目标文本的第二起始词语以及第二结束词语;根据所述第一起始词语与第二起始词语通过交叉熵损失函数计算得到第一损失值,和/或,根据所述第一结束词语与第二结束词语通过交叉熵损失函数计算得到第二损失值;根据所述第一损失值和/或第二损失值对所述目标问答模型进行参数调优。5.根据权利要求2所述的文本处理方法,其特征在于,所述目标问答模型包括编码器和分类器;所述通过第二字段分离符将所述第一素材文本与所述...

【专利技术属性】
技术研发人员:张镛王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1