一种文本处理方法和装置、电子设备及存储介质制造方法及图纸

技术编号：36742323 阅读：10 留言：0更新日期：2023-03-04 10:21

本申请实施例提供了一种文本处理方法和装置、电子设备及存储介质，属于人工智能技术领域。该方法包括：获取对话文本；通过第一字段分离符进行文本拼接得到第一候选文本；根据上下文关系对第一候选文本进行文本编码得到第一素材文本；根据上下文关系对参考文本进行文本编码得到第二素材文本；通过第二字段分离符将第一素材文本与第二素材文本进行文本拼接得到第三素材文本，根据第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置；根据开始位置以及结束位置，提取并输出目标文本为目标问题的答案。本申请实施例能够从一个更加的平滑的目标函数开始拟合，避免陷入局部最低点，更好的寻找全局最优点，预测结果更为准确。预测结果更为准确。预测结果更为准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理方法和装置、电子设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及一种文本处理方法和装置、电子设备及存储介质。

技术介绍

[0002]对话型阅读理解又叫多轮问答阅读理解，模型需要根据当前的问题从参考文本中找到对应的答案输出，但跟一般的单轮阅读理解模型不同，大多数问题都是基于对话语境提出，即想要准确地理解当前问题的语义需要结合对话的上下文。
[0003]现有的方案往往是指代消解模型和阅读理解模型的组合，即首先会把当前的问题与历史的问答内容拼接，让模型显性地补全当前问题的语义，然后再把得到的补全的问题与参考文本拼接输入阅读理解模型进行答案生成。但是现有方案需要显性的指代消解的数据标注才可以进行训练，同时容易引起误差传播，导致预测结果不够准确。

技术实现思路

[0004]本申请实施例的主要目的在于提出一种不需要指代消解数据标注的指代消解，且准确率更高的文本处理方法和装置、电子设备及存储介质，旨在多轮问答阅读理解的场景中提高阅读理解模型输出的准确性。
[0005]为实现上述目的，本申请实施例的第一方面提出了一种文本处理方法，所述方法包括：
[0006]获取对话文本，所述对话文本包括当前问题、历史问答以及关键词；
[0007]将所述当前问题、所述历史问答以及所述关键词，通过第一字段分离符进行文本拼接得到第一候选文本；
[0008]根据上下文关系对所述第一候选文本进行文本编码得到第一素材文本；
[0009]获取参考文本，根据上下文关系对所述...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法包括：获取对话文本，所述对话文本包括当前问题、历史问答以及关键词；将所述当前问题、所述历史问答以及所述关键词，通过第一字段分离符进行文本拼接得到第一候选文本；根据上下文关系对所述第一候选文本进行文本编码得到第一素材文本；获取参考文本，根据上下文关系对所述参考文本进行文本编码得到第二素材文本，所述参考文本包括目标问题；通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本，根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置；所述目标文本为所述目标问题的答案内容；根据所述开始位置以及所述结束位置，提取并输出所述目标文本。2.根据权利要求1所述的文本处理方法，其特征在于，所述通过第二字段分离符将所述第一素材文本与所述第二素材文本进行文本拼接得到第三素材文本，根据所述第三素材文本进行关键词预测确定目标文本的开始位置以及目标文本的结束位置，包括：将所述第三素材文本输入至训练完成后的目标问答模型，确定所述目标文本的开始位置以及所述目标文本的结束位置；所述目标问答模型的训练过程，包括以下步骤：将训练文本素材进行切分得到若干训练数据集；将若干个所述训练数据集输入至若干个待训练的候选问答模型，根据模型输出结果以及预设评价指标确定难度得分；根据所述难度得分对所述训练数据集进行难易程度排序，得到训练集序列，通过所述训练集序列训练得到所述目标问答模型。3.根据权利要求1所述的文本处理方法，其特征在于，所述获取对话文本，包括：获取文本字典，根据所述文本字典对所述对话文本进行正则匹配，得到若干文本语句；根据若干所述文本语句构建有向无环图，遍历所述有向无环图中每个节点的路径，根据所述路径确定得到所述关键词，并确定所述关键词的词性。4.根据权利要求2所述的文本处理方法，其特征在于，所述目标问答模型的训练过程，还包括以下步骤：获取所述训练文本素材中原始答案的第一起始词语以及第一结束词语；获取目标问答模型预测得到所述目标文本的第二起始词语以及第二结束词语；根据所述第一起始词语与第二起始词语通过交叉熵损失函数计算得到第一损失值，和/或，根据所述第一结束词语与第二结束词语通过交叉熵损失函数计算得到第二损失值；根据所述第一损失值和/或第二损失值对所述目标问答模型进行参数调优。5.根据权利要求2所述的文本处理方法，其特征在于，所述目标问答模型包括编码器和分类器；所述通过第二字段分离符将所述第一素材文本与所述...

【专利技术属性】
技术研发人员：张镛，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人