基于联合训练的文本摘要抽取方法及相应装置制造方法及图纸

技术编号：36545841 阅读：15 留言：0更新日期：2023-02-04 16:57

本申请提供一种基于联合训练的文本摘要抽取方法及相应装置，用于改善抽取出的摘要文本的语义正确性不够的问题。该方法包括：获取待处理文本，并对待处理文本进行分句，获得多个待处理语句；使用摘要抽取模型中的向量抽取层对多个待处理语句进行向量化表示，获得多个待处理语句对应的词向量和句向量；使用摘要抽取模型中的特征提取层对多个待处理语句对应的词向量和句向量进行特征提取，获得核心特征向量和相似特征向量；使用摘要抽取模型中的语句抽取层根据核心特征向量和相似特征向量对多个待处理语句进行抽取，获得待处理文本对应的摘要文本。的摘要文本。的摘要文本。

全部详细技术资料下载

【技术实现步骤摘要】
基于联合训练的文本摘要抽取方法及相应装置

[0001]本申请涉及自然语言处理的
，具体而言，涉及一种基于联合训练的文本摘要抽取方法及相应装置。

技术介绍

[0002]摘要抽取，是指将冗长的文本压缩为较短的文本，并保证压缩后的文本不丢失压缩前的文本的主要信息，以提高用户的阅读效率和体验。
[0003]目前，现有的摘要语句抽取技术大都是将摘要抽取任务当作序列标注任务来进行的，即从长文本中选择合适的语句加入短文本的集合，并将短文本的集合作为摘要抽取的结果。然而在具体的实践过程中发现，使用现有的摘要语句抽取技术抽取出的摘要文本中存在很多语义问题，这些语义问题例如：摘要文本中存在一些不重要的摘要语句，或者，摘要文本中的语句虽然都是重要语句，但是存在两个或两个以上语义重复的语句等等，所以，使用现有的摘要语句抽取技术抽取出的摘要文本的语义正确性不够。

技术实现思路

[0004]本申请实施例的目的在于提供一种基于联合训练的文本摘要抽取方法及相应装置，用于改善抽取出的摘要文本的语义正确性不够的问题。
[0005]本申请实施例提供了一种基于联合训练的文本摘要抽取方法，包括：获取待处理文本，并对待处理文本进行分句，获得多个待处理语句；使用摘要抽取模型中的向量抽取层对多个待处理语句进行向量化表示，获得多个待处理语句对应的词向量和句向量，摘要抽取模型是通过重要程度的句子识别任务和相似程度的句子匹配任务的联合训练获得的；使用摘要抽取模型中的特征提取层对多个待处理语句对应的词向量和句向量进行特征提取，获得核心...

【技术保护点】

【技术特征摘要】
1.一种基于联合训练的文本摘要抽取方法，其特征在于，包括：获取待处理文本，并对所述待处理文本进行分句，获得多个待处理语句；使用摘要抽取模型中的向量抽取层对所述多个待处理语句进行向量化表示，获得多个待处理语句对应的词向量和句向量，所述摘要抽取模型是通过重要程度的句子识别任务和相似程度的句子匹配任务的联合训练获得的；使用所述摘要抽取模型中的特征提取层对所述多个待处理语句对应的词向量和句向量进行特征提取，获得核心特征向量和相似特征向量，所述核心特征向量表示所述待处理语句的重要程度，所述相似特征向量表示所述多个待处理语句之间的相似程度；使用所述摘要抽取模型中的语句抽取层根据所述核心特征向量和所述相似特征向量对所述多个待处理语句进行抽取，获得所述待处理文本对应的摘要文本。2.根据权利要求1所述的方法，其特征在于，所述对所述多个待处理语句进行向量化表示，包括：对所述多个待处理语句中的每个待处理语句进行分词和向量化，获得所述每个待处理语句对应的多个词向量；将所述每个待处理语句对应的多个词向量中的预设词向量确定为所述每个待处理语句的句向量。3.根据权利要求1所述的方法，其特征在于，所述使用所述摘要抽取模型中的特征提取层对所述多个待处理语句对应的词向量和句向量进行特征提取，获得核心特征向量和相似特征向量，包括：对所述多个待处理语句中的每个待处理语句对应的词向量和句向量进行特征提取，获得所述每个待处理语句的核心特征向量；计算所述多个待处理语句中的每个待处理语句与所述多个待处理语句中的所有待处理语句之间的相似度，获得所述每个待处理语句的相似特征向量。4.根据权利要求1所述的方法，其特征在于，所述语句抽取层包括：Transformer层和全连接层；所述根据所述核心特征向量和所述相似特征向量对所述多个待处理语句进行抽取，包括：使用所述Transformer层对所述核心特征向量和所述相似特征向量进行注意力计算，获得注意力特征向量，并使用所述全连接层根据所述注意力特征向量对所述多个待处理语句进行抽取；或者，使用所述Transformer层对所述核心特征向量进行注意力计算，获得注意力特征向量，并使用所述全连接层根据所述注意力特征向量和所述相似特征向量对所述多个待处理语句进行抽取。5.根据权利要求1
‑
4任一所述的方法，其特征在于，在所述使用摘要抽取模型中的向量抽取层对所述多个待处理语句进行向量化表示之前，还包括：获取多个样本文本、多个核心摘要标签和多个相似度标签，所述核心摘要标签表征所述样本文本对应的每个样本语句在所述样本文本对应的摘要文本中的重要程度，所述相似度标签表征所述样本文本中的每个样本语句与所述样本文本中的所有样本语句的相似程度；
使用所述多个样本文本、所述多个核心摘要标签和所述多个相似度标签对摘要抽取网络进行多任务联合训练，获得所述摘要抽取模型。6.根据权利要求5所述的方法，其特征在于，所述使用所述多个样本文本、所述多个核心摘要标签和所述多个相似度标签对摘要抽取网络进行多任务联合训练，包括：使用所述摘要抽取网络中的向量抽取层对所述样本文本对应的多个样本...

【专利技术属性】
技术研发人员：李健铨，刘小康，李德彦，
申请(专利权)人：鼎富智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人