一种基于预训练语言模型的信息记录数据分块方法技术

技术编号：40795301 阅读：4 留言：0更新日期：2024-03-28 19:23

本发明专利技术提供了一种基于预训练语言模型的信息记录数据分块方法，属于电数字数据处理技术领域，包括获取预训练数据集，并进行划分；基于XLnet模型，构建初始预训练语言模型；将划分好的预训练数据集输入到初始预训练语言模型，进行第一次训练；获取信息记录数据集，并对其进行预处理，得到标注数据集；将标注数据集输入到第一次训练得到的模型中，并利用优化器和损失函数对模型的参数进行更新，得到完备的预训练语言模型；将分块的信息记录数据输入到完备的预训练语言模型中进行分块，完备的预训练语言模型自动预测文本块的边界，最终实现不同语义文本块的划分。本方法能够实现将长文本或者超长文本划分为若干个不同语义文本块的功能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电数字数据处理，尤其涉及一种基于预训练语言模型的信息记录数据分块方法。

技术介绍

1、在如今现有的工作模式下，企业人员之间通常利用电子文件或会议记录的方式进行信息交流和分享。

2、常用的电子文件格式为pdf，但是pdf格式不便于我们对文本内容进行编辑，当我们把pdf格式转为可编辑格式后，文本内容是连在一起的，没有段落结构，降低了文本的可读性，影响用户信息获取效率。

3、而会议记录通常是在线会议的音频数据通过语音转文字后得到的文本数据，它是缺乏段落结构化信息的文字记录，降低了文本的可读性，影响用户信息获取效率。

4、电子文件和会议记录的文本通常较长，靠人工进行分割，难度很大，所以需要利用文本分割技术来处理这些文本，将它们分割为若干有意义的文本块，形成段落式结构。文本分割的研究大部分属于线性分割的范畴，即试图识别片段边界，并不关心其内在结构。但对于篇章的分析与理解来说，无疑层次结构更为合适，这就需要对文本实施层次分割。

5、近年来，一些研究者提出了许多基于神经网络的文本分割算法。比如，国外学者提出了基于语言表示模型（bidirectional encoder representations from transformers，bert）的文本分割方法，然而文档分割是一个强依赖长文本篇章信息的任务，但是语言表示模型中预先训练的最大位置嵌入通常为512，算上开头和结尾的[cls]、[sep]标记，实际的长度要小于512个字符，因此对于长度超过512个字符的文本来说语言表示模型容易面临模型性能的阻碍。

技术实现思路

1、针对上述现有技术中存在的问题，本专利技术提供了一种基于预训练语言模型的信息记录数据分块方法，本专利技术要解决的技术问题是提供一种能够将长文本或超长文本划分为若干个不同语义的文本块的信息记录数据分块方法。

2、为解决上述技术问题，本专利技术提供了一种基于预训练语言模型的信息记录数据分块方法，包括以下步骤：

3、步骤s1：获取预训练数据集，并进行划分；

4、步骤s2：基于xlnet模型构建初始预训练语言模型，xlnet模型包括排列语言模型、双流注意力机制以及transformer-xl模型，作为初始预训练语言模型；

5、步骤s3：将划分好的预训练数据集输入到初始预训练语言模型，进行第一次训练；

6、步骤s4：获取信息记录数据集，并对其进行预处理，得到标注数据集；

7、步骤s5：将标注数据集输入到第一次训练得到的模型中，进行第二次训练；第二次训练利用掩码语言模型损失项、预测单词匹配损失项和分布概率损失项，构建损失函数，用来计算预测结果与真实标签之间的差距，并利用优化器和损失函数对第一次训练得到的模型的参数进行更新，得到完备的预训练语言模型；

8、步骤s6：将分块的信息记录数据输入到完备的预训练语言模型中进行分块，完备的预训练语言模型自动预测文本块的边界，最终实现不同语义文本块的划分。

9、进一步的，所述步骤s4中，预处理包括以下步骤：

10、步骤h1：先对信息记录数据集进行数据标注；

11、步骤h2：对步骤h1标注后的数据进行数据增广，然后对增广后的数据进行切分，得到第二次模型训练需要的标注数据集。

12、进一步的，所述步骤h1中，数据标注的具体做法为：以句子为单位，为每个句子打标签，如果前后两句隶属于不同的语义块将其标记为“1”，如果前后两句隶属于同一个语义块标签为“0”。

13、进一步的，所述步骤h2中，数据增广采用同义词替换、随机插入、随机交换和随机删除的方法对步骤h1标注后的数据进行增广，然后对增广后的数据按设定比例切分成训练集、验证集和测试集，实现对标注数据集的补充；同义词替换是随机选择句子中的非停用词，并随机选择该非停用词的一个同义词将其替换；随机插入是在句子中随机选择一个非停用词，然后随机插入一个词或短语，重复此过程能够增广数据；随机交换是随机选择句子中的两个词或短语并交换它们的位置，重复此过程能够增广数据；随机删除方法是以设定的概率随机删除句子中的每个词，重复此过程能够增广数据。

14、进一步的，所述步骤s2中，排列语言模型能够在只考虑上文的情况下实现双向编码，捕捉上下文依赖关系，实现在上文中出现下文单词；引入双流注意力机制，在预测时能够实现文本块的位置信息的获取；融合transformer-xl模型，能够实现长文本和超长文本的处理。

15、进一步的，所述步骤s5中，掩码语言模型损失项的计算公式如下：

16、

17、其中，为xlnet模型中encoder部分的参数；为mask-lm任务中在 encoder 上所接的输出层中的参数；m为掩码的词集合；m为掩码的词集合的子集；mi为每个预测位置的索引的符号；i为预测位置的编号； |v|为词汇表的大小，表示模型的输出空间；为给定xlnet模型参数和的条件下，xlnet模型对第 i个位置上词的预测的概率；掩码语言模型损失项用于衡量xlnet模型的预测与真实值之间的差异，表示xlnet模型在给定输入序列的条件下，对被掩码位置的词进行预测，并通过计算交叉熵损失来衡量模型预测的准确性；

18、进一步的，预测单词匹配损失项用于判断下一个单词是否与目标序列中的单词匹配，预测单词匹配损失项的计算公式如下：

19、

20、其中，为句子预测任务中在 encoder 接上的分类器参数；n为句子对的总数；n为每个句子对预测位置的索引的符号；为第j个句子对预测的标签； isnext表示两个句子是相邻的；notnext表示两个句子不相邻；

21、进一步的，分布概率损失项的计算公式如下：

22、

23、在上式中，是预测值；是真实值；k是样本的编号， h为样本数量；分布概率损失项计算的是预训练语言模型生成分布与真实分布之间的差距。

24、进一步的，所述步骤s3中，将划分好的预训练数据集输入初始预训练语言模型，并结合优化器对初始预训练语言模型进行第一次训练；然后结合损失函数执行前向计算，获取初始预训练语言模型总损失；利用总损失和优化器执行反向传播，求取模型参数的梯度值，再利用梯度值对初始预训练语言模型的权重参数进行更新；

25、所述步骤s5中，第二次训练是对标注数据集中的一部分采用同义词替换、随机插入、随机交换、随机删除的方法进行数据增广，剩余部分则不进行处理，然后结合损失函数执行前向计算，获取更新后的模型的总损失；利用总损失和优化器执行反向传播，求取更新后的模型参数的梯度值，再利用梯度值对第一次训练得到的模型的权重参数进行更新，以减小损失函数的值，最终得到完备的预训练语言模型；

26、所述步骤s3和s5中，前向计算包括掩码语言模型损失项、预测单词匹配损失项和分布概率损失项的计算，联合三个损失项，获得总损失计算公式：

27、...

【技术保护点】

1.一种基于预训练语言模型的信息记录数据分块方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤S4中，预处理包括以下步骤：

3.根据权利要求2所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤H1中，数据标注的具体做法为：以句子为单位，为每个句子打标签，如果前后两句隶属于不同的语义块将其标记为“1”，如果前后两句隶属于同一个语义块标签为“0”。

4.根据权利要求3所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤H2中，数据增广采用同义词替换、随机插入、随机交换和随机删除的方法对步骤H1标注后的数据进行增广；然后对增广后的数据按设定比例切分成训练集、验证集和测试集；同义词替换是随机选择句子中的非停用词，并随机选择该非停用词的一个同义词将其替换；随机插入是在句子中随机选择一个非停用词，然后随机插入一个词或短语，重复此过程进行数据增广；随机交换是随机选择句子中的两个词或短语并交换它们的位置，重复此过程进行数据增广；随机删除方法是以设定的概率随机

5.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤S2中，排列语言模型在只考虑上文的情况下实现双向编码，捕捉上下文依赖关系，实现在上文中出现下文单词；引入双流注意力机制，在预测时进行文本块的位置信息的获取；融合Transformer-XL模型，能够实现长文本和超长文本的处理。

6.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤S5中，掩码语言模型损失项的计算公式如下：

7.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤S5中，预测单词匹配损失项用于判断下一个单词是否与目标序列中的单词匹配，预测单词匹配损失项的计算公式如下：

8.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤S5中，分布概率损失项的计算公式如下：

9.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤S3中，将划分好的预训练数据集输入初始预训练语言模型，并结合优化器对初始预训练语言模型进行第一次训练；然后结合损失函数执行前向计算，获取初始预训练语言模型总损失；利用总损失和优化器执行反向传播，求取模型参数的梯度值，再利用梯度值对初始预训练语言模型的权重参数进行更新。

10.根据权利要求9所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤S5中，第二次训练是对标注数据集中的一部分采用同义词替换、随机插入、随机交换、随机删除的方法进行数据增广，剩余部分则不进行处理，然后结合损失函数执行前向计算，获取更新后的模型的总损失；利用总损失和优化器执行反向传播，求取更新后的模型参数的梯度值，再利用梯度值对第一次训练得到的模型的权重参数进行更新，以减小损失函数的值，最终得到完备的预训练语言模型；

...

【技术特征摘要】

1.一种基于预训练语言模型的信息记录数据分块方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤s4中，预处理包括以下步骤：

3.根据权利要求2所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤h1中，数据标注的具体做法为：以句子为单位，为每个句子打标签，如果前后两句隶属于不同的语义块将其标记为“1”，如果前后两句隶属于同一个语义块标签为“0”。

4.根据权利要求3所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤h2中，数据增广采用同义词替换、随机插入、随机交换和随机删除的方法对步骤h1标注后的数据进行增广；然后对增广后的数据按设定比例切分成训练集、验证集和测试集；同义词替换是随机选择句子中的非停用词，并随机选择该非停用词的一个同义词将其替换；随机插入是在句子中随机选择一个非停用词，然后随机插入一个词或短语，重复此过程进行数据增广；随机交换是随机选择句子中的两个词或短语并交换它们的位置，重复此过程进行数据增广；随机删除方法是以设定的概率随机删除句子中的一个词，重复此过程进行数据增广。

5.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法，其特征在于，所述步骤s2中，排列语言模型在只考虑上文的情况下实现双向编码，捕捉上下文依赖关系，实现在上文中出现下文单词；引入双流注意力机制，在预测时进行文本块的位置信息的获取；融合transformer-xl模型，能够...

【专利技术属性】
技术研发人员：程梦丽，徐玉莲，于鹏飞，陆静波，
申请(专利权)人：数字苏州建设有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人