文本数据处理系统及方法技术方案

技术编号:36782061 阅读:28 留言:0更新日期:2023-03-08 22:18
本发明专利技术提供了一种文本数据处理系统及方法,包括:文本分层模块、分层采样模块和数据划分模块;文本分层模块用于根据原文本之间的相似度对原文本进行分层,得到标准模板文本二元组集和基础模板文本三元组集;分层采样模块用于根据基础模板文本三元组集对标准模板文本二元组集进行采样,得到采样文本组集;数据划分模块用于将采样文本组集划分为训练集和验证集。本发明专利技术可以提高数据集中样本分布的均衡性。性。性。

【技术实现步骤摘要】
文本数据处理系统及方法


[0001]本专利技术涉及数据处理
,尤其是涉及一种文本数据处理系统及方法。

技术介绍

[0002]在金融风控领域中,经常会涉及大量多类别分类任务,且涉及的未标注文本往往是百万级以上,将这些海量文本去重后完成一次性人工打标工作量处理几乎是不现实的处理方式。基于此,传统处理方法则是先通过采样得到采样文本,再将采样文本划分为训练集/验证集/测试集等。通常采用的采样方法分为:随机采样和聚类分层采样。然而,两种采样方式得到的采样数据均存在分布不均衡的问题,无法满足全部类别文本的采样训练要求;其次,在深度学习领域,数据集划分中,通用的做法一般都是按比例随机划分训练集/验证集/测试集,由于随机性误差,这种划分方式不易兼顾样本的分布以及重点类别的关注度,且训练出的神经网络模型其预测类别的精度存在一定的随机性,尤其是对于一些样本较少的类别其预测准确性往往难以保证。综上所述,现有的数据集划分方法中,存在样本分布不均衡的问题,从而影响模型训练的准确性。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种文本数据处理系统及方法,以提高了数据集中样本分布的均衡性。
[0004]为了实现上述目的,本专利技术实施例采用的技术方案如下:
[0005]第一方面,本专利技术实施例提供了一种文本数据处理系统,包括:文本分层模块、分层采样模块和数据划分模块;文本分层模块用于根据原文本之间的相似度对原文本进行分层,得到标准模板文本二元组集和基础模板文本三元组集;分层采样模块用于根据基础模板文本三元组集对标准模板文本二元组集进行采样,得到采样文本组集;数据划分模块用于将采样文本组集划分为训练集和验证集。
[0006]在一种实施方式中,文本分层模块包括:第一子模块、第二子模块和第三子模块;第一子模块用于:根据预先设定的规则处理器对原文本进行处理,得到标准模板文本,并将标准模板文本与原文本进行对齐,得到标准模板文本二元组集;其中,标准模板文本二元组包括:标准模板文本和标准模板文本对应的原文本;第二子模块用于:根据标准模板文本匹配相似度算法,并根据匹配到的相似度算法计算标准模板文本二元组集中每两个标准模板文本二元组的相似度,以及剔除相似度大于相似度阈值的标准模板文本二元组,得到基础模板文本二元组;其中,基础模板文本二元组包括:基础模板文本和基础模板文本对应的原文本;第二子模块还用于:统计剔除的标准模板文本二元组的频数,并将频数添加到基础模板文本二元组中,得到基础模板文本三元组集;第三子模块用于:根据第二子模块确定的语种风格、标准模板文本的字符长度或分词长度匹配对应的相似度阈值的经验计算公式,并基于相似度阈值的经验计算公式计算相似度阈值,将相似度阈值发送至第二子模块。
[0007]在一种实施方式中,第二子模块还用于:将第一预设数量的原文本与预先确定的
各语种语言字符词典进行匹配,确定原文本的语种风格,并根据语种风格匹配相似度算法。
[0008]在一种实施方式中,分层采样模块用于:根据基础模板文本三元组集中的频数,判断是否进行采样;如果频数大于第一频数阈值,则根据频数和第一采样算法确定采样数,并基于采样数对标准模板文本二元组集进行采样,得到采样文本组集。
[0009]在一种实施方式中,分层采样模块还用于:如果频数大于第二频数阈值,则根据频数和第二采样算法确定采样数,并基于采样数对标准模板文本二元组集进行采样,得到初始采样文本;将初始采样文本进行分段,并在每段抽取第二预设数量的初始采样文本作为采样文本组集;其中,第二频数阈值大于第一频数阈值。
[0010]在一种实施方式中,分层采样模块还用于:对基础模板文本三元组集进行标注,得到标签信息;根据基础模板文本三元组集中的频数判断是否进行采样;如果频数大于第一频数阈值,则根据标签信息确定采样算法,并根据频数和采样算法确定采样数;基于采样数对标准模板文本二元组集进行采样,得到采样文本组集。
[0011]在一种实施方式中,分层采样模块还用于:将频数小于第一频数阈值的基础模板文本三元组中的基础模本文本和基础模本文本对应的原文本合并到采样文本组集中,得到最终的采样文本组集。
[0012]在一种实施方式中,数据划分模块用于:将采样文本组集划分为基础模板文本和采样文本;将基础模板文本对应的原文本划分为第一训练集和第一验证集;将采样文本划分对应的原文本划分为第二训练集和第二验证集;将第一训练集和第二训练集合并为训练集,以及将第一验证集和第二验证集合并为训练集。
[0013]第二方面,本专利技术实施例提供了一种文本数据处理方法,该方法应用于上述第一方面提供的任一项的文本数据处理系统,该方法包括:获取原文本,并根据原文本之间的相似度对原文本进行分层,得到标准模板文本二元组集和基础模板文本三元组集;根据基础模板文本三元组集对标准模板文本二元组集进行采样,得到采样文本组集;将采样文本组集划分为训练集和验证集。
[0014]在一种实施方式中,将采样文本组集划分为训练集和验证集,包括:将采样文本组集划分为基础模板文本和采样文本;将基础模板文本对应的原文本划分为第一训练集和第一验证集;将采样文本划分对应的原文本划分为第二训练集和第二验证集;将第一训练集和第二训练集合并为训练集,以及将第一验证集和第二验证集合并为训练集。
[0015]第三方面,本专利技术实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第二方面提供的方法的步骤。
[0016]第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第二方面提供的方法的步骤。
[0017]本专利技术实施例带来了以下有益效果:
[0018]本专利技术实施例提供的上述文本数据处理系统及方法,该系统包括:文本分层模块、分层采样模块和数据划分模块;文本分层模块用于根据原文本之间的相似度对原文本进行分层,得到标准模板文本二元组集和基础模板文本三元组集;分层采样模块用于根据基础模板文本三元组集对标准模板文本二元组集进行采样,得到采样文本组集;数据划分模块用于将采样文本组集划分为训练集和验证集。上述系统首先根据原文本之间的相似度进行
数据分层,能够得到满足一定差异性的基础模板文本;然后,根据基础模板文本进行采样,能够提高采样文本组集中数据分布的均衡性和多样性,进而利用由采样文本组集划分得到的训练集和验证集进行模型训练,由于训练集的数据分布更加均衡和多样,从而能够提高模型的准确性。
[0019]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0020]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0021]为了更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据处理系统,其特征在于,包括:文本分层模块、分层采样模块和数据划分模块;所述文本分层模块用于根据原文本之间的相似度对所述原文本进行分层,得到标准模板文本二元组集和基础模板文本三元组集;所述分层采样模块用于根据所述基础模板文本三元组集对所述标准模板文本二元组集进行采样,得到采样文本组集;所述数据划分模块用于将所述采样文本组集划分为训练集和验证集。2.根据权利要求1所述的系统,其特征在于,所述文本分层模块包括:第一子模块、第二子模块和第三子模块;所述第一子模块用于:根据预先设定的规则处理器对所述原文本进行处理,得到标准模板文本,并将所述标准模板文本与所述原文本进行对齐,得到标准模板文本二元组集;其中,所述标准模板文本二元组包括:标准模板文本和所述标准模板文本对应的原文本;所述第二子模块用于:根据所述标准模板文本匹配相似度算法,并根据匹配到的相似度算法计算所述标准模板文本二元组集中每两个标准模板文本二元组的相似度,以及剔除所述相似度大于相似度阈值的标准模板文本二元组,得到基础模板文本二元组;其中,所述基础模板文本二元组包括:基础模板文本和所述基础模板文本对应的原文本;所述第二子模块还用于:统计剔除的标准模板文本二元组的频数,并将所述频数添加到所述基础模板文本二元组中,得到基础模板文本三元组集;所述第三子模块用于:根据所述第二子模块确定的语种风格、所述标准模板文本的字符长度或分词长度匹配对应的相似度阈值的经验计算公式,并基于所述相似度阈值的经验计算公式计算所述相似度阈值,将所述相似度阈值发送至所述第二子模块。3.根据权利要求2所述的系统,其特征在于,所述第二子模块还用于:将第一预设数量的原文本与预先确定的各语种语言字符词典进行匹配,确定所述原文本的语种风格,并根据所述语种风格匹配所述相似度算法。4.根据权利要求1所述的系统,其特征在于,所述分层采样模块用于:根据所述基础模板文本三元组集中的频数,判断是否进行采样;如果所述频数大于第一频数阈值,则根据所述频数和第一采样算法确定采样数,并基于所述采样数对所述标准模板文本二元组集进行采样,得到采样文本组集。5.根据权利要求4所述的系统,其特征在于,所述分层采样模块还用于:如果所述...

【专利技术属性】
技术研发人员:张福缘陈晓峰何盼
申请(专利权)人:上海苍阙信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1