文本数据处理系统及方法技术方案

技术编号：36782061 阅读：28 留言：0更新日期：2023-03-08 22:18

本发明专利技术提供了一种文本数据处理系统及方法，包括：文本分层模块、分层采样模块和数据划分模块；文本分层模块用于根据原文本之间的相似度对原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集；分层采样模块用于根据基础模板文本三元组集对标准模板文本二元组集进行采样，得到采样文本组集；数据划分模块用于将采样文本组集划分为训练集和验证集。本发明专利技术可以提高数据集中样本分布的均衡性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
文本数据处理系统及方法

[0001]本专利技术涉及数据处理
，尤其是涉及一种文本数据处理系统及方法。

技术介绍

[0002]在金融风控领域中，经常会涉及大量多类别分类任务，且涉及的未标注文本往往是百万级以上，将这些海量文本去重后完成一次性人工打标工作量处理几乎是不现实的处理方式。基于此，传统处理方法则是先通过采样得到采样文本，再将采样文本划分为训练集/验证集/测试集等。通常采用的采样方法分为：随机采样和聚类分层采样。然而，两种采样方式得到的采样数据均存在分布不均衡的问题，无法满足全部类别文本的采样训练要求；其次，在深度学习领域，数据集划分中，通用的做法一般都是按比例随机划分训练集/验证集/测试集，由于随机性误差，这种划分方式不易兼顾样本的分布以及重点类别的关注度，且训练出的神经网络模型其预测类别的精度存在一定的随机性，尤其是对于一些样本较少的类别其预测准确性往往难以保证。综上所述，现有的数据集划分方法中，存在样本分布不均衡的问题，从而影响模型训练的准确性。

技术实现思路

[0003]有鉴于此，本专利技术的目的在于提供一种文本数据处理系统及方法，以提高了数据集中样本分布的均衡性。
[0004]为了实现上述目的，本专利技术实施例采用的技术方案如下：
[0005]第一方面，本专利技术实施例提供了一种文本数据处理系统，包括：文本分层模块、分层采样模块和数据划分模块；文本分层模块用于根据原文本之间的相似度对原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集；分层采样模块用于根据...

【技术保护点】

【技术特征摘要】
1.一种文本数据处理系统，其特征在于，包括：文本分层模块、分层采样模块和数据划分模块；所述文本分层模块用于根据原文本之间的相似度对所述原文本进行分层，得到标准模板文本二元组集和基础模板文本三元组集；所述分层采样模块用于根据所述基础模板文本三元组集对所述标准模板文本二元组集进行采样，得到采样文本组集；所述数据划分模块用于将所述采样文本组集划分为训练集和验证集。2.根据权利要求1所述的系统，其特征在于，所述文本分层模块包括：第一子模块、第二子模块和第三子模块；所述第一子模块用于：根据预先设定的规则处理器对所述原文本进行处理，得到标准模板文本，并将所述标准模板文本与所述原文本进行对齐，得到标准模板文本二元组集；其中，所述标准模板文本二元组包括：标准模板文本和所述标准模板文本对应的原文本；所述第二子模块用于：根据所述标准模板文本匹配相似度算法，并根据匹配到的相似度算法计算所述标准模板文本二元组集中每两个标准模板文本二元组的相似度，以及剔除所述相似度大于相似度阈值的标准模板文本二元组，得到基础模板文本二元组；其中，所述基础模板文本二元组包括：基础模板文本和所述基础模板文本对应的原文本；所述第二子模块还用于：统计剔除的标准模板文本二元组的频数，并将所述频数添加到所述基础模板文本二元组中，得到基础模板文本三元组集；所述第三子模块用于：根据所述第二子模块确定的语种风格、所述标准模板文本的字符长度或分词长度匹配对应的相似度阈值的经验计算公式，并基于所述相似度阈值的经验计算公式计算所述相似度阈值，将所述相似度阈值发送至所述第二子模块。3.根据权利要求2所述的系统，其特征在于，所述第二子模块还用于：将第一预设数量的原文本与预先确定的各语种语言字符词典进行匹配，确定所述原文本的语种风格，并根据所述语种风格匹配所述相似度算法。4.根据权利要求1所述的系统，其特征在于，所述分层采样模块用于：根据所述基础模板文本三元组集中的频数，判断是否进行采样；如果所述频数大于第一频数阈值，则根据所述频数和第一采样算法确定采样数，并基于所述采样数对所述标准模板文本二元组集进行采样，得到采样文本组集。5.根据权利要求4所述的系统，其特征在于，所述分层采样模块还用于：如果所述...

【专利技术属性】
技术研发人员：张福缘，陈晓峰，何盼，
申请(专利权)人：上海苍阙信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人