一种基于领域特征的文本数据扩增方法技术

技术编号:32285117 阅读:31 留言:0更新日期:2022-02-12 19:53
本申请公开了一种基于领域特征的文本数据扩增方法,包括:获取专业领域数据集,所述专业领域数据集包括多个文本;针对每一个文本,进行预处理,获取待扩增文本;所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计;针对待扩增文本,根据四种扩增方法,获取扩增后的文本;获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本。本申请公开了获取扩增后文本的四种方法,可以在扩增文本数据的同时,体现出文本的领域特征,提高了文本数据扩增的质量,并提高了基于此文本构建的AI系统的服务质量。了基于此文本构建的AI系统的服务质量。了基于此文本构建的AI系统的服务质量。

【技术实现步骤摘要】
一种基于领域特征的文本数据扩增方法


[0001]本申请涉及文本数据扩增
,尤其是一种基于领域特征的文本数据扩增方法。

技术介绍

[0002]随着人工智能技术的快速发展,人们对人工智能的服务质量要求也在提高,不同领域的人工智能一般是利用大规模、高质量的、来自不同专业领域的文本数据,通过数据集训练构建模型,所以人工智能所使用的文本数据质量直接影响着人工智能的服务质量。
[0003]为了提高文本数据质量,需要对文本数据进行扩增,当前,国内外在文本数据扩增领域提出了多种扩增方法,如回译、简单数据扩增技术(EDA)、随机噪声注入、基于GAN网络的扩增和无监督数据扩增等,这些广泛应用的方法在降低数据获取成本,抑制过拟合,提高模型泛化能力发挥了重要作用。然而,这些方法大都是对文本进行单句字符级别的处理,本质上对文本字词的删除、替换和位置交换。在进行文本分类的任务中,这些对文本字符级别的处理方法易影响体现文本领域特征的词语以及体现领域特征的语义结构信息,导致扩增后的文本不能很好地体现其所在领域特征,扩增文本质量较低。

技术实现思路

...

【技术保护点】

【技术特征摘要】
1.一种基于领域特征的文本数据扩增方法,其特征在于,包括:获取专业领域数据集,所述专业领域数据集包括多个文本;针对每一个文本,进行预处理,获取待扩增文本;所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计;针对待扩增文本,获取扩增后的文本;获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本。2.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述针对待扩增文本,获取扩增后的文本,包括:获取所述待扩增文本的词集;所述词集包括多个词语;获取所述待扩增文本的依存句法树;所述依存句法树包括父结点和子结点,所述父结点包括子结点;每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系;根据所述专业领域数据集,构建词频和逆向文件频率模型;根据所述词频和逆向文件频率模型,获取所述词集中每个词语的词频和逆向文件频率;获取所述依存句法树中每个树枝的词频和逆向文件频率总和;随机删除所述依存句法树中词频和逆向文件频率总和低于预设值的树枝;获取扩增后的文本,所述扩增后的文本包括依存句法树中所有父结点和子结点所对应的词语。3.根据权利要求2所述的一种基于领域特征的文本数据扩增方法,其特征在于,获取所述依存句法树中每个树枝的词频和逆向文件频率总和之后,所述方法还包括:将每个树枝的词频和逆向文件频率总和降序排列。4.根据权利要求2所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述词集中包括停用词、数字和特殊符号,所述停用词、数字和特殊符号的词频和逆向文件频率为0。5.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述针对待扩增文本,获取扩增后的文本,还包括:构建所述专业领域数据集的LDA模型;根据所述LDA模型,获取所述专业领域数据集的主题文档表,所述主题文档表包括不同主题;获取所述待扩增文本所属可能性最大的多个主题;分别获取所述待扩增文本与所述待扩增文本所属可能性最大的多个主题的余弦相似度;根据余弦相似度最高的主题,获取目标文本;构建所述目标...

【专利技术属性】
技术研发人员:祝和明王德胜邓涛李岩松孙涛王存超梅文哲赵新冬郭韬何泽家唐锦崔林张力戴威罗珊珊刘媛卢茜于聪聪
申请(专利权)人:国网江苏省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1