System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于数据增强技术的政务服务文本数据扩增方法、存储介质、设备及计算机程序产品技术_技高网

一种基于数据增强技术的政务服务文本数据扩增方法、存储介质、设备及计算机程序产品技术

技术编号:45073840 阅读:10 留言:0更新日期:2025-04-25 18:15
本发明专利技术公开了一种基于数据增强技术的政务服务文本数据扩增方法、存储介质、设备及计算机程序产品,包括:收集历史政务服务文本数据进行预处理,得到语料数据集,将语料数据集中的历史政务服务文本数据通过词向量模型确定关键词;将确定的关键词在对应历史政务服务文本数据中进行保留,非关键词用下划线替代,得到待扩充文本数据;设计基座大模型Qwen‑7B的prompt提示词,将待扩充文本数据作为prompt提示词的输入,对应历史政务服务文本数据作为标签,通过基座大模型Qwen‑7B对待扩充文本数据进行扩增,得到扩增的政务服务文本数据。本发明专利技术可以更好地理解政务服务文本数据的特征,从而实现低成本、高质量的政务服务文本数据扩增。

【技术实现步骤摘要】

本专利技术涉及文本数据扩增,具体地,涉及一种基于数据增强技术的政务服务文本数据扩增方法、存储介质、设备及计算机程序产品


技术介绍

1、早期的自然语言生成主要基于简单规则和模板,研究人员通过人工设计和编写规则来生成特定的文本。这种方法在特定领域和简单场景下能够取得一定效果,但由于规则的局限性,难以应对复杂多样的自然语言现象和语义关系,表达能力有限。随着计算机技术的发展和语料库的逐渐丰富,统计方法开始在自然语言处理领域崭露头角。统计方法基于大量的语料库数据进行学习和推理,通过计算词语之间的概率分布以及语言模型等统计信息,来生成自然流畅的文本,能够更好地应对语言的灵活性和多样性,但也存在模型复杂度高、对大规模训练数据需求大等问题。后来机器学习的发展为自然语言处理带来了重大变革。神经网络模型如循环神经网络rnn、长短期记忆网络lstm和变换器transformer等被广泛应用于自然语言生成任务,并取得了显著成果。这些模型能够自动学习输入数据之间的关联性和依赖关系,从而生成高质量的自然语言文本,大大提升了文本生成的效果和灵活性,推动了自然语言文本增强技术的进一步发展近年来,预训练语言模型成为自然语言处理领域的重要进展之一。通过在海量的文本数据上进行无监督预训练,模型能够学习到丰富的语言知识和语义表达能力,如gpt、bert等模型。预训练语言模型的出现不仅提升了文本生成的质量和效率,还为各种自然语言处理任务提供了强大的基础,通过在特定任务上进行微调或进一步训练,可以快速实现文本分类、问答系统、文本摘要等多种应用,进一步推动了自然语言文本增强技术在不同领域的广泛应用。

2、在实际应用中,常用的数据扩增方法有如下几种:

3、1、eda(easy data augmentation)技术通过对原始文本-进行随机的同义词替换、插入、交换和删除等操作,增加数据的多样性,该方法操作简单,扩增速度快,但是在政务服务领域对于一些需要深入语义理解和上下文信息的政务文本,可能无法准确地捕捉其语义关系,且由于随机操作的存在,会有一定概率引入一些不合理或不符合政务逻辑的文本,影响后续任务扩增的数据质量不高,多种随机操作组合容易导致语义改变、文本不通顺等问题;

4、2、回译技术借助机器翻译工具,将文本在不同语言之间进行转换来生成新的文本,回译引入不同语言的表达方式和语义信息,丰富文本的多样性,对于多语言相关的任务或具有跨语言特征的数据增强有独特的优势,但是回译的效果在很大程度上依赖于机器翻译系统的性能和不同语言之间的对应关系,对于一些政务服务领域的文本,可能无法得到理想的扩增效果;不同语言之间存在词汇、语法和文化方面存在差异,在回译过程中可能会丢失一些政务领域特有的专业术语、概念,影响对政务文本的准确理解和处理;

5、3、bert(bidirectional encoder representations from transformers)数据扩增方法主要是基于bert模型的强大理解和生成能力,对原始文本数据进行多种方式的变换和扩充,以增加数据的多样性和规模,从而提升模型的性能和泛化能力。但bert模型本身结构复杂,训练和推理需要大量的计算资源支持,数据扩增会进一步增加计算量和时间成本,虽然数据扩增可以增加数据量,但如果原始数据的标注质量不高或标注信息不足,可能会影响模型的训练效果,且政务领域的标注数据往往需要专业知识和人工审核,获取高质量的标注数据成本较高,如果标注数据存在问题,即使进行了数据扩增,也难以有效提升模型的性能。


技术实现思路

1、针对现有技术中存在的问题,本专利技术提供了一种基于数据增强技术的政务服务文本数据扩增方法、存储介质、设备及计算机程序产品,可以更好地理解政务服务文本数据的特征,从而实现低成本、高质量的政务服务文本数据扩增。

2、为实现上述技术目的,本专利技术采用如下技术方案:一种基于数据增强技术的政务服务文本数据扩增方法,具体包括如下步骤:

3、步骤s1、收集历史政务服务文本数据,将每一条历史政务服务文本数据进行敏感词过滤、jieba分词和简繁字体转换,得到语料数据集;

4、步骤s2、将语料数据集中的历史政务服务文本数据通过词向量模型确定关键词;

5、步骤s3、将确定的关键词在对应历史政务服务文本数据中进行保留,非关键词用下划线替代,得到待扩充文本数据;

6、步骤s4、设计基座大模型qwen-7b的prompt提示词,将待扩充文本数据作为prompt提示词的输入,对应历史政务服务文本数据作为标签,通过基座大模型qwen-7b对待扩充文本数据进行扩增,得到扩增的政务服务文本数据。

7、进一步地,步骤s2包括如下子步骤:

8、步骤s2.1、将语料数据集中的每一条历史政务服务文本数据进行筛选,得到一个包含所有不重复词语的词汇表,并设置词向量模型的背景窗口大小和负采样数量;

9、步骤s2.2、遍历词汇表中的所有词语,确定每个词语在所述历史政务服务文本数据中的出现次数;

10、步骤s2.3、根据每个词语在所述历史政务服务文本数据中的出现次数确定词语被保留的概率抽取词语,并按照背景窗口大小确定抽取词语对应的背景词,将抽取词语和背景词组合成正样本;根据每个词语在所述历史政务服务文本数据中的出现次数和负采样数量对与抽取词语不共现的词语进行负采样,得到负样本;

11、步骤s2.4、将正样本和负样本共同输入词向量模型中进行训练,预测出抽取词语作为关键词的概率,将预测概率进行由高到低排序,选择排序前30%的词语作为关键词。

12、进一步地,步骤s2.3中根据每个词语在所述历史政务服务文本数据中的出现次数确定词语被保留的概率的计算过程为:

13、

14、其中,wi表示词汇表中的第i个词语,z(wi)表示wi在所述历史政务服务文本数据中的出现次数,p(wi)表示wi被保留的概率。

15、进一步地,步骤s2.3中与抽取词语不共现的词语进行负采样的概率为:

16、

17、其中,n表示与抽取词语不共现的词语总数量,j表示n的索引,wj表示第j个与抽取词语不共现的词语,f(wj)表示wj在所述历史政务服务文本数据中的出现次数,p(wj)表示wj进行负采样的概率。

18、进一步地,设计的prompt提示词包括:角色、目标和风格,所述角色设置为政务服务热线工作人员,所述目标设置为待扩充文本数据进行扩充,所述风格设置为符合政务服务特性。

19、进一步地,通过基座大模型qwen-7b对待扩充文本数据进行扩增的具体过程为:

20、i、设置基座大模型qwen-7b的训练参数,包括:训练权重、batch size、gpu和学习率;

21、ii、将待扩充文本数据作为prompt提示词的输入,通过基座大模型qwen-7b对待扩充文本数据进行扩增,得到扩增的政务服务文本数据;

22、ii本文档来自技高网...

【技术保护点】

1.一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,步骤S2包括如下子步骤:

3.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,步骤S2.3中根据每个词语在所述历史政务服务文本数据中的出现次数确定词语被保留的概率的计算过程为:

4.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,步骤S2.3中与抽取词语不共现的词语进行负采样的概率为:

5.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,设计的prompt提示词包括:角色、目标和风格,所述角色设置为政务服务热线工作人员,所述目标设置为待扩充文本数据进行扩充,所述风格设置为符合政务服务特性。

6.根据权利要求5所述的一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,通过基座大模型Qwen-7B对待扩充文本数据进行扩增的具体过程为:

7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如权利要求1-6任一项所述的基于数据增强技术的政务服务文本数据扩增方法。

8.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如权利要求1-6任一项所述的基于数据增强技术的政务服务文本数据扩增方法。

9.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的基于数据增强技术的政务服务文本数据扩增方法。

...

【技术特征摘要】

1.一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,步骤s2包括如下子步骤:

3.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,步骤s2.3中根据每个词语在所述历史政务服务文本数据中的出现次数确定词语被保留的概率的计算过程为:

4.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,步骤s2.3中与抽取词语不共现的词语进行负采样的概率为:

5.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法,其特征在于,设计的prompt提示词包括:角色、目标和风格,所述角色设置为政务服务热线工作人员,所述目标设置为待扩充文本数...

【专利技术属性】
技术研发人员:郑阳孙铭扬朱玉浩田融王伟
申请(专利权)人:中电鸿信信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1