一种基于数据增强技术的政务服务文本数据扩增方法、存储介质、设备及计算机程序产品技术

技术编号：45073840 阅读：23 留言：0更新日期：2025-04-25 18:15

本发明专利技术公开了一种基于数据增强技术的政务服务文本数据扩增方法、存储介质、设备及计算机程序产品，包括：收集历史政务服务文本数据进行预处理，得到语料数据集，将语料数据集中的历史政务服务文本数据通过词向量模型确定关键词；将确定的关键词在对应历史政务服务文本数据中进行保留，非关键词用下划线替代，得到待扩充文本数据；设计基座大模型Qwen‑7B的prompt提示词，将待扩充文本数据作为prompt提示词的输入，对应历史政务服务文本数据作为标签，通过基座大模型Qwen‑7B对待扩充文本数据进行扩增，得到扩增的政务服务文本数据。本发明专利技术可以更好地理解政务服务文本数据的特征，从而实现低成本、高质量的政务服务文本数据扩增。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本数据扩增，具体地，涉及一种基于数据增强技术的政务服务文本数据扩增方法、存储介质、设备及计算机程序产品。

技术介绍

1、早期的自然语言生成主要基于简单规则和模板，研究人员通过人工设计和编写规则来生成特定的文本。这种方法在特定领域和简单场景下能够取得一定效果，但由于规则的局限性，难以应对复杂多样的自然语言现象和语义关系，表达能力有限。随着计算机技术的发展和语料库的逐渐丰富，统计方法开始在自然语言处理领域崭露头角。统计方法基于大量的语料库数据进行学习和推理，通过计算词语之间的概率分布以及语言模型等统计信息，来生成自然流畅的文本，能够更好地应对语言的灵活性和多样性，但也存在模型复杂度高、对大规模训练数据需求大等问题。后来机器学习的发展为自然语言处理带来了重大变革。神经网络模型如循环神经网络rnn、长短期记忆网络lstm和变换器transformer等被广泛应用于自然语言生成任务，并取得了显著成果。这些模型能够自动学习输入数据之间的关联性和依赖关系，从而生成高质量的自然语言文本，大大提升了文本生成的效果和灵活性，推动了自然语言文...

【技术保护点】

1.一种基于数据增强技术的政务服务文本数据扩增方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于数据增强技术的政务服务文本数据扩增方法，其特征在于，步骤S2包括如下子步骤：

3.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法，其特征在于，步骤S2.3中根据每个词语在所述历史政务服务文本数据中的出现次数确定词语被保留的概率的计算过程为：

4.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法，其特征在于，步骤S2.3中与抽取词语不共现的词语进行负采样的概率为：

5.根据权利要求2所述的一...

【技术特征摘要】

1.一种基于数据增强技术的政务服务文本数据扩增方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于数据增强技术的政务服务文本数据扩增方法，其特征在于，步骤s2包括如下子步骤：

3.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法，其特征在于，步骤s2.3中根据每个词语在所述历史政务服务文本数据中的出现次数确定词语被保留的概率的计算过程为：

4.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法，其特征在于，步骤s2.3中与抽取词语不共现的词语进行负采样的概率为：

5.根据权利要求2所述的一种基于数据增强技术的政务服务文本数据扩增方法，其特征在于，设计的prompt提示词包括：角色、目标和风格，所述角色设置为政务服务热线工作人员，所述目标设置为待扩充文本数...

【专利技术属性】
技术研发人员：郑阳，孙铭扬，朱玉浩，田融，王伟，
申请(专利权)人：中电鸿信信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人