基于特征离散化的文本处理方法和系统技术方案

技术编号：44573412 阅读：18 留言：0更新日期：2025-03-11 14:33

本申请涉及一种基于特征离散化的文本处理方法，涉及自然语言处理领域，该方法包括：采集包括至少一个长文本的目标业务数据，对长文本进行分割得到目标子文本，并将目标子文本转化为子文本向量，对子文本向量进行降维得到第一候选特征列表，对目标子文本进行关键词提取得到第二候选特征列表，基于注意力机制模型和过采样模型对子文本向量进行重构和更新生成第三候选特征列表，基于树模型获取三个候选特征列表中的所有特征的重要度，从而确定目标特征。通过本申请，解决了长文本特征离散化方法效率和准确率低的问题。将文本转化为向量提高特征的非线性表达能力，引入注意力机制和过采样技术增强对潜在信息的捕捉能力，从而提高处理效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理领域，特别是涉及基于特征离散化的文本处理方法和系统。

技术介绍

1、长文本特征离散化旨在将原始的文本数据转化为计算机可理解的形式，同时保留足够的信息以便于后续的模型训练与分类，是文本处理和信息检索领域提升分类问题处理效率和效果的关键步骤之一。

2、在相关技术中，目前长文本特征离散化方法通常使用词袋模型或tf-idf等，这些方法虽然在一定程度上实现了长文本特征的离散化，但往往忽略了文本中的语义信息和上下文关系，导致特征表示不够准确。同时，随着文本数据的不断增长，传统的特征离散化方法在处理大规模数据集时，计算复杂度较高，难以满足实际应用的需求。

3、目前针对相关技术中长文本特征离散化方法效率和准确率低的问题，尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种基于特征离散化的文本处理方法、系统、电子设备和存储介质，以至少解决相关技术中长文本特征离散化方法效率和准确率低的问题。

2、第一方面，本申请实施例提供了一种基于特征离...

【技术保护点】

1.一种基于特征离散化的文本处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述子文本向量中包含的数字均为无重复的正整数，所述对所述子文本向量进行降维得到第一候选特征列表包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标子文本进行关键词提取得到第二候选特征列表包括：

4.根据权利要求3所述的方法，其特征在于，所述通过所述关键词提取模型，对所述目标子文本进行特征提取，得到所述第二候选特征列表包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述特征关键词和所述旗帜词，构建各所述目标子文本的...

【技术特征摘要】

1.一种基于特征离散化的文本处理方法，其特征在于，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标子文本进行关键词提取得到第二候选特征列表包括：

4.根据权利要求3所述的方法，其特征在于，所述通过所述关键词提取模型，对所述目标子文本进行特征提取，得到所述第二候选特征列表包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述特征关键词和所述旗帜词，构建各所述目标子文本的第一关键词列表和第二关键词列表，基于所述第一关键词列表和所述第二关键词列表，得到各所述目标子文本的第二候选离散化特征包括：

6.根据权利要求4所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：邢添威，张文广，张书浆，
申请(专利权)人：银江技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人