基于特征离散化的文本处理方法和系统技术方案

技术编号:44573412 阅读:10 留言:0更新日期:2025-03-11 14:33
本申请涉及一种基于特征离散化的文本处理方法,涉及自然语言处理领域,该方法包括:采集包括至少一个长文本的目标业务数据,对长文本进行分割得到目标子文本,并将目标子文本转化为子文本向量,对子文本向量进行降维得到第一候选特征列表,对目标子文本进行关键词提取得到第二候选特征列表,基于注意力机制模型和过采样模型对子文本向量进行重构和更新生成第三候选特征列表,基于树模型获取三个候选特征列表中的所有特征的重要度,从而确定目标特征。通过本申请,解决了长文本特征离散化方法效率和准确率低的问题。将文本转化为向量提高特征的非线性表达能力,引入注意力机制和过采样技术增强对潜在信息的捕捉能力,从而提高处理效率和准确率。

【技术实现步骤摘要】

本申请涉及自然语言处理领域,特别是涉及基于特征离散化的文本处理方法和系统


技术介绍

1、长文本特征离散化旨在将原始的文本数据转化为计算机可理解的形式,同时保留足够的信息以便于后续的模型训练与分类,是文本处理和信息检索领域提升分类问题处理效率和效果的关键步骤之一。

2、在相关技术中,目前长文本特征离散化方法通常使用词袋模型或tf-idf等,这些方法虽然在一定程度上实现了长文本特征的离散化,但往往忽略了文本中的语义信息和上下文关系,导致特征表示不够准确。同时,随着文本数据的不断增长,传统的特征离散化方法在处理大规模数据集时,计算复杂度较高,难以满足实际应用的需求。

3、目前针对相关技术中长文本特征离散化方法效率和准确率低的问题,尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种基于特征离散化的文本处理方法、系统、电子设备和存储介质,以至少解决相关技术中长文本特征离散化方法效率和准确率低的问题。

2、第一方面,本申请实施例提供了一种基于特征离散化的文本处理方法,所述方法包括:

3、采集目标业务数据,所述目标业务数据包括至少一个长文本,对所述长文本进行分割得到目标子文本,并将所述目标子文本转化为子文本向量,各所述长文本对应的所述子文本向量的个数和长度均为预设定值;

4、对各所述子文本向量进行降维得到第一候选特征列表,对各所述目标子文本进行关键词提取得到第二候选特征列表,基于注意力机制模型和过采样模型,对各所述子文本向量进行重构和更新,生成第三候选特征列表;

5、基于树模型,获取所述第一候选特征列表、所述第二候选特征列表和所述第三候选特征列表中的所有特征的重要度,根据所述重要度确定目标特征。

6、在其中一些实施例中,所述子文本向量中包含的数字均为无重复的正整数,所述对所述子文本向量进行降维得到第一候选特征列表包括:

7、获取各所述子文本向量所有位置的数字,构建样本数据集,所述样本数据集中各样本的特征数与所述子文本向量的长度相同;

8、对所述样本数据集进行降维,剔除冗余信息,得到若干个主成分;

9、将所述主成分相同位置的数字相加,得到各所述目标子文本的第一候选离散化特征,根据所述第一候选离散化特征构建第一候选特征列表。

10、在其中一些实施例中,所述对所述目标子文本进行关键词提取得到第二候选特征列表包括:

11、基于主题模型,根据所述长文本得到不同的主题域,所述主题域个数与所述子文本向量个数相同,所述主题域包括代表词和所述代表词的重要度;

12、根据所述代表词的重要度,从各所述主题域中获取代表词作为旗帜词;

13、根据所述旗帜词,更新关键词提取模型的初始化词表;

14、通过所述关键词提取模型,对所述目标子文本进行特征提取,得到所述第二候选特征列表。

15、在其中一些实施例中,所述通过所述关键词提取模型,对所述目标子文本进行特征提取,得到所述第二候选特征列表包括:

16、通过所述关键词提取模型,对所述目标子文本进行特征提取,得到各所述目标子文本的特征关键词;

17、根据所述特征关键词和所述旗帜词,构建各所述目标子文本的第一关键词列表和第二关键词列表,基于所述第一关键词列表和所述第二关键词列表,得到各所述目标子文本的第二候选离散化特征;

18、根据所述第二候选离散化特征构建第二候选特征列表。

19、在其中一些实施例中,所述根据所述特征关键词和所述旗帜词,构建各所述目标子文本的第一关键词列表和第二关键词列表,基于所述第一关键词列表和所述第二关键词列表,得到各所述目标子文本的第二候选离散化特征包括:

20、判断是否存在与所述特征关键词相同的旗帜词,若是,将所述特征关键词放入对应目标子文本向的第一关键词列表,若否,将所述关键词放入对应目标子文本的第二关键词列表;

21、根据第一关键词列表中特征关键词的数量,得到第一列表长度,根据第二关键词列表中特征关键词的数量,得到第一列表长度;

22、基于预设权重值,对各所述子文本向量对应的第一列表长度和第一列表长度进行加权运算,得到各所述目标子文本的第二候选离散化特征。

23、在其中一些实施例中,所述子文本向量中包含的数字均为无重复的正整数,且所述数字个数为2的倍数,所述基于注意力机制模型和过采样模型,对所述子文本向量进行重构和更新,生成第三候选特征列表包括:

24、基于所述注意力机制模型,对所述子文本向量进行重构,得到重构子文本向量;

25、获取各所述重构子文本向量的中位数,基于所述中位数对各所述重构子文本向量中的数字进行分类,得到各所述子文本向量的正样本和负样本,所述负样本中的数字大于所述中位数,所述正样本中的数字小于所述中位数;

26、获取所述第二候选离散化特征为零的目标子文本对应的目标子文本向量,将所述目标子文本向量的负样本剔除,并通过所述过采样模型,更新所述被剔除的负样本;

27、将更新后的各所述子文本向量的负样本中所有位置的数字相加,得到各所述目标子文本的第三候选离散化特征,根据所述第三候选离散化特征构建第三候选特征列表。

28、在其中一些实施例中,在对所述长文本进行分割得到目标子文本之前,所述方法还包括:

29、从所述目标业务数据中获取长度最小的长文本,得到最小长度值;

30、根据所述最小长度值确定所述长文本的目标长度范围和所述目标子文本的个数;

31、判断各所述长文本的长度是否在所述目标长度范围内,若否,对所述长文本进行摘要提取,以更新所述长文本。

32、第二方面,本申请实施例提供了一种基于特征离散化的文本处理系统,所述系统包括:向量构建模块、特征列表构建模块和目标特征确定模块,其中,

33、所述向量构建模块,用于采集目标业务数据,所述目标业务数据包括至少一个长文本,对所述长文本进行分割得到目标子文本,并将所述目标子文本转化为子文本向量,各所述长文本对应的所述子文本向量的个数和长度均为预设定值;

34、所述特征列表构建模块,用于对各所述子文本向量进行降维得到第一候选特征列表,对各所述目标子文本进行关键词提取得到第二候选特征列表,基于注意力机制模型和过采样模型,对各所述子文本向量进行重构和更新,生成第三候选特征列表;

35、所述目标特征确定模块,用于基于树模型,获取所述第一候选特征列表、所述第二候选特征列表和所述第三候选特征列表中的所有特征的重要度,根据所述重要度确定目标特征。

36、第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于特征离散化的文本处理方法。

37、第四方面,本申请实施例本文档来自技高网...

【技术保护点】

1.一种基于特征离散化的文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述子文本向量中包含的数字均为无重复的正整数,所述对所述子文本向量进行降维得到第一候选特征列表包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述目标子文本进行关键词提取得到第二候选特征列表包括:

4.根据权利要求3所述的方法,其特征在于,所述通过所述关键词提取模型,对所述目标子文本进行特征提取,得到所述第二候选特征列表包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述特征关键词和所述旗帜词,构建各所述目标子文本的第一关键词列表和第二关键词列表,基于所述第一关键词列表和所述第二关键词列表,得到各所述目标子文本的第二候选离散化特征包括:

6.根据权利要求4所述的方法,其特征在于,所述子文本向量中包含的数字均为无重复的正整数,且所述数字个数为2的倍数,所述基于注意力机制模型和过采样模型,对所述子文本向量进行重构和更新,生成第三候选特征列表包括:

7.根据权利要求1所述的方法,其特征在于,在对所述长文本进行分割得到目标子文本之前,所述方法还包括:

8.一种基于特征离散化的文本处理系统,其特征在于,所述系统包括:向量构建模块、特征列表构建模块和目标特征确定模块,其中,

9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于特征离散化的文本处理方法。

10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的基于特征离散化的文本处理方法。

...

【技术特征摘要】

1.一种基于特征离散化的文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述子文本向量中包含的数字均为无重复的正整数,所述对所述子文本向量进行降维得到第一候选特征列表包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述目标子文本进行关键词提取得到第二候选特征列表包括:

4.根据权利要求3所述的方法,其特征在于,所述通过所述关键词提取模型,对所述目标子文本进行特征提取,得到所述第二候选特征列表包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述特征关键词和所述旗帜词,构建各所述目标子文本的第一关键词列表和第二关键词列表,基于所述第一关键词列表和所述第二关键词列表,得到各所述目标子文本的第二候选离散化特征包括:

6.根据权利要求4所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:邢添威张文广张书浆
申请(专利权)人:银江技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1