【技术实现步骤摘要】
本申请涉及自然语言处理领域,特别是涉及基于特征离散化的文本处理方法和系统。
技术介绍
1、长文本特征离散化旨在将原始的文本数据转化为计算机可理解的形式,同时保留足够的信息以便于后续的模型训练与分类,是文本处理和信息检索领域提升分类问题处理效率和效果的关键步骤之一。
2、在相关技术中,目前长文本特征离散化方法通常使用词袋模型或tf-idf等,这些方法虽然在一定程度上实现了长文本特征的离散化,但往往忽略了文本中的语义信息和上下文关系,导致特征表示不够准确。同时,随着文本数据的不断增长,传统的特征离散化方法在处理大规模数据集时,计算复杂度较高,难以满足实际应用的需求。
3、目前针对相关技术中长文本特征离散化方法效率和准确率低的问题,尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种基于特征离散化的文本处理方法、系统、电子设备和存储介质,以至少解决相关技术中长文本特征离散化方法效率和准确率低的问题。
2、第一方面,本申请实施例提供了一种基于特征离
...【技术保护点】
1.一种基于特征离散化的文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述子文本向量中包含的数字均为无重复的正整数,所述对所述子文本向量进行降维得到第一候选特征列表包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述目标子文本进行关键词提取得到第二候选特征列表包括:
4.根据权利要求3所述的方法,其特征在于,所述通过所述关键词提取模型,对所述目标子文本进行特征提取,得到所述第二候选特征列表包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述特征关键词和所述旗帜词,构
...【技术特征摘要】
1.一种基于特征离散化的文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述子文本向量中包含的数字均为无重复的正整数,所述对所述子文本向量进行降维得到第一候选特征列表包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述目标子文本进行关键词提取得到第二候选特征列表包括:
4.根据权利要求3所述的方法,其特征在于,所述通过所述关键词提取模型,对所述目标子文本进行特征提取,得到所述第二候选特征列表包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述特征关键词和所述旗帜词,构建各所述目标子文本的第一关键词列表和第二关键词列表,基于所述第一关键词列表和所述第二关键词列表,得到各所述目标子文本的第二候选离散化特征包括:
6.根据权利要求4所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:邢添威,张文广,张书浆,
申请(专利权)人:银江技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。