文本处理方法、装置及电子设备制造方法及图纸

技术编号:39257593 阅读:22 留言:0更新日期:2023-10-30 12:09
本发明专利技术提供一种文本处理方法、装置及电子设备。该方法包括获得第一场景下标注的文本数据的关键词特征和实体特征;根据所述关键词特征和所述实体特征,对所述文本数据进行聚类处理,确定所述第一场景中的初步子场景;对所述初步子场景进行修正,确定最终子场景;基于所述最终子场景中的文本数据进行数据集划分,获得训练集和测试集。本发明专利技术能够使场景类别内部数据分布平衡,进而使得基于该数据分布训练得到的智能化服务能够覆盖到较为低频的查询,达到提升用户的整体体验和对智能化系统的使用频率的效果。频率的效果。频率的效果。

【技术实现步骤摘要】
文本处理方法、装置及电子设备


[0001]本专利技术涉及数据处理
,尤其是涉及一种文本处理方法、装置及电子设备。

技术介绍

[0002]随着信息化时代的来临,我们每天接触到的信息日益增多。其中,文本数据的信息量尤其耗费了人们大量的时间和经历,那么,如何有效地处理超大规模的文本数据,智能化地提取数据中有用的信息,以提升人们的生活质量,社会的智能化程度,成为了一个亟待解决的问题。
[0003]而现有的文本处理技术方案和策略中,按照既定规则或随机划分数据集的策略,严重依赖于预设的规则(如预定义的关键词、文档对应的词袋),而难以对不同的场景有适应性,不完善的训练集使得模型难以覆盖场景的典型数据,从而难以保证模型完成训练后的泛化性。基于主动学习来挑选数据集的策略,由于其对尚需重训练的数据判定严重依赖于查询函数,因此局限性较强。
[0004]上述文本处理方案均无法解决场景类别内部数据分布的不平衡问题,而在一个场景类别中,数据分布的不均匀,可能使得智能化服务忽略较为低频的查询,从而损伤了用户的整体体验,以及对智能化系统的使用频率,降低对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获得第一场景下标注的文本数据的关键词特征和实体特征;根据所述关键词特征和所述实体特征,对所述文本数据进行聚类处理,确定所述第一场景中的初步子场景;对所述初步子场景进行修正,确定最终子场景;基于所述最终子场景中的文本数据进行数据集划分,获得训练集和测试集。2.根据权利要求1所述的方法,其特征在于,所述获得第一场景下标注的文本数据的关键词特征和实体特征,包括:依据下述计算公式,获得所述第一场景下标注的文本数据的关键词特征和实体特征:其中,ω
ij
表示文本x
i
中的词,该词不存在于停用词字典V
stop
中,α和β是可调节参数,表示当前文本x
i
中关键词的出现次数,表示文档中所有关键词的总数量;count(x:ω
e
∈x)表示所有包含实体的文档总数量,表示包含当前实体的文档总数量。3.根据权利要求1所述的方法,其特征在于,所述初步子场景包括第一子场景和第二子场景,其中所述第一子场景是文本数据能够完成聚类的子场景,所述第二子场景是文本数据无法完成聚类的子场景;所述对所述初步子场景进行修正,确定最终子场景,包括:根据所述第一子场景对应的子场景向量和所述第二子场景中文本数据对应的文本向量,确定向量相似度检索空间;基于所述向量相似度检索空间,对所述初步子场景进行修正,确定最终子场景。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一子场景对应的子场景向量和所述第二子场景中文本数据对应的文本向量,确定向量相似度检索空间,包括:根据所述第一子场景中文本数据对应的文本向量,生成所述第一子场景对应的子场景向量;将所述第一子场景对应的子场景向量和所述第二子场景中文本数据对应的文本向量的并集,确定为向量相似度检索空间。5.根据权利要求3所述的方法,其特征在于,所述基于所述向量相似度检索空间,对所述初步子场景进行修正,确定最终子场景,包括:以所述向量相似度检索空间内向量间的余弦距离为度量,对所述初步子场景进行修正,确定最终子场景。6.根据权利要求1所述的方法,其特征在于,所述最终子场景包括第三子场景...

【专利技术属性】
技术研发人员:刘杰高珊
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1