一种结构化文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38908615 阅读:30 留言:0更新日期:2023-09-25 09:27
本发明专利技术公开了一种结构化文本分类方法、装置、电子设备及存储介质,方法包括:获取结构化文本;根据分段索引,在各分段前后插入标识词和分段名称,得到待处理文本;对待处理文本进行分词转化处理,获得目标一维向量,并确定标识词的索引位置;对目标一维向量进行编码处理,获得目标二维向量;基于索引位置,对目标二维向量进行解码处理,获得各分段的分类结果。本发明专利技术通过在分段结构的前后添加标识词,引入分段结构在全文的位置特征,并插入对应分段名称,引入各分段的结构化信息之间的差异性;通过基于标识词的索引位置获取每个分段结构分类结果,提高分类细粒度,可广泛应用于文本数据处理技术领域。据处理技术领域。据处理技术领域。

【技术实现步骤摘要】
一种结构化文本分类方法、装置、电子设备及存储介质


[0001]本专利技术涉及文本数据处理
,尤其涉及一种结构化文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]文本分类作为最常见的数据分类任务之一,具有极广的应用面和多种输入形式。结构化文本是其中一种输入形式,是将整篇文本分为不同段落,根据段落本身以及段落结构化信息,对具体段落进行分类。不同场景下的文本结构信息不同,例如,在项目课题申报书审阅场景中,文本结构化信息就是模板化的分段要求,需要包含分段名称以及对应分段在原文中的起止位置索引,而场景任务则是需要对不同分段的内容进行审核,判断内容是否符合标准,以提高申请通过的项目质量,优化经费分配。申报书内容审核的文本信息通常篇幅较长,且结构划分较为复杂,现阶段有关技术主要采用基于规则库的先验模板匹配技术以及基于文本拼接的深度学习技术。
[0003]现有的基于规则库的先验模板匹配技术有提出根据不同段落结构化信息(类别)设计不同的分类规则,根据文本段落中的关键词和内容进行分类,虽然可以对单篇文本中不同的结构进行细致分类,但是过于本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种结构化文本分类方法,其特征在于,包括:获取结构化文本;其中,所述结构化文本包括多个分段以及各所述分段的分段名称和分段索引;根据所述分段索引,在各所述分段前后插入标识词和所述分段名称,得到待处理文本;对所述待处理文本进行分词转化处理,获得目标一维向量,并确定所述标识词的索引位置;对所述目标一维向量进行编码处理,获得目标二维向量;基于所述索引位置,对所述目标二维向量进行解码处理,获得各所述分段的分类结果。2.根据权利要求1所述的结构化文本分类方法,其特征在于,所述获取结构化文本,包括:获取基于预设结构整理的业务文本;其中,所述业务文本包括多个分段,各所述分段根据所述预设结构整理得到;基于所述预设结构,获取各所述分段的分段名称和分段索引。3.根据权利要求1所述的结构化文本分类方法,其特征在于,所述标识词包括开始标识词和结束标识词,所述根据所述分段索引,在各所述分段前后插入标识词和所述分段名称,包括:根据所述分段索引,确定各所述分段的起始位置和结束位置;在所述起始位置插入所述开始标识词和所述分段名称,并在所述结束位置插入所述结束标识词和所述分段名称。4.根据权利要求1所述的结构化文本分类方法,其特征在于,所述对所述待处理文本进行分词转化处理,获得目标一维向量,并确定所述标识词的索引位置,包括:将所述待处理文本拆分为多个存在于词表中的子词,获得第一长度的子词列表;其中,所述词表包括多个不重复的子词,各所述子词对应唯一标识号;所述词表的所述子词包括所述标识词;定位所述子词列表中的所述标识词,确定所述标识词的索引位置;根据所述词表中各所述子词对应的所述唯一标识号,将所述子词列表转化为第一长度的目标一维向量。5.根据权利要求4所述的结构化文本分类方法,其特征在于,所述确定所述标识词的索引位置这一步骤后,所述方法还包括:对所述子词列表中的标识词进行清理处理,并对所述子词列表进行预处理...

【专利技术属性】
技术研发人员:戴亨玮杨明智麦英
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1