【技术实现步骤摘要】
基于多特征自适应融合的段落识别方法、系统及存储介质
[0001]本专利技术涉及文本处理
,特别是涉及一种基于多特征自适应融合的段落识别方法,还涉及应用该段落识别方法的段落识别系统和计算机可读存储介质。
技术介绍
[0002]上市公司每年都会公开大量的文档来向公众说明企业的经营状况。对这些文档进行关键信息抽取,可以更加全面地了解上市企业的现状与发展前景,从而帮助用户进行投资决策。在这些文档中,包含大量的PDF以及扫描件文档,这些文档本身不包含任何的结构信息,对后续的文档处理带来了极大的困扰。在所有的文档结构信息中,段落信息显得尤为重要。段落是对文本语义的划分,一方面可以使得文章行文更有条理,方便读者进行阅读理解;另一方面可以形成不同的语义簇,帮助用户据此缩小文本解析范围,提高信息抽取效率。如何获取PDF等文档的段落信息,是一个亟需解决的问题。
[0003]针对这一问题,现有的方法大多从规则层面出发,通过一系列的规则特征,例如是否缩进、字体大小等进行段落识别。但由于PDF文档格式繁杂,且文档质量良莠不齐,只通过规则信息无法对段落进行准确划分。此外,有部分人员通过句子级的序列标注方法,舍弃了质量不定的规则信息,利用文本的语义信息进行段落识别。但该方法仍然存在缺陷。一方面,不能因为规则信息存在质量问题而舍弃,这仍然是划分段落的重要特征;另一方面,句子级别的序列标注方法会显著地增加模型的资源占用,同时也延长了模型的推理时间。少数方法虽然提出了综合利用语义与规则特征,但并没有形成统一的框架,分阶段式的策略严重损害了 ...
【技术保护点】
【技术特征摘要】
1.一种基于多特征自适应融合的段落识别方法,其特征在于,包括如下步骤:S1.将相邻的一对文本片段作为一个样本,分别获取每个样本即每个文本片段对的文本信息、规则信息和标签信息,由此构建段落识别数据集合;S2.获取文本信息的文本语义特征;S3.获取规则信息的总体规则特征,所述总体规则特征由符号特征、字号特征、位置特征、起始字符特征和字符数特征构成;S4.采用注意力机制自适应融合所述文本语义特征和所述总体规则特征,得到全局特征;S5.根据融合后的全局特征训练得到最优识别模型,并利用所述最优识别模型对所有相邻文本片段的连续性进行判断,得到段落识别结果。2.根据权利要求1所述的一种基于多特征自适应融合的段落识别方法,其特征在于,S1包括以下步骤:S11.构建段落识别数据的文本信息集合T,T表示为:T={t1,t2,
···
,t
k
,
···
,t
K
}其中,t
k
表示第k个样本的文本信息,K为样本总数;文本信息t
k
由一对文本片段组成,记为文段片段包含的单词记为包含的单词记为表示文本信息t
k
中的文本片段中的第n个文本词,N表示文本信息的最大词汇长度;S12.构建段落识别数据的的规则信息集合R,R表示为:R={U1,U2,
···
,U
k
,
···
,U
K
}其中,U
k
表示第k个样本的规则信息;规则信息U
k
由一对规则描述组成,记为对应于文本片段对按照规则类型,规则描述划分为符号、字号、位置、起始字符以及字符数五种特征,记为字号、位置、起始字符以及字符数五种特征,记为和分别表示中的符号信息、字号信息、位置信息、起始字符信息和字符数信息;S13.构建段落识别数据的标签信息集合Λ,Λ表示为:Λ={Λ1,Λ2,
···
,Λ
k
,
···
,Λ
K
}其中,Λ
k
∈{0,1}表示第k个样本的标签信息,当Λ
k
=0时表示文本片段对不连续,当Λ
k
=1时表示文本片段对连续;S14.由文本信息集合T、则信息集合R和标签信息集合Λ构建段落识别数据集合A={T,R,Λ}。3.根据权利要求2所述的一种基于多特征自适应融合的段落识别方法,其特征在于,S2包括以下步骤:S21.将每个样本的文本信息所包含的文本片段对进行拼接,同时添加开始字符、间隔字符以及结束字符,进而得到文本序列;其中,添加字符的方法为:将所述间隔字符添加在相邻的两个文本片段之间,将所述开始字符和所述结束字符分别添加在相邻的两个文本片段前后;
S22.采用预训练语言模型对所述文本序列进行语义特征提取,得到相应样本的文本语义特征。4.根据权利要求3所述的一种基于多特征自适应融合的段落识别方法,其特征在于,S3包括以下步骤:依次获取每个样本的符号特征、字号特征、位置特征、起始字符特征、字符数特征;利用深度神经网络融合每个样本的所有规则特征,从而得到每个样本的总体规则特征v
R,k
。5.根据权利要求4所述的一种基于多特征自适应融合的段落识别方法,其特征在于,步骤S3中,在获取所述符号特征时,将二元指示变量作为第k个样本中第i个文本片段的符号信息的特征表示,记为其中,表示第i个文本片段是否以符号结尾,表示第i个文本片段是否以含有结束语义的符号结尾;第k个样本的符号特征表示为在获取所述字号特征时,将数值变量作为第k个样本中第i个文本片段的字号信息的特征表示,记为其中,表示第i个文本片段中所有字符的平均宽度,表示第i个文本片段中所有字符的平均高度;第k个样本的字号特征表示为在获取所述位置特征时,将文本页面坐标化,以坐标变量在获取所述位置特征时,将文本页面坐标化,以坐标变量作为第k个样本中第i个文本片段的位置信息的特征表示,记为其中,表示第i个文本片段左上角的位置坐标,表示第i个文本片段右上角的位置坐标,表示第...
【专利技术属性】
技术研发人员:冯卫强,张友豪,吴彦儒,徐旺,
申请(专利权)人:合肥大智慧财汇数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。