一种文本逻辑信息结构化方法、装置及电子设备制造方法及图纸

技术编号:31090248 阅读:48 留言:0更新日期:2021-12-01 12:51
本发明专利技术公开了一种文本逻辑信息结构化方法,所述方法包括:获取待编辑文本,对所述待编辑文本根据段落顺序进行编码获取多个待分类段落;获取每一所述待分类文本的待分类文本,将每一所述待分类文本按照编码顺序依次输入已训练的孪生网络中进行二分类获得第一分类结果,其中,所述第一分类结果包括章节标题或章节内容;获取所述第一分类结果为章节标题分类的所述待分类文本的句向量,将相邻的两个所述待分类文本的句向量输入已训练的孪生网络中进行逻辑结构分类获得逻辑结构分类结果,其中,所述逻辑结构分类结果包括上下级关系或平级关系或越级关系;基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理。逻辑信息结构化处理。逻辑信息结构化处理。

【技术实现步骤摘要】
一种文本逻辑信息结构化方法、装置及电子设备


[0001]本申请涉及人工智能领域,尤其涉及一种文本逻辑信息结构化方法、装置及电子设备。

技术介绍

[0002]近年来,随着自然语言处理技术发展的越来越成熟,大量的文本信息在进行信息抽取等相关处理后,被用于构建相关领域的知识图谱以及如知识问答等相关任务中。常见的文本信息包括如新闻、评论、短的描述文本以及篇幅较长的以word,pdf等形式保存的文档类文本。相较于新闻类的短文本而言,一篇文档往往由标题、章节、段落等逻辑结构组成,拥有更为丰富的逻辑信息,基于文档逻辑结构信息的信息抽取更有助于知识的形成以及知识图谱的构建。可以构建出更为丰富完整的领域知识并用于下游的任务中。
[0003]然而由于文档写作不规范等原因,文档的逻辑结构信息往往无法直接使用,目前的知识图谱构建中,多关注于从大量无结构的文本信息中抽取相关内容进行知识图谱的构建,忽略了文档中丰富的逻辑结构信息。而在真实的业务场景下,信息抽取标注数据的获取成本十分高昂,少量标注样本下的信息抽取表现性能不佳,造成了大量文本信息没有充分使用,这成为了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本逻辑信息结构化方法,其特征是,所述方法包括:获取待编辑文本,对所述待编辑文本根据段落顺序进行编码获取多个待分类段落;获取每一所述待分类文本的待分类文本,将每一所述待分类文本按照编码顺序依次输入已训练的孪生网络中进行二分类获得第一分类结果,其中,所述第一分类结果包括章节标题或章节内容;获取所述第一分类结果为章节标题分类的所述待分类文本的句向量,将相邻的两个所述待分类文本的句向量输入已训练的孪生网络中进行逻辑结构分类获得逻辑结构分类结果,其中,所述逻辑结构分类结果包括上下级关系或平级关系或越级关系;基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理。2.根据权利要求1所述的一种文本逻辑信息结构化方法,其特征是,对所述待编辑文本根据段落顺序进行编码之前,对所述待编码文本中较长的段落进行截断处理获得截断段落,将所述截断段落代替所述较长的段落获取所述待分类文本。3.根据权利要求1所述的一种文本逻辑信息结构化方法,其特征是,基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理包括:将所述第一分类结果为章节内容的所述待分类文本作为在前的所述第一分类结果为章节标题的待分类文本的章节内容。4.根据权利要求3所述的一种文本逻辑信息结构化方法,其特征是,基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理还包括:所述逻辑结构分类结果为上下级关系的,顺序靠前的所述待分类文本作为顺序靠后的所述待分类文本的父节点;所述逻辑结构分类结果为平级关系的,顺序靠后的所述待分类文本与顺序靠前的所述待分类文本拥有同一父节点;所述逻辑结构分类结果为越级关系的,将顺序靠后的所述待分类文本单独作为父节点。5.根据权利要求4所述的一种文本逻辑信息结构化方法,其特征是,所述方法还包括:根据每一所...

【专利技术属性】
技术研发人员:朱安安邱彦林赵粉玉俞一奇
申请(专利权)人:杭州叙简科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1