System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理领域,尤其涉及一种文档划分方法、装置、电子设备及存储介质。
技术介绍
1、自然语言处理技术已经广泛应用,自然语言处理的输入内容包括语音信息和文字信息,例如:人工编写的文档。人工编写的文档能够包含多种话题和语义信息,但是容易出现内容冗长、结构不够合理和可读性不高的问题。对于下游自然语言处理任务有较大的影响,例如基于文档进行检索、基于文档进行问答、以及对文档进行文本摘要提取等。对长文档进行划分可以对原始文档进行结构化分割,将相关的内容集中在一起,使得每一部分的内容均具有一定的完整性,便于聚焦理解。
技术实现思路
1、本申请提供了一种文档划分方法、装置、电子设备及存储介质。
2、本申请实施例一方面提供一种文档划分方法,所述方法包括:
3、基于输入文档所包括的设定符号确定所述输入文档中的多个指定单元;
4、对所述指定单元进行多模态特征提取,得到用于表征所述指定单元的布局特征和语义特征的单元特征;
5、基于所述单元特征,划分多个所述指定单元,以将所述输入文档划分为多个段落块;
6、其中,所述划分多个所述指定单元的过程包括,基于所述输入文档已有的段落块的段落特征进行段落块聚类,以更新所述输入文档当前的段落块。
7、其中,所述基于所述单元特征,划分多个所述指定单元,包括:
8、基于首个指定单元生成初始的段落块;
9、基于第二个指定单元的单元特征与初始的所述段落块的段落特征生成当前的段
10、遍历其他指定单元,基于当前的其他指定单元的单元特征与当前的段落块的段落特征生成更新后当前的段落块,所述更新后当前的段落块至少包括两个段落块。
11、其中,所述基于当前的其他指定单元的单元特征与当前的段落块的段落特征生成更新后当前的段落块,包括:
12、将当前的其他指定单元的单元特征与当前的段落块的段落特征进行差异性对比,得到对比结果;
13、如果所述对比结果小于第一阈值,将当前的其他指定单元加入当前的段落块,生成更新后的当前的段落块;
14、如果所述对比结果大于等于第一阈值,基于当前的其他指定单元生成新的段落块,生成更新后的当前的段落。
15、其中,所述基于所述输入文档已有的段落块的段落特征进行段落块聚类,以更新所述输入文档当前的段落块,包括:
16、如果所述输入文档当前的段落块发生变更,对所述已有的段落块进行聚类;
17、将所述聚类结果中相似度大于等于第二阈值的段落块进行合并,以更新所述输入文档当前的段落块。
18、其中,所述基于所述输入文档已有的段落块的段落特征进行段落块聚类,以更新所述输入文档当前的段落块,还包括:
19、如果所述输入文档当前的段落块的数量达到设定个数,对所述已有的段落块进行聚类;
20、将所述聚类结果中相似度大于等于第二阈值的段落块进行合并,以更新所述输入文档当前的段落块。
21、其中,所述基于所述输入文档已有的段落块的段落特征进行段落块聚类,以更新所述输入文档当前的段落块,还包括:
22、每间隔设定时间,对所述输入文档已有的段落块进行聚类;
23、将所述聚类结果中相似度大于等于第二阈值的段落块进行合并,以更新所述输入文档当前的段落块。
24、其中,所述输入文档包括用于表征文档布局信息的图像信息和用于表征所述文档语义信息的文本信息,所述对所述指定单元进行多模态特征提取,包括:
25、根据所述图像信息和所述文本信息,对所述输入文档进行特征提取,得到用于表征所述指定单元的布局特征和语义特征的单元特征。
26、本申请实施例另一方面提供一种文档划分装置,所述装置包括:
27、第一划分模块,用于基于输入文档所包括的设定符号确定所述输入文档中的多个指定单元;
28、提取模块,用于对所述指定单元进行多模态特征提取,得到用于表征所述指定单元的布局特征和语义特征的单元特征;
29、第二划分模块,用于基于所述单元特征,划分多个所述指定单元,以将所述输入文档划分为多个段落块;
30、所述第二划分模块,还用于基于所述输入文档已有的段落块的段落特征进行段落块聚类,以更新所述输入文档当前的段落块。
31、本专利技术还一方面提供一种电子设备,包括:
32、处理器、用于存储所述处理器可执行指令的存储器;
33、所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现所述的文档划分方法。
34、本专利技术再一方面提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行所述的文档划分方法。
35、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种文档划分方法,所述方法包括:
2.根据权利要求1所述的方法,所述基于所述单元特征,划分多个所述指定单元,包括:
3.根据权利要求2所述的方法,所述基于当前的其他指定单元的单元特征与当前的段落块的段落特征生成更新后当前的段落块,包括:
4.根据权利要求3所述的方法,所述基于所述输入文档已有的段落块的段落特征进行段落块聚类,以更新所述输入文档当前的段落块,包括:
5.根据权利要求1所述的方法,所述基于所述输入文档已有的段落块的段落特征进行段落块聚类,以更新所述输入文档当前的段落块,还包括:
6.根据权利要求1所述的方法,所述基于所述输入文档已有的段落块的段落特征进行段落块聚类,以更新所述输入文档当前的段落块,还包括:
7.根据权利要求1所述的方法,所述输入文档包括用于表征文档布局信息的图像信息和用于表征所述文档语义信息的文本信息,所述对所述指定单元进行多模态特征提取,包括:
8.一种文档划分装置,所述装置包括:
9.一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一
10.一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-7中任一项所述的方法。
...【技术特征摘要】
1.一种文档划分方法,所述方法包括:
2.根据权利要求1所述的方法,所述基于所述单元特征,划分多个所述指定单元,包括:
3.根据权利要求2所述的方法,所述基于当前的其他指定单元的单元特征与当前的段落块的段落特征生成更新后当前的段落块,包括:
4.根据权利要求3所述的方法,所述基于所述输入文档已有的段落块的段落特征进行段落块聚类,以更新所述输入文档当前的段落块,包括:
5.根据权利要求1所述的方法,所述基于所述输入文档已有的段落块的段落特征进行段落块聚类,以更新所述输入文档当前的段落块,还包括:
6.根据权利要求1所述的方法,所述基于所述输入文档已有的段落块的段落特征进行段落块聚类...
【专利技术属性】
技术研发人员:毛腾,
申请(专利权)人:联想诺谛北京智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。