文本大纲的提取方法、装置、电子装置和存储介质制造方法及图纸

技术编号:37291286 阅读:28 留言:0更新日期:2023-04-21 03:21
本申请涉及一种文本大纲的提取方法、装置、电子装置和存储介质,该方法包括:基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征,以及基于待提取文本的格式,获取待提取文本中每句文本的句格式特征,句内容特征包含对应句文本的字特征;基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征;基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征;基于句融合特征以及段落特征,获取待提取文本对应的大纲信息。本申请解决了相关技术中文本大纲提取的准确性不高的问题,丰富了文本特征的层次,融合了不同层次的文本特征之间的相关性,提高了文本大纲提取的准确性。性。性。

【技术实现步骤摘要】
文本大纲的提取方法、装置、电子装置和存储介质


[0001]本申请涉及语义识别领域,特别是涉及一种文本大纲的提取方法、装置、电子装置和存储介质。

技术介绍

[0002]随着信息技术的不断发展,语义识别技术的应用变得越来越广泛。其中,文本大纲提取技术作为语义识别领域的重要分支,在政务、医药等场景内具有重要用途。例如,通过大纲提取技术可以自动提取政务公文、医学文献等文本的大纲内容。
[0003]在现有的大纲提取技术中,通常以字、词、句为维度提取文本特征,然后将文本特征输入至预先设置的序列特征提取模型,通过序列特征提取模型对文本特征进行分析,最终得到大纲内容。但是,相关技术中对文本进行分析时,往往孤立地对同一维度的每个特征进行分析,没有考虑同一维度的不同特征之间的相关性以及不同维度的特征之间的相关性,在对特征进行分析时往往忽略了其上下文语境,导致相关技术中文本大纲提取的准确性不高。
[0004]针对相关技术中存在的文本大纲提取的准确性不高的技术问题,目前还没有提出有效的解决方案。

技术实现思路

[0005]在本实施例中提本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本大纲的提取方法,其特征在于,包括:基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征;基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;基于每段文本中每句文本的所述句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息。2.根据权利要求1所述的文本大纲的提取方法,其特征在于,所述基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征包括:基于所述待提取文本的可读字符,获取所述待提取文本的字特征;基于每句文本中多个可读字符的字特征及对应的权重,获取所述待提取文本中每句文本的句内容特征。3.根据权利要求1所述的文本大纲的提取方法,其特征在于,所述句格式特征包括句位置特征、句长度特征以及句占位符特征。4.根据权利要求3所述的文本大纲的提取方法,其特征在于,所述句占位符特征的获取方法包括:基于所述待提取文本中的格式占位符,获取所述待提取文本中每句文本的句占位符特征。5.根据权利要求3所述的文本大纲的提取方法,其特征在于,所述基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征包括:对所述句长度特征、所述句占位符特征以及所述句内容特征进行融合处理,得到句初始融合特征;对所述句初始融合特征以及所述句位置特征进行融合处理,得到所述句融合特征。6.根据权利要求1所述的文本大纲的提取方法,其特征在于,所述基于每段文本中每句文本的句内容特征及...

【专利技术属性】
技术研发人员:金征雷周创张俊
申请(专利权)人:杭州瑞成信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1