本申请涉及一种文本大纲的提取方法、装置、电子装置和存储介质,该方法包括:基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征,以及基于待提取文本的格式,获取待提取文本中每句文本的句格式特征,句内容特征包含对应句文本的字特征;基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征;基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征;基于句融合特征以及段落特征,获取待提取文本对应的大纲信息。本申请解决了相关技术中文本大纲提取的准确性不高的问题,丰富了文本特征的层次,融合了不同层次的文本特征之间的相关性,提高了文本大纲提取的准确性。性。性。
【技术实现步骤摘要】
文本大纲的提取方法、装置、电子装置和存储介质
[0001]本申请涉及语义识别领域,特别是涉及一种文本大纲的提取方法、装置、电子装置和存储介质。
技术介绍
[0002]随着信息技术的不断发展,语义识别技术的应用变得越来越广泛。其中,文本大纲提取技术作为语义识别领域的重要分支,在政务、医药等场景内具有重要用途。例如,通过大纲提取技术可以自动提取政务公文、医学文献等文本的大纲内容。
[0003]在现有的大纲提取技术中,通常以字、词、句为维度提取文本特征,然后将文本特征输入至预先设置的序列特征提取模型,通过序列特征提取模型对文本特征进行分析,最终得到大纲内容。但是,相关技术中对文本进行分析时,往往孤立地对同一维度的每个特征进行分析,没有考虑同一维度的不同特征之间的相关性以及不同维度的特征之间的相关性,在对特征进行分析时往往忽略了其上下文语境,导致相关技术中文本大纲提取的准确性不高。
[0004]针对相关技术中存在的文本大纲提取的准确性不高的技术问题,目前还没有提出有效的解决方案。
技术实现思路
[0005]在本实施例中提供了一种文本大纲的提取方法、装置、电子装置和存储介质,以解决相关技术中文本大纲提取的准确性不高的问题。
[0006]第一个方面,在本实施例中提供了一种文本大纲的提取方法,包括:
[0007]基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征;
[0008]基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;
[0009]基于每段文本中每句文本的所述句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;
[0010]基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息。
[0011]在其中的一些实施例中,所述基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征包括:
[0012]基于所述待提取文本的可读字符,获取所述待提取文本的字特征;
[0013]基于每句文本中多个可读字符的字特征及对应的权重,获取所述待提取文本中每句文本的句内容特征。
[0014]在其中的一些实施例中,所述句格式特征包括句位置特征、句长度特征以及句占位符特征。
[0015]在其中的一些实施例中,所述句占位符特征的获取方法包括:
[0016]基于所述待提取文本中的格式占位符,获取所述待提取文本中每句文本的句占位符特征。
[0017]在其中的一些实施例中,所述基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征包括:
[0018]对所述句长度特征、所述句占位符特征以及所述句内容特征进行融合处理,得到句初始融合特征;
[0019]对所述句初始融合特征以及所述句位置特征进行融合处理,得到所述句融合特征。
[0020]在其中的一些实施例中,所述基于每段文本中每句文本的句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征包括:
[0021]构建所有句文本的所述句内容特征对应的权重矩阵以及偏置矩阵;
[0022]基于所述句内容特征、所述权重矩阵以及所述偏置矩阵,得到段落初始特征;
[0023]对所述段落初始特征进行归一化处理以及聚合处理,得到所述段落特征。
[0024]在其中的一些实施例中,所述基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息包括:
[0025]对所述句融合特征以及所述段落特征进行加权处理,并对处理结果进行归一化处理;
[0026]基于归一化处理的结果,确定所述待提取文本的大纲信息。
[0027]第二个方面,在本实施例中提供了一种文本大纲的提取装置,包括:
[0028]第一获取模块,用于基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征,所述句内容特征包含对应句文本的字特征;
[0029]第二获取模块,用于基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;
[0030]第三获取模块,用于基于每段文本中每句文本的句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;
[0031]第四获取模块,用于基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息。
[0032]第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的文本大纲的提取方法。
[0033]第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的文本大纲的提取方法。
[0034]与相关技术相比,本申请提供了一种文本大纲的提取方法、装置、电子装置和存储介质,其中,该方法包括:基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征,所述句内容特征包含对应句文本的字特征;基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;基于每段文本中每句文本的句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;基于所述句融合特征以及
所述段落特征,获取所述待提取文本对应的大纲信息。通过融合每句文本的句内容特征以及句格式特征,从而获取每句文本的内容和格式之间的关联信息,进一步通过句融合特征以及段落特征的融合,获取句文本与段落文本之间的隐含关系,通过多层次文本的融合以获取大纲信息,避免孤立地对文本特征进行分析而忽略其上下文语境,解决了相关技术中文本大纲提取的准确性不高的技术问题,丰富了文本特征的层次,并融合了不同层次的文本特征之间的相关性,从而提高了文本大纲提取的准确性。
[0035]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0036]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0037]图1是本申请一实施例的文本大纲的提取方法的终端硬件结构框图;
[0038]图2是本申请一实施例的文本大纲的提取方法的流程示意图;
[0039]图3是本申请另一实施例的文本大纲的提取方法的流程示意图;
[0040]图4是本申请一实施例的文本大纲的提取装置的结构框图。
具体实施方式
[0041]为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
[00本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本大纲的提取方法,其特征在于,包括:基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征;基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;基于每段文本中每句文本的所述句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息。2.根据权利要求1所述的文本大纲的提取方法,其特征在于,所述基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征包括:基于所述待提取文本的可读字符,获取所述待提取文本的字特征;基于每句文本中多个可读字符的字特征及对应的权重,获取所述待提取文本中每句文本的句内容特征。3.根据权利要求1所述的文本大纲的提取方法,其特征在于,所述句格式特征包括句位置特征、句长度特征以及句占位符特征。4.根据权利要求3所述的文本大纲的提取方法,其特征在于,所述句占位符特征的获取方法包括:基于所述待提取文本中的格式占位符,获取所述待提取文本中每句文本的句占位符特征。5.根据权利要求3所述的文本大纲的提取方法,其特征在于,所述基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征包括:对所述句长度特征、所述句占位符特征以及所述句内容特征进行融合处理,得到句初始融合特征;对所述句初始融合特征以及所述句位置特征进行融合处理,得到所述句融合特征。6.根据权利要求1所述的文本大纲的提取方法,其特征在于,所述基于每段文本中每句文本的句内容特征及...
【专利技术属性】
技术研发人员:金征雷,周创,张俊,
申请(专利权)人:杭州瑞成信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。