一种文本分段主题提取方法、系统、可读介质及设备技术方案

技术编号:34396476 阅读:19 留言:0更新日期:2022-08-03 21:30
本发明专利技术涉及主题提取领域,具体提供了一种文本分段主题提取方法、系统、可读介质及设备,包括:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;检测分段文本的起始端点与末尾端点;判断同个分段文本所标注的分段字符与检测结果是否匹配;当匹配时,获取与预设分段特征一致的提取特征,并按照提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题;对所有分段主题进行主题分析,得到文本主题。通过进行文本智能分段、对提取的关键字进行字分析得到分段题主、对分段主题进行分析得到文本主题,可以对文本结构进行有效梳理,提高用户的阅读体验感。阅读体验感。阅读体验感。

【技术实现步骤摘要】
一种文本分段主题提取方法、系统、可读介质及设备


[0001]本专利技术涉及主题提取
,特别涉及一种文本分段主题提取方法、系统、可读介质及设备。

技术介绍

[0002]在对大篇幅的文章进行阅读的过程中,如果篇幅内容过长,且没有段落划分以及主题引导,可能会导致用户在阅读该文章时,经常很难找到整个文章的重点,尤其是当识别文本较多、并且涉及多个主题时,用户更难理清识别文本的篇章结构,以及很难准确找出每个主题的内容,综上,不能满足用户的阅读体验感。
[0003]因此,本专利技术提出一种文本分段主题提取方法、系统、可读介质以及设备。

技术实现思路

[0004]本专利技术提供一种文本分段主题提取方法、系统、可读介质及设备,用以通过进行文本智能分段、对提取的关键字进行字分析得到分段题主、对分段主题进行分析得到文本主题,可以对文本结构进行有效梳理,提高用户的阅读体验感。
[0005]本专利技术提供一种文本分段主题提取方法,包括:步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;步骤2:检测所述分段文本的起始端点与末尾端点;步骤3:判断同个分段文本所标注的分段字符与检测结果是否匹配;步骤4:当匹配时,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题;步骤5:对所有分段主题进行主题分析,得到文本主题。
[0006]优选的,步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,包括:获取所述预设分段分类器的分类特征引擎集合;基于所述目标文本的文本量以及文本读写复杂度,确定当所述目标文本完全满足对应的分类特征引擎的执行条件时,预估对应分类特征引擎在分段处理过程中的预设执行时间;当按照所述分类特征引擎对所述目标文本进行分段处理时,统计对应分类特征引擎的当下执行时间;基于所述当下执行时间、当下执行时间与对应预设执行时间的比值以及对应分类特征引擎的引擎标识,构建对应分类特征引擎的分段处理曲线;基于所述预设分段分类器的预设属性,对所有分段处理曲线进行曲线处理,得到分段图;遍历所述分段图,按照相似等级,进行曲线同类显著性显示;
根据显著性显示结果,对同类显著性显示范围进行框定,并对框定范围进行大小排序;获取前N1个框定范围所对应的框定特征引擎,并分别获取每个框定特征引擎的框选分段特征;从所有预设分段特征中,匹配与所述框选分段特征相似的第一分段特征;分别获取前N1个框定范围中每个框定范围包含的框定特征引擎对所述目标文本的分段处理总文本以及第一分段处理结果;基于所述第一分段特征,对对应框定范围的分段处理总文本进行分段处理验证,得到第二分段处理结果;当所述第一分段处理结果与第二分段处理结果一致时,将对应框定范围中框定特征引擎的分段处理结果保留;否则,将所述第一分段处理结果与第二分段处理结果进行对比分析,得到第三分段处理结果,并保留;获取剩余框定范围中的框定引擎特征所对应的分段处理结果,并结合保留的分段处理结果,得到分段文本。
[0007]优选的,在每个分段文本的分段节点上标注分段字符,包括:按照每个分段文本涉及的预设分段特征、前N1个框定范围内的框定特征引擎、剩余框定范围内的框定特征引擎,构建对应分段文本的特征集合;基于特征字符生成模型,对当下特征集合进行预处理,生成待处理字符;同时,基于所述特征字符生成模型,对相邻两侧的特征集合进行预处理,生成左侧辅助字符以及右侧辅助字符;基于所述待处理字符以及左侧辅助字符,得到对应分段文本的第一分段字符,并在所述分段节点的左侧设置第一空白单元,标注所述第一分段字符;基于所述待处理字符以及右侧辅助字符,得到对应分段文本的第二分段字符,并在所述分段节点的右侧设置第二空白单元,标注所述第二分段字符;其中,同个分段节点的第一分段字符与第二分段字符即为分段节点上标注的分段字符。
[0008]优选的,步骤2,检测所述分段文本的起始端点与末尾端点,包括:获取所述分段文本的文本字符,并按照句划分规则,对所述分段文本进行句划分,得到若干第一子句;同时,对所述文本字符进行段识别,得到段领域以及段知识;分别确定每个第一子句的句领域以及句知识,并将每个句领域与段领域进行第一匹配以及将每个句知识与段知识进行第二匹配;基于第一匹配结果以及第二匹配结果,筛选满足双匹配条件的第一个第一子句以及最后一个第一子句,并将所述第一个第一子句视为第二子句,将所述最后一个第一子句视为第三子句;对所述第二子句进行起始端点检测,得到所述第二子句的第一句特征,同时,对所述第三子句进行末尾端点检测,得到所述第三子句的第二句特征。
[0009]优选的,步骤4,判断同个分段文本所标注的分段字符与检测结果是否匹配,包括:
基于所述分段字符得到第一分段字符以及第二分段字符,同时,基于检测结果,得到第一句特征以及第二句特征;基于字符向量转换模型,将所述第一分段字符进行字符向量标准转换,得到第一转换向量,同时,将所述第二分段字符进行字符向量标准转换,得到第二转换向量;基于特征向量转换模型,将所述第一句特征进行特征向量标准转换,得到第一特征向量,同时,将所述第二句特征进行特征向量标准转换,得到第二特征向量;优先将同侧的第一转换向量与第一特征向量以及第二转换向量与第二特征向量进行向量配准;当向量配准结果满足预设配准条件时,判定同个分段文本所标注的分段字符与检测结果匹配;否则,判定同个分段文本所标注的分段字符与检测结果不匹配,获取所述分段文本以及对应的相邻文本,重新进行分段处理。
[0010]优选的,步骤4,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题,包括:从分段

提取特征数据库中,匹配得到与所述预设分段特征一致的提取特征;基于每个分段文本涉及的所述预设分段分类器中的框定特征引擎的框定分段特征,从所有提取特征中筛选得到对应分段文本的提取集合;基于所述提取集合中每个提取特征,依次对对应分段文本进行关键字提取,并构建提取列表,且所述提取列表中每个单元格对应一种提取特征,且每个单元格中对应放置有按照对应提取特征所提取得到的关键字;确定提取的每个关键字基于对应提取列表的重合比值;其中,H1表示对应关键字在所述提取列表中的出现次数,且在每个单元格中最多出现一次;H表示所述提取列表的单元格的总个数,且与提取集合中包含的提取特征的个数相等;从所述提取列表中筛选重合比值大于预设比值的关键字,并视为重合关键字,并对所述重合关键字进行第一标定,同时,获取所述提取列表中每个单元格中的每个关键字与同个单元格所对应的提取特征之间的匹配度,并对最大匹配度的关键字进行第二标定;根据第一标定结果以及第二标定结果,确定双标定关键字,并作为待判断中心字;分别计算每个待判断中心字的字中心程度;
其中,L表示对应待判断中心字的字中心程度;n1表示对应待判断中心字所对应提取列表中的集中的字的个数;n2表示对应待判断中心本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分段主题提取方法,其特征在于,包括:步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,并在每个分段文本的分段节点上标注分段字符;步骤2:检测所述分段文本的起始端点与末尾端点;步骤3:判断同个分段文本所标注的分段字符与检测结果是否匹配;步骤4:当匹配时,获取与所述预设分段特征一致的提取特征,并按照所述提取特征,对每个分段文本进行关键字提取,并对提取后的关键字进行字分析,得到分段主题;步骤5:对所有分段主题进行主题分析,得到文本主题。2.如权利要求1所述的文本分段主题提取方法,其特征在于,步骤1:基于预设分段特征以及预设分段分类器,对目标文本进行分段处理,包括:获取所述预设分段分类器的分类特征引擎集合;基于所述目标文本的文本量以及文本读写复杂度,确定当所述目标文本完全满足对应的分类特征引擎的执行条件时,预估对应分类特征引擎在分段处理过程中的预设执行时间;当按照所述分类特征引擎对所述目标文本进行分段处理时,统计对应分类特征引擎的当下执行时间;基于所述当下执行时间、当下执行时间与对应预设执行时间的比值以及对应分类特征引擎的引擎标识,构建对应分类特征引擎的分段处理曲线;基于所述预设分段分类器的预设属性,对所有分段处理曲线进行曲线处理,得到分段图;遍历所述分段图,按照相似等级,进行曲线同类显著性显示;根据显著性显示结果,对同类显著性显示范围进行框定,并对框定范围进行大小排序;获取前N1个框定范围所对应的框定特征引擎,并分别获取每个框定特征引擎的框选分段特征;从所有预设分段特征中,匹配与所述框选分段特征相似的第一分段特征;分别获取前N1个框定范围中每个框定范围包含的框定特征引擎对所述目标文本的分段处理总文本以及第一分段处理结果;基于所述第一分段特征,对对应框定范围的分段处理总文本进行分段处理验证,得到第二分段处理结果;当所述第一分段处理结果与第二分段处理结果一致时,将对应框定范围中框定特征引擎的分段处理结果保留;否则,将所述第一分段处理结果与第二分段处理结果进行对比分析,得到第三分段处理结果,并保留;获取剩余框定范围中的框定引擎特征所对应的分段处理结果,并结合保留的分段处理结果,得到分段文本。3.如权利要求2所述的文本分段主题提取方法,其特征在于,在每个分段文本的分段节点上标注分段字符,包括:按照每个分段文本涉及的预设分段特征、前N1个框定范围内的框定特征引擎、剩余框定范围内的框定特征引擎,构建对应分段文本的特征集合;
基于特征字符生成模型,对当下特征集合进行预处理,生成待处理字符;同时,基于所述特征字符生成模型,对相邻两侧的特征集合进行预处理,生成左侧辅助字符以及右侧辅助字符;基于所述待处理字符以及左侧辅助字符,得到对应分段文本的第一分段字符,并在所述分段节点的左侧设置第一空白单元,标注所述第一分段字符;基于所述待处理字符以及右侧辅助字符,得到对应分段文本的第二分段字符,并在所述分段节点的右侧设置第二空白单元,标注所述第二分段字符;其中,同个分段节点的第一分段字符与第二分段字符即为分段节点上标注的分段字符。4.如权利要求1所述的分段文本主题提取方法,其特征在于,步骤2,检测所述分段文本的起始端点与末尾端点,包括:获取所述分段文本的文本字符,并按照句划分规则,对所述分段文本进行句划分,得到若干第一子句;同时,对所述文本字符进行段识别,得到段领域以及段知识;分别确定每个第一子句的句领域以及句知识,并将每个句领域与段领域进行第一匹配以及将每个句知识与段知识进行第二匹配;基于第一匹配结果以及第二匹配结果,筛选满足双匹配条件的第一个第一子句以及最后一个第一子句,并将所述第一个第一子句视为第二子句,将所述最后一个第一子句视为第三子句;对所述第二子句进行起始端点检测,得到所述第二子句的第一句特征,同时,对所述第三子句进行末尾端点检测,得到所述第三子句的第二句特征。5.如权利要求1所述的分段文本主题提取方法,其特征在于,步骤4,判断同个分段文本所标注的分段字符与检测结果是否匹配,包括:基于所述分段字符得到第一分段字符以及第二分段字符,同时,基于检测结果,得到第一句特征以及第二句特征;基于字符向量转换模型,将所述第一分段字符进行字符向量标准转换,得到第一转换向量,同时,将所述第二分段字符进行字符向量标准转换,得到第二转换向量;基于特征向量转换模型,将所述第一句特征进行特征向量标准转换,得到第一特征向量,同时,将所述第二句特征进行特征向量标准转换,得到第二特征向量;优先将同侧的第一转换向量与第一特征向量以及第二转换向量与第二特征向量...

【专利技术属性】
技术研发人员:李根柱
申请(专利权)人:北京思源智通科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1