一种高保真文本主语义提取系统及方法技术方案

技术编号:35840499 阅读:15 留言:0更新日期:2022-12-03 14:12
本发明专利技术提供了一种高保真文本主语义提取系统及方法,涉及数据处理技术领域,通过匹配文本类型生成类型约束参数,匹配文本作者写作特征生成用户特征语义约束参数,对文本进行多层级分割生成文本的多层级分割结果,通过类型约束参数和用户特征语义约束参数对多层级分割结果进行文本分割聚合选择,基于文本类型匹配识别数据库进行文本分割聚合选择结果的语义识别,基于语义识别结果生成语义提取结果。解决现有技术中存在智能识别文本语义准确度较低,无法获得较为准确的文章主语义的缺陷,导致文本语义识别的人工依赖度和识别成本较高的技术问题。达到提高智能识别文本语义准确度,降低文本语义识别对于人工经验的需求,降低识别成本的技术效果。低识别成本的技术效果。低识别成本的技术效果。

【技术实现步骤摘要】
一种高保真文本主语义提取系统及方法


[0001]本专利技术涉及数据处理
,具体涉及一种高保真文本主语义提取系统及方法。

技术介绍

[0002]随着人工智能的发展,用于进行文本语义识别标注的机器人或智能软硬件如雨后春笋般层出不穷,基于人工智能进行准确高效的语义识别标注的美好愿景与人工智能进行语义识别准确度现状仍存在较大的落差。
[0003]这一客观落差的存在与人类语言表达的多样性和复杂性相关,因而如何提高基于智能识别的文本语义提取准确度成为当前降低文本语义提取成本和人力资源消耗的重要方向。
[0004]现有技术中存在智能识别文本语义准确度较低,无法获得较为准确的文章主语义的缺陷,导致文本语义识别的人工依赖度和识别成本仍旧居高不下的技术问题。

技术实现思路

[0005]本申请提供了一种高保真文本主语义提取系统及方法,用于针对解决现有技术中存在智能识别文本语义准确度较低,无法获得较为准确的文章主语义的缺陷,导致文本语义识别的人工依赖度和识别成本仍旧居高不下的技术问题。
[0006]鉴于上述问题,本申请提供了一种高保真文本主语义提取系统及方法。
[0007]本申请的第一个方面,提供了一种高保真文本主语义提取系统,所述系统包括:文本处理执行模块,用于获得目标识别文本,对所述目标识别文本进行文本预处理,得到预处理文本;文本类型匹配模块,用于对所述预处理文本进行初始文本识别,基于初始文本识别结果匹配文本类型,基于所述文本类型生成类型约束参数;写作特征匹配模块,用于基于所述目标识别文本获得文本作者信息,通过所述文本作者信息进行写作特征匹配,通过写作特征匹配结果生成用户特征语义约束参数;文本分割执行模块,用于对所述预处理文本进行文本多层级分割,生成预处理文本的多层级分割结果;聚合处理执行模块,用于通过所述类型约束参数和所述用户特征语义约束参数进行所述多层级分割结果的文本分割聚合选择,获得文本分割聚合选择结果;语义识别处理模块,用于基于文本类型匹配识别数据库,基于所述识别数据库进行所述文本分割聚合选择结果的语义识别,基于语义识别结果生成语义提取结果。
[0008]本申请的第二个方面,提供了一种高保真文本主语义提取方法,所述方法包括:获得目标识别文本,对所述目标识别文本进行文本预处理,得到预处理文本;对所述预处理文本进行初始文本识别,基于初始文本识别结果匹配文本类型,基于所述文本类型生成类型约束参数;基于所述目标识别文本获得文本作者信息,通过所述文本作者信息进行写作特征匹配,通过写作特征匹配结果生成用户特征语义约束参数;对所述预处理文本进行文本多层级分割,生成预处理文本的多层级分割结果;通过所述类型约束参数和所述用户特征
语义约束参数进行所述多层级分割结果的文本分割聚合选择,获得文本分割聚合选择结果;基于文本类型匹配识别数据库,基于所述识别数据库进行所述文本分割聚合选择结果的语义识别,基于语义识别结果生成语义提取结果。
[0009]本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:本申请实施例提供的方法通过获得目标识别文本,对所述目标识别文本进行文本预处理,得到预处理文本,避免后续由于错别字或文本篇章识别不清造成文本语义分割的识别缺陷以及文本类型匹配错误;对所述预处理文本进行初始文本识别,基于初始文本识别结果匹配文本类型,基于所述文本类型生成类型约束参数,用于后续对进行语义分割处理后的预处理文本进行分割结果优化;基于所述目标识别文本获得文本作者信息,通过所述文本作者信息进行写作特征匹配,通过写作特征匹配结果生成用户特征语义约束参数,用于后续对进行语义分割处理后的预处理文本进行分割结果优化;对所述预处理文本进行文本多层级分割,生成预处理文本的多层级分割结果;通过所述类型约束参数和所述用户特征语义约束参数进行所述多层级分割结果的文本分割聚合选择,获得文本分割聚合选择结果,从而提高文本分割精确度;基于文本类型匹配识别数据库,基于所述识别数据库进行所述文本分割聚合选择结果的语义识别,基于语义识别结果生成语义提取结果。达到了提高智能识别文本语义准确度,降低文本语义识别对于人工经验的依赖从而降低文本语义识别成本的技术效果。
附图说明
[0010]图1为本申请提供的一种高保真文本主语义提取方法流程示意图;图2为本申请提供的一种高保真文本主语义提取方法中获得多层级分割结果的流程示意图;图3为本申请提供的一种高保真文本主语义提取方法中进行文本识别的识别优化的流程示意图;图4为本申请提供的一种高保真文本主语义提取系统的结构示意图。
[0011]附图标记说明:文本处理执行模块11,文本类型匹配模块12,写作特征匹配模块13,文本分割执行模块14,聚合处理执行模块15,语义识别处理模块16。
具体实施方式
[0012]本申请提供了一种高保真文本主语义提取系统及方法,用于针对解决现有技术中存在智能识别文本语义准确度较低,无法获得较为准确的文章主语义的缺陷,导致文本语义识别的人工依赖度和识别成本仍旧居高不下的技术问题,达到了提高智能识别文本语义准确度,降低文本语义识别对于人工经验的依赖从而降低文本语义识别成本的技术效果。
[0013]本专利技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
[0014]下面,将参考附图对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。另外还需要说明的是,为
了便于描述,附图中仅示出了与本专利技术相关的部分而非全部。
[0015]实施例一如图1所示,本申请提供了一种高保真文本主语义提取方法,所述方法包括:S100:获得目标识别文本,对所述目标识别文本进行文本预处理,得到预处理文本;具体而言,在本实施例中,所述目标识别文本为由同一作者在一定时间范围内撰写的包括多个文本类型文本的稿件集合,所述目标识别文本由影评杂谈、历史文化、军事政治、音乐赏析等一种或多种类型文本稿件构成,在获得所述目标识别文本后,对所述目标识别文本执行文本预处理,所述文本预处理包括错别字词替换预处理以及多个文本开始结束标识的预处理,获得无错别字且多个文本起始结束明确的所述预处理文本,避免后续由于错别字或文本篇章识别不清造成文本语义分割的识别缺陷以及文本类型匹配错误。
[0016]S200:对所述预处理文本进行初始文本识别,基于初始文本识别结果匹配文本类型,基于所述文本类型生成类型约束参数;具体而言,应理解的,所述预处理文本为对目标识别文本进行文本预处理获得的文本,因而所述预处理文本与所述目标识别文本一样,都是同一作者在一定时间范围内撰写的包括多个文本类型的文本稿件。
[0017]同时,同样的词语在不同类型文本中存在差异性,例如“节点”一词在计算机技术类型文本中的含义与叙事性文本中的含义具有差异性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高保真文本主语义提取系统,其特征在于,所述系统包括:文本处理执行模块,用于获得目标识别文本,对所述目标识别文本进行文本预处理,得到预处理文本;文本类型匹配模块,用于对所述预处理文本进行初始文本识别,基于初始文本识别结果匹配文本类型,基于所述文本类型生成类型约束参数;写作特征匹配模块,用于基于所述目标识别文本获得文本作者信息,通过所述文本作者信息进行写作特征匹配,通过写作特征匹配结果生成用户特征语义约束参数;文本分割执行模块,用于对所述预处理文本进行文本多层级分割,生成预处理文本的多层级分割结果;聚合处理执行模块,用于通过所述类型约束参数和所述用户特征语义约束参数进行所述多层级分割结果的文本分割聚合选择,获得文本分割聚合选择结果;语义识别处理模块,用于基于文本类型匹配识别数据库,基于所述识别数据库进行所述文本分割聚合选择结果的语义识别,基于语义识别结果生成语义提取结果。2.根据权利要求1所述的系统,其特征在于,所述系统还包括:词性特征构建单元,用于构建词性识别特征;初始层级划分单元,用于基于所述词性识别特征进行所述预处理文本的初始词性识别划分,获得初始层级分割结果;分割结果聚合单元,用于对所述初始层级分割结果进行相邻分割词聚合评价,生成相邻分割词聚合评价结果;评价结果判断单元,用于判断所述相邻分割词聚合评价结果是否满足预设聚合评价阈值;判断结果执行单元,用于当所述相邻分割词聚合评价结果可以满足所述预设聚合评价阈值时,则进行相邻分割词聚合,其中,每一组相邻分割词聚合方案对应一层级分割结果;分割结果整合单元,用于根据相邻分割词聚合结果和所述初始层级分割结果获得所述多层级分割结果。3.根据权利要求2所述的系统,其特征在于,所述系统还包括:成语词库构建单元,用于构建成语词库集合;分割结果判断单元,用于基于所述成语词库集合进行所述多层级分割结果的聚合评价,判断是否存在与所述成语词库集合匹配的成语聚合结果;判断结果处理单元,用于当所述多层级分割结果中存在所述成语聚合结果时,则保留所述成语聚合结果,并在将所述多层级分割结果中所述成语聚合结果部分的其他分割结果剔除。4.根据权利要求1所述的系统,其特征在于,所述系统还包括:词汇特征获得单元,用于构建发言识别词汇特征集合,并...

【专利技术属性】
技术研发人员:宋永生王楠
申请(专利权)人:文灵科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1