基于语义角色标注的文书体裁分类系统及方法技术方案

技术编号:21034437 阅读:46 留言:0更新日期:2019-05-04 05:29
本发明专利技术公开了一种基于语义角色标注的文书体裁分类系统及方法,系统包括相连接的语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库;语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器,体裁识别规则引擎包括相连接的体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器,体裁识别规则解析器用于将体裁识别规则由文本解析成计算机程序能识别的数据结构;体裁识别规则匹配器用于将语义角色标注引擎标注过的结果与体裁识别规则进行匹配;体裁识别规则推理器用于根据体裁识别规则匹配器的匹配结果,执行推理得出最终的体裁分类。本发明专利技术数据成本较低、计算成本较低、体裁识别准确度较高。

Genre Classification System and Method Based on Semantic Role Annotation

【技术实现步骤摘要】
基于语义角色标注的文书体裁分类系统及方法
本专利技术涉及文书体裁分类领域,特别涉及一种基于语义角色标注的文书体裁分类系统及方法。
技术介绍
针对党的文献、专项政策、法律法规、领导讲话等党政文书进行体裁分类时,传统的方法是针对不同文书体裁收集大量语料,利用机器学习训练模型,基于该机器学习训练模型对文书进行分类,其总结的文献数量较多,数据成本较高,另外,需要处理完整的文献内容,计算成本较高。这种体裁识别方法准确度低,因为党政文书不像新闻类信息篇幅短少,很多党政文书几十页、甚至几百页。机器学习技术很难准确训练出准确分类模型。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种数据成本较低、计算成本较低、体裁识别准确度较高的基于语义角色标注的文书体裁分类系统及方法。本专利技术解决其技术问题所采用的技术方案是:构造一种基于语义角色标注的文书体裁分类系统,包括:语义角色标注引擎:用于执行语义角色标注;知识本体库:用于存储和维护知识本体;体裁识别规则引擎:用于对体裁识别规则进行解析、匹配和推理;体裁识别规则库:用于维护和存储体裁识别规则;所述语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库相连接;所述语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器;所述体裁识别规则引擎包括:体裁识别规则解析器:用于将所述体裁识别规则由文本解析成计算机程序能识别的数据结构;体裁识别规则匹配器:用于将所述语义角色标注引擎标注过的结果与所述体裁识别规则进行匹配;体裁识别规则推理器:用于根据所述体裁识别规则匹配器的匹配结果,执行推理得出最终的体裁分类;所述体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器相连接。本专利技术还涉及一种基于语义角色标注的文书体裁分类方法,应用于上述基于语义角色标注的文书体裁分类系统,所述方法包括如下步骤:A)使用语义角色标注引擎对输入的文献标题进行语义角色标注,得到语义角色标注结果;B)从体裁识别规则库读取体裁识别规则,由体裁识别规则解析器进行解析,并得到体裁识别规则解析结果;C)使用体裁识别规则匹配器对所述语义角色标注结果与所述体裁识别规则解析结果进行匹配操作;D)使用匹配得到的体裁识别规则进行体裁分类。在本专利技术所述的基于语义角色标注的文书体裁分类方法中,在所述步骤A)之前还包括预处理步骤:A0)建立体裁识别规则,并将其存入体裁识别规则库;所述体裁识别规则包括前项描述部分、推导符和后项描述部分,所述前项描述部分为命名实体类型的序列组合,所述后项描述部分为体裁类别和可信度。在本专利技术所述的基于语义角色标注的文书体裁分类方法中,所述步骤A0)进一步包括:A01)人工总结规律;A02)将所述规律用符合体裁识别规则语法的字符来表示,得到体裁识别规则;A03)将所述体裁识别规则录入所述基于语义角色标注的文书体裁分类系统;A04)体裁识别规则解析器对所述体裁识别规则进行解析,得到表示体裁识别规则的计算机数据结构,判断所述计算机数据结构是否符合所述体裁识别规则语法的语法结构,如是,执行步骤A05);否则,返回步骤A02);A05)将所述计算机数据结构与已存在的体裁识别规则进行对比,判断是否通过语义校验,如是,执行步骤A06);否则,返回步骤A01);A06)将所述体裁识别规则存入所述体裁识别规则库。在本专利技术所述的基于语义角色标注的文书体裁分类方法中,所述步骤A)进一步包括:A1)使用分词器对输入的文献标题进行全分词,将所有的分词组合提取出来;A2)使用语义角色标注器对所述分词组合进行语义角色标注;A3)使用语法分析器进行语法分析,选择出最合理的分词结果组合,消除所述分词结果组合中的重叠的部分,得到最终的所述语义角色标注结果。在本专利技术所述的基于语义角色标注的文书体裁分类方法中,所述步骤B)进一步包括:B1)使用体裁识别规则解析器对由文本表示的体裁识别规则进行解析;B2)将所述由文本表示的体裁识别规则转换为计算机能识别的表示体裁识别规则的数据结构。在本专利技术所述的基于语义角色标注的文书体裁分类方法中,所述步骤C)进一步包括:C1)将所述语义角色标注结果与所述体裁识别规则中的角色类型序列进行一一比对;C2)获取所有匹配成功的体裁识别规则。在本专利技术所述的基于语义角色标注的文书体裁分类方法中,所述步骤D)进一步包括:D1)将所述匹配成功的体裁识别规则的后项描述部分取出;D2)选出所述后项描述部分中可信值最大的体裁识别规则,并将其作为结果输出。实施本专利技术的基于语义角色标注的文书体裁分类系统及方法,具有以下有益效果:由于系统设有语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库,体裁识别规则引擎包括体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器,体裁识别规则解析器用于将体裁识别规则由文本解析成计算机程序能识别的数据结构,体裁识别规则匹配器用于将语义角色标注引擎标注过的结果与体裁识别规则进行匹配;体裁识别规则推理器用于根据体裁识别规则匹配器的匹配结果,执行推理得出最终的体裁分类;上述基于语义角色标注的文书体裁分类方法应用于该基于语义角色标注的文书体裁分类系统,本专利技术与传统机器学习方式相比,其用于体裁识别规则的总结的文献数量远小于机器学习,处理的数据量更小,不需要处理完整的文献内容,仅对标题做处理,将人类专家的知识总结成体裁识别规则交由计算机执行,让机器在对应的领域具有人类专家的水平,因此数据成本较低、计算成本较低、体裁识别准确度较高。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于语义角色标注的文书体裁分类系统及方法一个实施例中系统的结构示意图;图2为所述实施例中方法的流程图;图3为所述实施例中建立体裁识别规则,并将其存入体裁识别规则库的具体流程图;图4为所述实施例中使用语义角色标注引擎对输入的文献标题进行语义角色标注,得到语义角色标注结果的具体流程图;图5为所述实施例中从体裁识别规则库读取体裁识别规则,由体裁识别规则解析器进行解析,并得到体裁识别规则解析结果的具体流程图;图6为所述实施例中使用体裁识别规则匹配器对语义角色标注结果与体裁识别规则解析结果进行匹配操作的具体流程图;图7为所述实施例中使用匹配得到的体裁识别规则进行体裁分类的具体流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术基于语义角色标注的文书体裁分类系统及方法实施例中,其基于语义角色标注的文书体裁分类系统的结构示意图如图1所示。图1中,该基于语义角色标注的文书体裁分类系统包括相连接的语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库;其中,语义角色标注引擎是用于执行语义角色标注功能的模块;语义角色标注引擎包括相连接的分词本文档来自技高网...

【技术保护点】
1.一种基于语义角色标注的文书体裁分类系统,其特征在于,包括:语义角色标注引擎:用于执行语义角色标注;知识本体库:用于存储和维护知识本体;体裁识别规则引擎:用于对体裁识别规则进行解析、匹配和推理;体裁识别规则库:用于维护和存储体裁识别规则;所述语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库相连接;所述语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器;所述体裁识别规则引擎包括:体裁识别规则解析器:用于将所述体裁识别规则由文本解析成计算机程序能识别的数据结构;体裁识别规则匹配器:用于将所述语义角色标注引擎标注过的结果与所述体裁识别规则进行匹配;体裁识别规则推理器:用于根据所述体裁识别规则匹配器的匹配结果,执行推理得出最终的体裁分类;所述体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器相连接。

【技术特征摘要】
1.一种基于语义角色标注的文书体裁分类系统,其特征在于,包括:语义角色标注引擎:用于执行语义角色标注;知识本体库:用于存储和维护知识本体;体裁识别规则引擎:用于对体裁识别规则进行解析、匹配和推理;体裁识别规则库:用于维护和存储体裁识别规则;所述语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库相连接;所述语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器;所述体裁识别规则引擎包括:体裁识别规则解析器:用于将所述体裁识别规则由文本解析成计算机程序能识别的数据结构;体裁识别规则匹配器:用于将所述语义角色标注引擎标注过的结果与所述体裁识别规则进行匹配;体裁识别规则推理器:用于根据所述体裁识别规则匹配器的匹配结果,执行推理得出最终的体裁分类;所述体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器相连接。2.一种基于语义角色标注的文书体裁分类方法,其特征在于,应用于如权利要求1所述的基于语义角色标注的文书体裁分类系统,所述方法包括如下步骤:A)使用语义角色标注引擎对输入的文献标题进行语义角色标注,得到语义角色标注结果;B)从体裁识别规则库读取体裁识别规则,由体裁识别规则解析器进行解析,并得到体裁识别规则解析结果;C)使用体裁识别规则匹配器对所述语义角色标注结果与所述体裁识别规则解析结果进行匹配操作;D)使用匹配得到的体裁识别规则进行体裁分类。3.根据权利要求2所述的基于语义角色标注的文书体裁分类方法,其特征在于,在所述步骤A)之前还包括预处理步骤:A0)建立体裁识别规则,并将其存入体裁识别规则库;所述体裁识别规则包括前项描述部分、推导符和后项描述部分,所述前项描述部分为命名实体类型的序列组合,所述后项描述部分为体裁类别和可信度。4.根据权利要求3所述的基于语义角色标注的文书体裁分类方法,其特征在于,所述步骤A0)进一步包括:A01)人工总...

【专利技术属性】
技术研发人员:蓝建敏
申请(专利权)人:京华信息科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1