基于语义角色标注的文书体裁分类系统及方法技术方案

技术编号:21034437 阅读:70 留言:0更新日期:2019-05-04 05:29
本发明专利技术公开了一种基于语义角色标注的文书体裁分类系统及方法,系统包括相连接的语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库;语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器,体裁识别规则引擎包括相连接的体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器,体裁识别规则解析器用于将体裁识别规则由文本解析成计算机程序能识别的数据结构;体裁识别规则匹配器用于将语义角色标注引擎标注过的结果与体裁识别规则进行匹配;体裁识别规则推理器用于根据体裁识别规则匹配器的匹配结果,执行推理得出最终的体裁分类。本发明专利技术数据成本较低、计算成本较低、体裁识别准确度较高。

Genre Classification System and Method Based on Semantic Role Annotation

【技术实现步骤摘要】
基于语义角色标注的文书体裁分类系统及方法
本专利技术涉及文书体裁分类领域,特别涉及一种基于语义角色标注的文书体裁分类系统及方法。
技术介绍
针对党的文献、专项政策、法律法规、领导讲话等党政文书进行体裁分类时,传统的方法是针对不同文书体裁收集大量语料,利用机器学习训练模型,基于该机器学习训练模型对文书进行分类,其总结的文献数量较多,数据成本较高,另外,需要处理完整的文献内容,计算成本较高。这种体裁识别方法准确度低,因为党政文书不像新闻类信息篇幅短少,很多党政文书几十页、甚至几百页。机器学习技术很难准确训练出准确分类模型。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种数据成本较低、计算成本较低、体裁识别准确度较高的基于语义角色标注的文书体裁分类系统及方法。本专利技术解决其技术问题所采用的技术方案是:构造一种基于语义角色标注的文书体裁分类系统,包括:语义角色标注引擎:用于执行语义角色标注;知识本体库:用于存储和维护知识本体;体裁识别规则引擎:用于对体裁识别规则进行解析、匹配和推理;体裁识别规则库:用于维护和存储体裁识别规则;所述语义角色标注引擎、知识本体库、体本文档来自技高网...

【技术保护点】
1.一种基于语义角色标注的文书体裁分类系统,其特征在于,包括:语义角色标注引擎:用于执行语义角色标注;知识本体库:用于存储和维护知识本体;体裁识别规则引擎:用于对体裁识别规则进行解析、匹配和推理;体裁识别规则库:用于维护和存储体裁识别规则;所述语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库相连接;所述语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器;所述体裁识别规则引擎包括:体裁识别规则解析器:用于将所述体裁识别规则由文本解析成计算机程序能识别的数据结构;体裁识别规则匹配器:用于将所述语义角色标注引擎标注过的结果与所述体裁识别规则进行匹配;体裁识别规则推理器:用于...

【技术特征摘要】
1.一种基于语义角色标注的文书体裁分类系统,其特征在于,包括:语义角色标注引擎:用于执行语义角色标注;知识本体库:用于存储和维护知识本体;体裁识别规则引擎:用于对体裁识别规则进行解析、匹配和推理;体裁识别规则库:用于维护和存储体裁识别规则;所述语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库相连接;所述语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器;所述体裁识别规则引擎包括:体裁识别规则解析器:用于将所述体裁识别规则由文本解析成计算机程序能识别的数据结构;体裁识别规则匹配器:用于将所述语义角色标注引擎标注过的结果与所述体裁识别规则进行匹配;体裁识别规则推理器:用于根据所述体裁识别规则匹配器的匹配结果,执行推理得出最终的体裁分类;所述体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器相连接。2.一种基于语义角色标注的文书体裁分类方法,其特征在于,应用于如权利要求1所述的基于语义角色标注的文书体裁分类系统,所述方法包括如下步骤:A)使用语义角色标注引擎对输入的文献标题进行语义角色标注,得到语义角色标注结果;B)从体裁识别规则库读取体裁识别规则,由体裁识别规则解析器进行解析,并得到体裁识别规则解析结果;C)使用体裁识别规则匹配器对所述语义角色标注结果与所述体裁识别规则解析结果进行匹配操作;D)使用匹配得到的体裁识别规则进行体裁分类。3.根据权利要求2所述的基于语义角色标注的文书体裁分类方法,其特征在于,在所述步骤A)之前还包括预处理步骤:A0)建立体裁识别规则,并将其存入体裁识别规则库;所述体裁识别规则包括前项描述部分、推导符和后项描述部分,所述前项描述部分为命名实体类型的序列组合,所述后项描述部分为体裁类别和可信度。4.根据权利要求3所述的基于语义角色标注的文书体裁分类方法,其特征在于,所述步骤A0)进一步包括:A01)人工总...

【专利技术属性】
技术研发人员:蓝建敏
申请(专利权)人:京华信息科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1