基于领域专家知识体系的信息抽取系统及信息抽取方法技术方案

技术编号:19424887 阅读:28 留言:0更新日期:2018-11-14 10:32
本发明专利技术公开了一种基于领域专家知识体系的信息抽取系统及其信息抽取方法,包括:资源管理模块、预处理模块、核心处理模块、输出模块信息抽取方法为:司法领域的专家通过专家知识库单元梳理出司法领域的知识以构建领域知识库,司法领域的专家还通过资源管理模块梳理出知识点并对其定义;维护人员通过规则库单元根据信息抽取的需要编写抽取规则以形成信息抽取规则库;采用预处理模块对判决文书内容进行规整和分段;采用核心处理模块根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点,通过输出模块将抽取结果进行输出。本发明专利技术具有普适性高、维护成本低等优点。

【技术实现步骤摘要】
基于领域专家知识体系的信息抽取系统及信息抽取方法
本专利技术涉及信息抽取领域,具体来说是一种基于领域专家知识体系的信息抽取系统及其信息抽取方法。
技术介绍
判决书,法律术语,是指法院根据判决写成的文书。是法律界常用的一种应用写作文体,包括民事判决书、刑事判决书、行政判决书和刑事附带民事判决书。最高人民法院发布新规:法院生效的判决书从2014年1月1日起在互联网全面公布,除涉及国家机密、个人隐私、未成年犯罪以及不宜"晒"的4类判决书外,公众均可随时查阅。目前,现有的文书抽取技术主要以规则技术为基础,存在抽取的信息点零散以及不成体系的缺陷,因此无法满足抽取任务多变的需求,另外,现有的文本抽取技术维护成本极高,不适宜与广泛推广使用。
技术实现思路
本专利技术所要解决的技术问题是为了克服现有技术不具有普适性以及维护门槛高的缺陷,而提供一种基于领域专家知识体系的信息抽取系统及其信息抽取方法。本专利技术解决上述技术问题提供的技术方案是:本专利技术公开了一种基于领域专家知识体系的信息抽取系统,包括:资源管理模块、预处理模块、核心处理模块、输出模块,所述的资源管理模块用于管理领域知识库和信息抽取规则库,所述的预处理模块用于对判决文书内容进行规整和分段,所述的核心处理模块用于根据领域知识库和人工编写的规则资源,利用信息抽取算法抽取信息点,所述的输出模块用于将抽取结果进行输出。作为优选,所述的资源管理模块包括专家知识库单元和规则库单元,所述的专家知识库单元用于专家梳理司法领域的知识以构建领域知识库,且由司法领域的专家梳理出知识点并对其定义,所述的规则库单元用于根据信息抽取的需要由维护人员编写抽取规则形成信息抽取规则库。作为优选,本专利技术还公开了一种上述基于领域专家知识体系的信息抽取系统的信息抽取方法,具体步骤如下:(1)、司法领域的专家通过专家知识库单元梳理出司法领域的知识以构建领域知识库,司法领域的专家还通过资源管理模块梳理出知识点并对其定义;(2)、维护人员通过规则库单元根据信息抽取的需要编写抽取规则以形成信息抽取规则库;(3)、采用预处理模块对判决文书内容进行规整和分段;(4)、采用核心处理模块根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点;(5)、通过输出模块将抽取结果进行输出。作为优选,所述的步骤(3)中,具体方法如下:确定各个段落载明的内容,然后采用朴树贝叶斯分类法或规则分类法进行分类,再进行排序,即实现了智能分段,最后输出分类结果。作为优选,所述的规则分类法是根据维护人员编写的规则进行分类。作为优选,所述的排序算法为fscore=w1*fBayesian+w2*fRule其中fscore为该段落为标签A的总得分,fBayesian为该段落为标签A的贝叶斯分类得分,fRule为该段落为标签A的规则匹配得分,w1与w2为权重系数,是通过训练得到。作为优选,所述的步骤(4)是根据步骤(3)中的智能分段结果,在各个段落中抽取不同的信息点,由于判决文书中信息点数量多,类型多特点,针对不同的类型需要使用不同的方法去识别。与现有技术相比,本专利技术具有以下有益优点:本专利技术的重点是以梳理的领域业务知识体系为基础,通过采用预处理模块和核心处理模块的架构设计,先采用预处理模块对判决文书内容进行规整和分段,虽然判决文书有编写的规范,但规范中只说明了判决文书应包含哪些信息和大致的分块,因此各个法官在编写的时候,存在一定的自由度,分段的目的是确定各个段落载明的内容,对各个段落打标签,是后续抽取信息点的前提,然后再采用核心处理模块根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点,因此大幅提高了抽取系统的普适性和维护门槛,以应对多变的信息抽取需求。附图说明图1为本专利技术一种基于领域专家知识体系的信息抽取系统的系统框图;图2为本专利技术的实施例1的示意图;图3为本专利技术一种基于领域专家知识体系的信息抽取系统的步骤(3)的结构示意图。具体实施方式参照图1-3所示,本专利技术公开了一种基于领域专家知识体系的信息抽取系统,包括:资源管理模块1、预处理模块2、核心处理模块3、输出模块4,所述的资源管理模块1用于管理领域知识库和信息抽取规则库,所述的预处理模块2用于对判决文书内容进行规整和分段,所述的核心处理模块3用于根据领域知识库和人工编写的规则资源,利用信息抽取算法抽取信息点,所述的输出模块4用于将抽取结果进行输出。作为优选,所述的资源管理模块1包括专家知识库单元11和规则库单元12,所述的专家知识库单元11用于专家梳理司法领域的知识以构建领域知识库,且由司法领域的专家梳理出知识点并对其定义,所述的规则库单元12用于根据信息抽取的需要由维护人员编写抽取规则形成信息抽取规则库。作为优选,本专利技术还公开了一种上述基于领域专家知识体系的信息抽取系统的信息抽取方法,具体步骤如下:(1)、司法领域的专家通过专家知识库单元11梳理出司法领域的知识以构建领域知识库,司法领域的专家还通过资源管理模块梳理出知识点并对其定义;(2)、维护人员通过规则库单元12根据信息抽取的需要编写抽取规则以形成信息抽取规则库;(3)、采用预处理模块2对判决文书内容进行规整和分段;(4)、采用核心处理模块3根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点;(5)、通过输出模块4将抽取结果进行输出。作为优选,所述的步骤(3)中,具体方法如下:确定各个段落载明的内容,然后采用朴树贝叶斯分类法或规则分类法进行分类,再进行排序,即实现了智能分段,最后输出分类结果。作为优选,所述的规则分类法是根据维护人员编写的规则进行分类。作为优选,所述的排序算法为fscore=w1*fBayesian+w2*fRule其中fscore为该段落为标签A的总得分,fBayesian为该段落为标签A的贝叶斯分类得分,fRule为该段落为标签A的规则匹配得分,w1与w2为权重系数,是通过训练得到。作为优选,所述的步骤(4)是根据步骤(3)中的智能分段结果,在各个段落中抽取不同的信息点,由于判决文书中信息点数量多,类型多特点,针对不同的类型需要使用不同的方法去识别。实施例1一种上述基于领域专家知识体系的信息抽取系统的信息抽取方法,具体步骤如下:(1)、司法领域的专家通过专家知识库单元11梳理出司法领域的知识以构建领域知识库,司法领域的专家还通过资源管理模块梳理出知识点并对其定义;(2)、维护人员通过规则库单元12根据信息抽取的需要编写抽取规则以形成信息抽取规则库;(3)、采用预处理模块2对判决文书内容进行规整和分段,具体步骤为确定各个段落载明的内容,然后采用朴树贝叶斯分类法进行分类,再进行排序,即实现了智能分段,最后输出分类结果,所述的排序算法为fscore=w1*fBayesian+w2*fRule其中fscore为该段落为标签A的总得分,fBayesian为该段落为标签A的贝叶斯分类得分,fRule为该段落为标签A的规则匹配得分,w1与w2为权重系数,是通过训练得到;(4)、采用核心处理模块3根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点,该过程根据根据步骤(3)中的智能分段结果,在各个段落中抽取不同的信息点,由于判决文书中信息点数量多,类型多特点,针对本文档来自技高网...

【技术保护点】
1.一种基于领域专家知识体系的信息抽取系统,包括:资源管理模块、预处理模块、核心处理模块、输出模块,其特征在于:所述的资源管理模块用于管理领域知识库和信息抽取规则库,所述的预处理模块用于对判决文书内容进行规整和分段,所述的核心处理模块用于根据领域知识库和人工编写的规则资源,利用信息抽取算法抽取信息点,所述的输出模块用于将抽取结果进行输出。

【技术特征摘要】
1.一种基于领域专家知识体系的信息抽取系统,包括:资源管理模块、预处理模块、核心处理模块、输出模块,其特征在于:所述的资源管理模块用于管理领域知识库和信息抽取规则库,所述的预处理模块用于对判决文书内容进行规整和分段,所述的核心处理模块用于根据领域知识库和人工编写的规则资源,利用信息抽取算法抽取信息点,所述的输出模块用于将抽取结果进行输出。2.根据权利要求1所述的一种基于领域专家知识体系的信息抽取系统,其特征在于:所述的资源管理模块包括专家知识库单元和规则库单元,所述的专家知识库单元用于专家梳理司法领域的知识以构建领域知识库,且由司法领域的专家梳理出知识点并对其定义,所述的规则库单元用于根据信息抽取的需要由维护人员编写抽取规则形成信息抽取规则库。3.根据权利要求1或2所述的一种基于领域专家知识体系的信息抽取系统的信息抽取方法,其特征在于:具体步骤如下:(1)、司法领域的专家通过专家知识库单元梳理出司法领域的知识以构建领域知识库,司法领域的专家还通过资源管理模块梳理出知识点并对其定义;(2)、维护人员通过规则库单元根据信息抽取的需要编写抽取规则以形成信息抽取规则库;(3)、采用预处理模块对判决文书内容进行规整和分段;(4)、采用核心处理模块根据领域知识...

【专利技术属性】
技术研发人员:司华建贾真耿伟金重九
申请(专利权)人:安徽富驰信息技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1