网页中案件信息的抽取方法技术

技术编号:13188356 阅读:68 留言:0更新日期:2016-05-11 17:47
一种网页中案件信息的抽取方法中,建立案件属性信息知识库,知识库中包括案件信息类型专有名词集、限定词集、禁止词集、案件主体专有修饰词集,对文本进行分词,并将文章分割成若干整句,结合知识库中词集翻译成对应规则,当扫描获知规则中对应的词集中的词出现,并且词后句式满足某一条规则,且该句内没有出现禁止词集时,说明该句满足此规则,根据规则中约束的字段位置抽取出法院的相关字段。本发明专利技术通过结合规则和词数集的方法,有针对性的抽取案件信息,通过该方法抽取的案件具有较高的准确率。

【技术实现步骤摘要】

本专利技术涉及互联网信息采集的
,具体说是一种。
技术介绍
随之互联网的快速发展,使得网页信息成为了一个巨大的信息发布源和传播源,且网页信息还在飞速增加,而网页中可能包含了用户所需的大量信息,如,对于某个案件的判决时间、判决结果等。实际应用中,为了能够有针对性地向用户提供网页信息,一般通过网页信息提取的方式从存在的网页中提取有用的信息,并将提取出的信息提供给用户。现有技术中,提取网页信息时,可以通过关键字匹配等方法实现。具体的,通过关键字匹配法提取网页信息时,在目标网页的源代码中查找与预设的关键字相匹配的信息,并提取与预设的关键字相匹配的信息。应用上述方法能够由目标网页中提取出部分相关信息学,但是由于网页中所包含的信息量较大,有可能会存在多个与预设的关键字相匹配的信息,可能会造成所提取的信息中包含冗余信息或者错误信息,影响用户体验。当提取出的信息中包含冗余信息的情况下,如要剔除冗余信息,则需要对提取出的信息进行二次处理,信息提取效率低。
技术实现思路
本专利技术要解决的技术问题是提供一种。本专利技术为解决公知技术中存在的技术问题所采取的技术方案是: 本专利技术的,包括以下步骤: A、建立案件属性信息知识库,知识库中包括案件信息类型专有名词集、限定词集、禁止词集、案件主体专有修饰词集; B、格式化网页源码,抽取出正文和标题内容; C、扫描文本,对文本进行分词,并将文章分割成若干整句; D、抽象出案件中关键字段的特有句式描述,并结合知识库中词集翻译成对应规则; E、当扫描获知规则中对应的词集中的词出现,并且词后句式满足某一条规则,且该句内没有出现禁止词集时,说明该句满足此规则,根据规则中约束的字段位置抽取出法院的相关字段。本专利技术还可以采用以下技术措施: 案件信息类型专有名词集中包括:公告信息、文书信息、被执行人信息、审判流程信息。案件主体专有修饰词集中包括:被告、原告、当事人。将文章中所有满足抽取规则的字段进行归一化处理。本专利技术具有的优点和积极效果是: 本专利技术的中,建立案件属性信息知识库,知识库中包括案件信息类型专有名词集、限定词集、禁止词集、案件主体专有修饰词集,对文本进行分词,并将文章分割成若干整句,结合知识库中词集翻译成对应规则,当扫描获知规则中对应的词集中的词出现,并且词后句式满足某一条规则,且该句内没有出现禁止词集时,说明该句满足此规则,根据规则中约束的字段位置抽取出法院的相关字段。本专利技术通过结合规则和词数集的方法,有针对性的抽取案件信息,通过该方法抽取的案件具有较高的准确率。【附图说明】图1是本专利技术的的网页应用例。【具体实施方式】以下通过具体实施例对本专利技术进行详细说明。本专利技术的,包括以下步骤: A、建立案件属性信息知识库,知识库中包括案件信息类型专有名词集、限定词集、禁止词集、案件主体专有修饰词集; B、格式化网页源码,抽取出正文和标题内容; C、扫描文本,对文本进行分词,并将文章分割成若干整句; D、抽象出案件中关键字段的特有句式描述,并结合知识库中词集翻译成对应规则; E、当扫描获知规则中对应的词集中的词出现,并且词后句式满足某一条规则,且该句内没有出现禁止词集时,说明该句满足此规则,根据规则中约束的字段位置抽取出法院的相关字段; F、将文章中所有满足抽取规则的字段进行归一化处理。案件信息类型专有名词集中包括:公告信息、文书信息、被执行人信息、审判流程?目息O案件主体专有修饰词集中包括:被告、原告、当事人。以下为原、被告以及案号的具体抽取方式: 原告抽取: 一、定义 原告指在民事方面,以自己的名义提起诉讼,请求法院保护其权益,因而使诉讼成立的人。在法院信息抽取工作中,刑事案件的公诉方也要被提成原告。二、句式抽象 将文章中会出现原告的句式抽象出来后,写成规则引擎支持的规则。抽取句式如下: 1、正文或标题有“原告”修饰词树集中内容的提示,其后的姓名或企业名称是原告。例如:“上诉人A就XXXX提起上诉”。2、句式:“Α诉B林林”。其中的A是原告。例如:“本院受理A诉B、广东C有限公司水路货物运输合同纠纷一案”。3、句式:“Α申请执行B XXXX—案”。其中B是被告,A为原告。4、句式:“强制执行A对B XXX—案”。其中A为原告,B为被告。5、句式:“B与原告A XXX—案”。其中A为原告,B为被告。6、句式:“本院受理A申请执行XXX”。其中A为原告。7、句式:“关于A申请执行人申请执行ΧΧΧΧ”。其中A为原告。8、句式:“本院受理A申请宣告XXX死亡一案”。其中A为原告。9、句式:“A因不服XXXX,提出再审申请”。其中A为原告。被告抽取: 一、定义 被告是被指控犯法的人。二、句式抽象 1.案件中明显有“被告”修饰词树集中内容的提示,其后的姓名或企业名称是被告。标红是修饰词数集内容。例如:“被执行人A,农民XXX”。“被告人A犯非法占用农用地罪XXX”。 2、句式:“A诉B****”。其中B是被告。3、句式:“B犯***”。其中B是被告。4、句式:“B 罪一案”。其中B是被告。5、句式:“A申请执行B —案”。其中B是被告,A为原告。6、句式:“强制执行A对B XXX—案”。其中A为原告,B为被告。...

【技术保护点】
一种网页中案件信息的抽取方法,包括以下步骤:A、建立案件属性信息知识库,知识库中包括案件信息类型专有名词集、限定词集、禁止词集、案件主体专有修饰词集;B、格式化网页源码,抽取出正文和标题内容;C、扫描文本,对文本进行分词,并将文章分割成若干整句;D、抽象出案件中关键字段的特有句式描述,并结合知识库中词集翻译成对应规则;E、当扫描获知规则中对应的词集中的词出现,并且词后句式满足某一条规则,且该句内没有出现禁止词集时,说明该句满足此规则,根据规则中约束的字段位置抽取出法院的相关字段。

【技术特征摘要】

【专利技术属性】
技术研发人员:郝静张作职
申请(专利权)人:天津海量信息技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1