一种非结构化报告的信息提取方法技术

技术编号:39002963 阅读:14 留言:0更新日期:2023-10-07 10:34
本发明专利技术提供了一种非结构化报告的信息提取方法,包括:获取用户针对非结构化报告的信息提取需求;针对非结构化报告进行模板提取,得到非结构化报告框架;基于非结构化报告框架进行提取规则配置,得到要素提取规则;识别信息提取需求在非结构化框架中的目标位置,并根据目标位置得到目标要素提取规则;根据信息提取需求利用目标要素提取规则在非结构化报告中进行需求信息提取,得到需求信息;将需求信息反馈给所述用户。本发明专利技术通过基于非结构化报告框架进行提取规则配置使得针对非结构化框架中的任意信息都能够配置匹配的要素提取规则,从而能够根据信息提取需求在非结构化报告中按照要素提取规则快速且准确地提取得到需求信息。求信息。求信息。

【技术实现步骤摘要】
一种非结构化报告的信息提取方法


[0001]本专利技术涉及数据提取
,特别涉及一种非结构化报告的信息提取方法。

技术介绍

[0002]随着市场经济的推动,各种类型的公司也取得了长足的发展,报告成为了一种新兴产业。报告往往会包含各种各样大量的数据信息,根据数据信息的类型可分为结构化报告和非结构化报告,针对结构化报告,通常只包含结构化信息,结构化信息的存储和排列都是有规律,非常容易进行查询、修改等处理,并且对于结构化信息的分析与处理目前已经相对成熟了,针对非结构化报告,通常既可以包含非结构化信息也可以包含结构化信息,非结构化信息往往没有固定结构,在进行查询与提取时很难快速准确地在非结构化信息中找到需要的信息,因此,本专利技术提出一种非结构化报告的信息提取方法,通过基于非结构化报告框架进行提取规则配置使得针对非结构化框架中的任意信息都能够配置匹配的要素提取规则,从而能够根据信息提取需求在非结构化报告中按照要素提取规则快速且准确地提取得到需求信息。

技术实现思路

[0003]本专利技术的目的在于提供一种非结构化报告信息的数据提取方法,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种非结构化报告信息的数据提取方法,包括:
[0005]获取用户针对非结构化报告的信息提取需求;
[0006]针对非结构化报告进行模板提取,得到非结构化报告框架;
[0007]基于非结构化报告框架进行提取规则配置,得到要素提取规则;
[0008]识别信息提取需求在非结构化框架中的目标位置,并根据目标位置得到目标要素提取规则;
[0009]根据信息提取需求利用目标要素提取规则在非结构化报告中进行需求信息提取,得到需求信息;
[0010]将需求信息反馈给所述用户。
[0011]进一步地,针对非结构化报告进行模板提取,包括:
[0012]针对非结构化报告进行初步分析,确定非结构化报告的属性;
[0013]确定非结构化报告的涉及领域;
[0014]根据非结构化报告的属性和非结构化报告的涉及领域确定报告模板;
[0015]参照报告模板针对非结构化报告进行再次分析,并提取非结构化报告的框架,得到非结构化报告框架。
[0016]进一步地,基于非结构化报告框架进行提取规则配置,包括:
[0017]针对非结构化报告框架按照框架节点进行节点标题识别,获取节点标题主题;
[0018]根据节点标题主题分别针对框架节点进行信息结构化特征分析,得到框架节点的分析结果;
[0019]根据框架节点的分析结果在提取规则数据库进行提取规则配置,当框架节点的分析结果为结构化信息时,在提取规则数据库中匹配结构化数据提取规则,得到框架节点的要素提取规则;当框架节点的分析结果为非结构化信息时,在提取规则数据库中匹配非结构化数据提取规则,得到第一匹配信息,并识别框架节点的信息类型,根据框架节点的信息类型在第一匹配信息中进一步匹配,得到框架节点的要素提取规则。
[0020]进一步地,所述提取规则数据库预先针对提取规则进行存储,而且包括多个子数据库,每个子数据库对应一种属性的非结构化报告,根据框架节点的分析结果在提取规则数据库进行提取规则配置时,根据非结构化报告确定目标子数据库,并在目标子数据库中进行匹配。
[0021]进一步地,所述子数据库,包括:结构化信息提取规则和非结构化信息提取规则,在非结构化信息提取规则部分按照信息类型分别进行提取规则存储,而且在子数据库中针对结构化信息提取规则和非结构化信息提取规则进行分区域存储。
[0022]进一步地,得到框架节点的要素提取规则之后还针对框架节点的要素提取规则进行分析处理,包括:
[0023]结合非结构化框架分析框架节点之间的关系,并将框架节点按照非结构化框架的结构分成多个节点集合;
[0024]在节点集合中,针对框架节点进行信息关联分析,确定框架节点之间是否存在嵌套循环结构,得到关联分析结果;
[0025]根据关联分析结果针对框架节点对应的要素提取规则进行关联内嵌,得到内嵌要素提取规则。
[0026]进一步地,识别信息提取需求在非结构化框架中的目标位置,包括:
[0027]在信息提取需求中进行关键词识别与提取,得到信息提取需求特征集合;
[0028]针对信息提取需求特征集合中的信息提取需求特征结合信息提取需求进行语义关联分析,确定信息提取需求特征之间是否是独立关系,当信息提取需求特征之间不是独立关系时,将信息提取需求特征进行组合,得到信息提取需求特征组合,并将信息提取需求特征组合和独立的信息提取需求特征作为子元素构成信息提取需求特征处理集合;
[0029]根据信息提取需求特征处理集合中的子元素在非结构化框架中进行关键词匹配,并锁定匹配的关键词在非结构化框架中的位置,得到识别信息提取需求在非结构化框架中的目标位置。
[0030]进一步地,根据目标位置得到目标要素提取规则,包括:
[0031]根据识别信息提取需求在非结构化框架中的目标位置确定非结构化报告框架中的目标框架节点;
[0032]按照需求特征处理集合中子元素的种类将目标框架节点分成第一目标节点单元和第二目标节点单元;
[0033]针对第一目标节点单元在框架节点的要素提取规则中获取目标框架节点对应的框架节点的要素提取规则,得到第一目标要素提取规则;
[0034]针对第二目标节点单元在内嵌要素提取规则中获取目标框架节点对应的框架节
点的要素提取规则,得到第二目标要素提取规则;
[0035]根据第一目标要素提取规则和第二目标要素提取规则得到关于信息提取需求的目标要素提取规则。
[0036]进一步地,根据信息提取需求利用目标要素提取规则在非结构化报告中进行需求信息提取时,针对目标要素提取规则进行环境部署,然后基于部署环境执行目标要素提取规则,按照目标要素提取规则针对非结构化报告进行目标信息处理与提取,得到需求信息。
[0037]进一步地,将需求信息反馈给所述用户时,将非结构化报告框架与需求信息共同反馈给所述用户,而且在反馈需求信息时,获取用户的反馈要求,当用户在预设时间段内未提出反馈要求时,将直接将得到的需求信息反馈给用户,当用户在预设时间段内提出反馈要求时,将需求信息按照反馈要求进行转换后反馈给用户,并且在将得到的需求信息反馈给用户或者将需求信息按照反馈要求进行转换后反馈给用户时,用户根据反馈情况发出干预请求,获取用户干预信息,并按照干预信息进行反馈调整。
[0038]本专利技术实现了对非结构化报告的信息提取,使得针对非结构化信息也能够根据信息提取需求进行信息获取,通过非结构化报告框架能够明确非结构化报告各部分信息情况,从而使得要素提取规则是针对各个部分信息的配置得到的,使得在要素提取规则的作用下能够准确地获取到非结构化报告中的信息,进而使得能够针对结构化信息和非结构化信息都进行提取,提高了信息提取的适用范本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非结构化报告的信息提取方法,其特征在于,包括:获取用户针对非结构化报告的信息提取需求;针对非结构化报告进行模板提取,得到非结构化报告框架;基于非结构化报告框架进行提取规则配置,得到要素提取规则;识别信息提取需求在非结构化框架中的目标位置,并根据目标位置得到目标要素提取规则;根据信息提取需求利用目标要素提取规则在非结构化报告中进行需求信息提取,得到需求信息;将需求信息反馈给所述用户。2.根据权利要求1所述的信息提取方法,其特征在于,针对非结构化报告进行模板提取,包括:针对非结构化报告进行初步分析,确定非结构化报告的属性;确定非结构化报告的涉及领域;根据非结构化报告的属性和非结构化报告的涉及领域确定报告模板;参照报告模板针对非结构化报告进行再次分析,并提取非结构化报告的框架,得到非结构化报告框架。3.根据权利要求1所述的信息提取方法,其特征在于,基于非结构化报告框架进行提取规则配置,包括:针对非结构化报告框架按照框架节点进行节点标题识别,获取节点标题主题;根据节点标题主题分别针对框架节点进行信息结构化特征分析,得到框架节点的分析结果;根据框架节点的分析结果在提取规则数据库进行提取规则配置,当框架节点的分析结果为结构化信息时,在提取规则数据库中匹配结构化数据提取规则,得到框架节点的要素提取规则;当框架节点的分析结果为非结构化信息时,在提取规则数据库中匹配非结构化数据提取规则,得到第一匹配信息,并识别框架节点的信息类型,根据框架节点的信息类型在第一匹配信息中进一步匹配,得到框架节点的要素提取规则。4.根据权利要求3所述的信息提取方法,其特征在于,所述提取规则数据库预先针对提取规则进行存储,而且包括多个子数据库,每个子数据库对应一种属性的非结构化报告,根据框架节点的分析结果在提取规则数据库进行提取规则配置时,根据非结构化报告确定目标子数据库,并在目标子数据库中进行匹配。5.根据权利要求4所述的信息提取方法,其特征在于,所述子数据库,包括:结构化信息提取规则和非结构化信息提取规则,在非结构化信息提取规则部分按照信息类型分别进行提取规则存储,而且在子数据库中针对结构化信息提取规则和非结构化信息提取规则进行分区域存储。6.根据权利要求3所述的信息提取方法,其特征在于,得到框架节点的要素提取规则之后还针对框架节点的要素提取规则进行分析处理,包括:结合非结构化框架分析框架节点之间的关系,并将框架节点按照非结构化框架的结构分成多个节点集合;在节点集合中,针对框架节点进行信息关联分析,确定...

【专利技术属性】
技术研发人员:张勇梁伟文熊杰
申请(专利权)人:广东铭太信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1