数据抽取方法、装置、计算机及可读存储介质制造方法及图纸

技术编号:33638794 阅读:26 留言:0更新日期:2022-06-02 01:55
本发明专利技术公开了一种数据抽取方法,应用于数据处理技术领域,用于解决现有技术大部分依靠人工提取病例信息,容易出现错误的技术问题。本发明专利技术提供的方法包括:在获取到的病例图片集中筛选出住院病历图片、体检报告图片以及手术报告单图片;抽取住院病历图片、体检报告图片以及手术报告单图片中的事件元素;若事件元素为段落,则识别出段落对应的实体数据,实体数据包括疾病类型、治疗方式以及检查结果;若事件元素为表格,则获取表格中的结构化数据,结构化数据包括检查方式、检查部位以及手术名称。本方法能够准确的、自动的抽取出需要的病例数据,提升了病例审核的效率。同时,本发明专利技术还涉及区块链技术。涉及区块链技术。涉及区块链技术。

【技术实现步骤摘要】
数据抽取方法、装置、计算机及可读存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种数据抽取方法、装置、计算机及可读存储介质。

技术介绍

[0002]保险,一种是指投保人根据合同约定,向保险人支付保险费,保险人对于合同约定的可能发生的事故因其发生所造成的财产损失承担赔偿保险金责任,或者被保险人疾病或者达到合同约定的年龄、期限等条件时承担给付保险金责任的商业保险行为。
[0003]在现有的保险领域中,无论是在核保还是在理赔的过程中,都需要客户实时上传病例影像,再通过人工核验的方式得出承保结论。
[0004]然而,由于现有的保险客户广泛分布于全国各省市地区,并且提供服务的医院千差万别,仅靠人工提取出关键信息,极易出现错误,同时耗费较高的人力成本,不利于保险大规模的推广与使用。

技术实现思路

[0005]基于此,本专利技术实施例提供了一种数据抽取方法、装置、计算机设备及存储介质,以解决现有技术仅靠人工提取出关键信息,极易出现错误,同时耗费较高的人力成本的技术问题。
[0006]本专利技术第一方面提本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据抽取方法,其特征在于,所述方法包括:在获取到的病例图片集中筛选出住院病历图片、体检报告图片以及手术报告单图片;抽取所述住院病历图片、所述体检报告图片以及所述手术报告单图片中的事件元素,所述事件元素包括段落以及表格;若所述事件元素为段落,则识别出所述段落对应的实体数据,所述实体数据包括疾病类型、治疗方式以及检查结果;若所述事件元素为表格,则获取所述表格中的结构化数据,所述结构化数据包括检查方式、检查部位以及手术名称。2.根据权利要求1所述的数据抽取方法,其特征在于,所述在获取到的病例图片集中筛选出住院病历图片、体检报告图片以及手术报告单图片的步骤包括:通过预设训练数据训练TextCNN模型,并将所述TextCNN模型输出的特征作为xgboost分类模型的输入特征;基于所述xgboost分类模型识别出住院病历图片、体检报告图片以及手术报告单图片中的高频词汇,并构建出对应的高频词词典;根据所述高频词词典计算出当前图片中的高频词汇命中率;根据所述命中率在获取到的病例图片集中筛选出所述住院病历图片、所述体检报告图片以及所述手术报告单图片。3.根据权利要求1所述的数据抽取方法,其特征在于,所述抽取所述住院病历图片、所述体检报告图片以及所述手术报告单图片中的事件元素的步骤包括:基于LayoutLm模型识别出所述住院病历图片、所述体检报告图片以及所述手术报告单图片中的各个段落或者表格的语义标签;识别各个所述语义标签分别对应的类别,并判断所述类别是否在预设种类范围内;若是,则将所述类别对应的段落或者表格定义为检查事件的事件元素。4.根据权利要求1所述的数据抽取方法,其特征在于,所述若所述事件元素为段落,则识别出所述段落对应的实体数据的步骤包括:当识别出所述事件元素为段落时,基于Bert

lstm

crf模型或者Crf++模型识别并抽取出当前段落与医学临床相关的实体数据。5.根据权利要求1所述的数据抽取方法,其特...

【专利技术属性】
技术研发人员:刘东煜
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1