一种实体挖掘方法及装置制造方法及图纸

技术编号:37747838 阅读:12 留言:0更新日期:2023-06-05 23:34
本申请公开了一种实体挖掘方法及装置,包括:获取非结构化实体数据集合;对所述非结构化实体数据集合进行处理,获得第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合;基于实体挖掘规则对第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合进行挖掘,获得实体挖掘结果。如此,在本申请中,对于未存在词典中的医疗实体,采用实体挖掘规则对非结构化实体数据集合进行挖掘,可以获得实体挖掘结果。由此,基于实体挖掘规则可以最终挖掘出实体挖掘结果,避免了人工挖掘实体,从而也提高了实体挖掘的准确率。从而也提高了实体挖掘的准确率。从而也提高了实体挖掘的准确率。

【技术实现步骤摘要】
一种实体挖掘方法及装置


[0001]本申请涉及医疗
,特别是涉及一种实体挖掘方法及装置。

技术介绍

[0002]在对医疗临床数据进行数据整理的过程中,会存在多个非结构化的临床数据,由于非结构化的临床数据中存在多个实体,且其均不存在于医疗领域词典中,如此,就需要对该临床数据中的实体进行挖掘。
[0003]目前,通过人工方式对非结构化的临床数据进行实体挖掘,将挖掘出的实体通过医疗网站、书籍、指南、参考文件等多种途径对进行实体核对,然后由专业人员审核,扩充到医疗领域词典中,其方法对于不断产生的临床数据来说,实体挖掘的准确率较低,识别还不够全面,人工资源还耗费大。
[0004]因此,如何提高实体挖掘的准确率是本领域技术人员关注的重点问题。

技术实现思路

[0005]基于上述问题,本申请提供了一种实体挖掘方法及装置,以提高实体挖掘的准确率。本申请实施例公开了如下技术方案:
[0006]第一方面,本申请公开了一种实体挖掘方法,包括:
[0007]获取非结构化实体数据集合;
[0008]对所述非结构化实体数据集合进行处理,获得第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合;
[0009]基于实体挖掘规则对第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合进行挖掘,获得实体挖掘结果。
[0010]可选的,所述对所述非结构化实体数据集合进行处理,获得第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合,包括:/>[0011]对所述非结构化实体数据集合进行分词处理,获得所述第一候选实体数据集合;
[0012]对所述非结构化实体数据集合进行切词处理,基于切词处理后的实体数据集合结合所述第一候选实体数据集合,获得所述第二候选实体数据集合;
[0013]对所述非结构化实体数据集合进行序列预测,基于序列预测得到的实体数据集合结合所述第一候选实体数据集合和所述第二候选实体数据集合,获得所述第三候选实体数据集合。
[0014]可选的,在所对所述非结构化实体数据集合进行序列预测之后,还包括:
[0015]获得多个候选预测实体以及所述多个候选预测实体分别对应的概率值;
[0016]选择所述概率值大于第一阈值的多个候选预测实体作为所述序列预测得到的实体数据集合。
[0017]可选的,所述基于实体挖掘规则对第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合进行挖掘,获得实体挖掘结果,包括:
[0018]判断所述第一候选实体数据集合、所述第二候选实体数据集合和所述第三候选实体数据集合中是否存在相同实体,若存在,保留所述相同实体;
[0019]判断所述第一候选实体数据集合、所述第二候选实体数据集合和所述第三候选实体数据集合中不同实体之间是否存在部分字符重叠情况,若存在,保留最长字符的实体;基于所述保留的相同实体和/或所述最长字符的实体构成所述实体挖掘结果。
[0020]可选的,在所述获取非结构化实体数据集合之后,还包括:
[0021]对所述非结构化实体数据集合进行字符的转化处理。
[0022]第二方面,本申请公开了一种实体挖掘装置,包括:
[0023]获取模块,用于获取非结构化实体数据集合;
[0024]处理模块,用于对所述非结构化实体数据集合进行处理,获得第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合;
[0025]挖掘模块,用于基于实体挖掘规则对第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合进行挖掘,获得实体挖掘结果。
[0026]可选的,所述处理模块,包括:
[0027]第一处理子单元,用于对所述非结构化实体数据集合进行分词处理,获得所述第一候选实体数据集合;
[0028]第二处理子单元,用于对所述非结构化实体数据集合进行切词处理,基于切词处理后的实体数据集合结合所述第一候选实体数据集合,获得所述第二候选实体数据集合;
[0029]第三处理子单元,用于对所述非结构化实体数据集合进行序列预测,基于序列预测得到的实体数据集合结合所述第一候选实体数据集合和所述第二候选实体数据集合,获得所述第三候选实体数据集合。
[0030]可选的,还包括:
[0031]获得模块,用于获得多个候选预测实体以及所述多个候选预测实体分别对应的概率值;
[0032]选择模块,用于选择所述概率值大于第一阈值的多个候选预测实体作为所述序列预测得到的实体数据集合。
[0033]可选的,所述挖掘模块,包括:
[0034]第一判断子单元,用于判断所述第一候选实体数据集合、所述第二候选实体数据集合和所述第三候选实体数据集合中是否存在相同实体,若存在,保留所述相同实体;
[0035]第二判断子单元,用于判断所述第一候选实体数据集合、所述第二候选实体数据集合和所述第三候选实体数据集合中不同实体之间是否存在部分字符重叠情况,若存在,保留最长字符的实体;构成模块,用于基于所述保留的相同实体和/或所述最长字符的实体构成所述实体挖掘结果。
[0036]可选的,还包括:
[0037]转化处理模块,用于对所述非结构化实体数据集合进行字符的转化处理。
[0038]第三方面,本申请实施例提供了一种电子设备,包括:
[0039]存储器,用于存储计算机程序;
[0040]处理器,用于执行所述计算机程序时实现上述实体挖掘方法的步骤。
[0041]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储
介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实体挖掘方法的步骤。
[0042]相较于现有技术,本申请具有以下有益效果:
[0043]本申请首先获取非结构化实体数据集合,然后对所述非结构化实体数据集合进行处理,获得第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合,最后基于实体挖掘规则对第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合进行挖掘,获得实体挖掘结果。如此,在本申请中,对于未存在词典中的医疗实体,采用实体挖掘规则对非结构化实体数据集合进行挖掘,可以获得实体挖掘结果。由此,基于实体挖掘规则可以最终挖掘出实体挖掘结果,避免了人工挖掘实体,从而也提高了实体挖掘的准确率。
附图说明
[0044]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0045]图1为本申请实施例提供的一种实体挖掘方法的流程图;
[0046]图2为本申请实施例提供的一种实体挖掘装置的结构示意图;
[0047]图3为本申请实施例提供的一种电子本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体挖掘方法,其特征在于,包括:获取非结构化实体数据集合;对所述非结构化实体数据集合进行处理,获得第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合;基于实体挖掘规则对第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合进行挖掘,获得实体挖掘结果。2.根据权利要求1所述的方法,其特征在于,所述对所述非结构化实体数据集合进行处理,获得第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合,包括:对所述非结构化实体数据集合进行分词处理,获得所述第一候选实体数据集合;对所述非结构化实体数据集合进行切词处理,基于切词处理后的实体数据集合结合所述第一候选实体数据集合,获得所述第二候选实体数据集合;对所述非结构化实体数据集合进行序列预测,基于序列预测得到的实体数据集合结合所述第一候选实体数据集合和所述第二候选实体数据集合,获得所述第三候选实体数据集合。3.根据权利要求2所述的方法,其特征在于,在所述对所述非结构化实体数据集合进行序列预测之后,还包括:获得多个候选预测实体以及所述多个候选预测实体分别对应的概率值;选择所述概率值大于第一阈值的多个候选预测实体作为所述序列预测得到的实体数据集合。4.根据权利要求1所述的方法,其特征在于,所述基于实体挖掘规则对第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合进行挖掘,获得实体挖掘结果,包括:判断所述第一候选实体数据集合、所述第二候选实体数据集合和所述第三候选实体数据集合中是否存在相同实体,若存在,保留所述相同实体;判断所述第一候选实体数据集合、所述第二候选实体数据集合和所述第三候选实体数据集合中不同实体之间是否存在部分字符重叠情况,若存在,保留最长字符的实体;基于所述保留的相同实体和/或所述最长字符的...

【专利技术属性】
技术研发人员:尚亚飞胡可云陈联忠
申请(专利权)人:北京嘉和海森健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1