医学数据关系挖掘方法及装置制造方法及图纸

技术编号:20275111 阅读:41 留言:0更新日期:2019-02-02 04:36
本发明专利技术是关于一种医学数据关系挖掘方法及装置、电子设备和计算机可读介质。该方法包括:获取目标文本中的第一医学数据和第二医学数据;对所述第一医学数据和所述第二医学数据进行特征抽取,获得所述第一医学数据和所述第二医学数据的特征向量;将所述特征向量输入至训练好的分类模型,判定所述第一医学数据和所述第二医学数据之间的目标关系。本发明专利技术能够高效地识别出临床病例文本中的医学数据之间的关系,提升了医学数据关系挖掘的效率,以利于进一步的数据统计分析。

【技术实现步骤摘要】
医学数据关系挖掘方法及装置
本专利技术涉及医疗信息抽取领域,具体而言,涉及一种医学数据关系挖掘方法及医疗处理装置、电子设备和计算机可读介质。
技术介绍
临床病例文本中,许多信息是以长文本的形式记录,不便于后续的统计分析任务。临床病例结构化可以解决这类技术问题。其中,医学术语在长文本中的关系挖掘是临床数据结构化非常重要的一个步骤。现有技术中,存在人工抽象规则的方法和基于自然语言处理中文本句法依存分析的方法进行医学数据关系挖掘。但上述人工抽象规则的方法中人工规则是一种一刀切的方法,效果依赖于规则的细致程度。上述基于自然语言处理中文本句法依存分析的方法,针对特定领域训练的话,标注成本非常高,所以在临床病例中很少有直接的应用。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术的目的在于提供一种医学数据关系挖掘方法及医学数据关系挖掘装置,能够高效地识别出临床病例文本中的医学数据之间的关系,提升了医学数据关系挖掘的效率。根据本专利技术的一个方面,提供一种医学数据关系挖掘方法,包括:获取目标文本中的第一医学数据和第二医学数据;对所述第一医学数据和所述第二医学数据进行特征抽取,获得所述第一医学数据和所述第二医学数据的特征向量;将所述特征向量输入至训练好的分类模型,判定所述第一医学数据和所述第二医学数据之间的目标关系。在本专利技术的一种示例性实施例中,所述目标关系包括否定词与医学数据关系、时间与医学数据关系、数值与医学数据关系、解剖部位与医学数据关系、动作与医学数据关系、亲属与医学数据关系中的任意一种。在本专利技术的一种示例性实施例中,所述对所述第一医学数据和所述第二医学数据进行特征抽取,包括:获取所述第一医学数据的本身特征、所述第二医学数据的本身特征、所述第一医学数据和所述第二医学数据的周边文本特征、句法依存分析特征和句子形态特征中的至少一种。在本专利技术的一种示例性实施例中,所述第一医学数据的本身特征包括以下特征中的至少一种:所述第一医学数据是否为一个诊断;所述第一医学数据是否为一个解剖部位;所述第一医学数据是否为一个症状;所述第一医学数据是否为一个病变词;所述第一医学数据是否为否定词;所述第一医学数据是否包含动词;所述第一医学数据是否包含数字;所述第一医学数据是否长度是否大于预设字节;所述第一医学数据是否包含时间词。在本专利技术的一种示例性实施例中,所述周边文本特征包括所述第一医学数据的前面信息文本特征、所述第二医学数据的后面信息文本特征、所述第一医学数据和所述第二医学数据之间文本特征中的至少一种。在本专利技术的一种示例性实施例中,所述第一医学数据的前面信息文本特征包括以下特征中的至少一种:所述第一医学数据前面预设个词内是否有句号;所述第一医学数据前面所述预设个词内是否有逗号;所述第一医学数据前面所述预设个词内是否有空格或者顿号;所述第一医学数据前面所述预设个词内是否有否定词;所述第一医学数据前面所述预设个词内是否有只向后作用否定词;所述第一医学数据前面所述预设个词内是否有“伴”;所述第一医学数据前面所述预设个词内是否有“偶”;所述第一医学数据前面所述预设个词内是否有省略词;所述第一医学数据前面所述预设个词内是否有表示行为的动词;所述第一医学数据前面所述预设个词内是否有诊断;所述第一医学数据前面所述预设个词内是否有解剖部位;所述第一医学数据前面所述预设个词内是否症状;所述第一医学数据前面所述预设个词内是否有病变词;所述第一医学数据前面所述预设个词内是否有连续概念标点分割的模式;所述第一医学数据前面所述预设个词内是否有时间;所述第一医学数据前面所述预设个词内是否有数字;所述第一医学数据前面所述预设个词内是否有动词。在本专利技术的一种示例性实施例中,所述第一医学数据和所述第二医学数据之间文本特征包括以下特征中的至少一种:所述第一医学数据和所述第二医学数据之间的距离;所述第一医学数据和所述第二医学数据之间的顺序;所述第一医学数据和所述第二医学数据之间句号的个数;所述第一医学数据和所述第二医学数据之间逗号的个数;所述第一医学数据和所述第二医学数据之间空格或者顿号的个数;所述第一医学数据和所述第二医学数据之间是否有“伴”;所述第一医学数据和所述第二医学数据之间是否有“偶”;所述第一医学数据和所述第二医学数据之间是否有表示行为的动词;所述第一医学数据和所述第二医学数据之间是否有只向后作用的否定词;所述第一医学数据和所述第二医学数据之间是否有省略词;所述第一医学数据和所述第二医学数据之间是否有否定词;所述第一医学数据和所述第二医学数据之间是否有诊断;所述第一医学数据和所述第二医学数据之间是否有解剖部位;所述第一医学数据和所述第二医学数据之间是否症状;所述第一医学数据和所述第二医学数据之间是否有病变词;所述第一医学数据和所述第二医学数据之间是否有连续概念标点分割的模式;所述第一医学数据和所述第二医学数据之间是否有数字;所述第一医学数据和所述第二医学数据之间是否有时间;所述第一医学数据和所述第二医学数据之间是否有动词。在本专利技术的一种示例性实施例中,所述句法依存分析特征包括以下特征中的至少一种:所述第一医学数据和所述第二医学数据之间是否父子关系;所述第一医学数据和所述第二医学数据之间依存树上路径长度;所述第一医学数据和所述第二医学数据之间路径上是否有主谓关系边;所述第一医学数据和所述第二医学数据之间路径上是否有动宾关系边;所述第一医学数据和所述第二医学数据之间路径上是否有定中关系或者状中结构边;所述第一医学数据和所述第二医学数据之间路径上第一条边是否动宾关系或者主谓关系;所述第一医学数据和所述第二医学数据之间路径上第一条边是否定中关系或者状中结构;所述第一医学数据和所述第二医学数据之间路径上最后一条边是否动宾关系或者主谓关系;所述第一医学数据和所述第二医学数据之间路径上最后一条边是否动宾关系或者主谓关系。在本专利技术的一种示例性实施例中,所述句子形态特征包括以下特征中的至少一种:所述第一医学数据和所述第二医学数据是否在一个段落中;所述第一医学数据和所述第二医学数据是否在一个句子中;所述第一医学数据和所述第二医学数据是否在一个子句中;所述第一医学数据和所述第二医学数据是否在一个段落中,且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据;所述第一医学数据和所述第二医学数据是否在一个句子中,且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据;所述第一医学数据和所述第二医学数据是否在一个子句中,且中间不存在与第一医学数据同类或者与第二医学数据同类的其他医学数据。根据本专利技术的一个方面,提供一种医学数据关系挖掘装置,包括:医学数据获取模块,配置为获取目标文本中的第一医学数据和第二医学数据;特征抽取模块,配置为对所述第一医学数据和所述第二医学数据进行特征抽取,获得所述第一医学数据和所述第二医学数据的特征向量;目标关系判定模块,配置为将所述特征向量输入至训练好的分类模型,判定所述第一医学数据和所述第二医学数据之间的目标关系。根据本专利技术的一个方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的医本文档来自技高网...

【技术保护点】
1.一种医学数据关系挖掘方法,其特征在于,包括:获取目标文本中的第一医学数据和第二医学数据;对所述第一医学数据和所述第二医学数据进行特征抽取,获得所述第一医学数据和所述第二医学数据的特征向量;将所述特征向量输入至训练好的分类模型,判定所述第一医学数据和所述第二医学数据之间的目标关系。

【技术特征摘要】
1.一种医学数据关系挖掘方法,其特征在于,包括:获取目标文本中的第一医学数据和第二医学数据;对所述第一医学数据和所述第二医学数据进行特征抽取,获得所述第一医学数据和所述第二医学数据的特征向量;将所述特征向量输入至训练好的分类模型,判定所述第一医学数据和所述第二医学数据之间的目标关系。2.根据权利要求1所述的医学数据关系挖掘方法,其特征在于,所述目标关系包括否定词与医学数据关系、时间与医学数据关系、数值与医学数据关系、解剖部位与医学数据关系、动作与医学数据关系、亲属与医学数据关系中的任意一种。3.根据权利要求1所述的医学数据关系挖掘方法,其特征在于,所述对所述第一医学数据和所述第二医学数据进行特征抽取,包括:获取所述第一医学数据的本身特征、所述第二医学数据的本身特征、所述第一医学数据和所述第二医学数据的周边文本特征、句法依存分析特征和句子形态特征中的至少一种。4.根据权利要求3所述的医学数据关系挖掘方法,其特征在于,所述第一医学数据的本身特征包括以下特征中的至少一种:所述第一医学数据是否为一个诊断;所述第一医学数据是否为一个解剖部位;所述第一医学数据是否为一个症状;所述第一医学数据是否为一个病变词;所述第一医学数据是否为否定词;所述第一医学数据是否包含动词;所述第一医学数据是否包含数字;所述第一医学数据是否长度是否大于预设字节;所述第一医学数据是否包含时间词。5.根据权利要求3所述的医学数据关系挖掘方法,其特征在于,所述周边文本特征包括所述第一医学数据的前面信息文本特征、所述第二医学数据的后面信息文本特征、所述第一医学数据和所述第二医学数据之间文本特征中的至少一种。6.根据权利要求5所述的医学数据关系挖掘方法,其特征在于,所述第一医学数据的前面信息文本特征包括以下特征中的至少一种:所述第一医学数据前面预设个词内是否有句号;所述第一医学数据前面所述预设个词内是否有逗号;所述第一医学数据前面所述预设个词内是否有空格或者顿号;所述第一医学数据前面所述预设个词内是否有否定词;所述第一医学数据前面所述预设个词内是否有只向后作用否定词;所述第一医学数据前面所述预设个词内是否有“伴”;所述第一医学数据前面所述预设个词内是否有“偶”;所述第一医学数据前面所述预设个词内是否有省略词;所述第一医学数据前面所述预设个词内是否有表示行为的动词;所述第一医学数据前面所述预设个词内是否有诊断;所述第一医学数据前面所述预设个词内是否有解剖部位;所述第一医学数据前面所述预设个词内是否症状;所述第一医学数据前面所述预设个词内是否有病变词;所述第一医学数据前面所述预设个词内是否有连续概念标点分割的模式;所述第一医学数据前面所述预设个词内是否有时间;所述第一医学数据前面所述预设个词内是否有数字;所述第一医学数据前面所述预设个词内是否有动词。7.根据权利要求5所述的医学数据关系挖掘方法,其特征在于,...

【专利技术属性】
技术研发人员:焦增涛
申请(专利权)人:天津新开心生活科技有限公司天津开心生活科技有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1