医疗同义词的确定方法和装置制造方法及图纸

技术编号:15791896 阅读:402 留言:0更新日期:2017-07-09 22:31
本发明专利技术公开了一种医疗同义词的确定方法和装置。其中,该方法包括:获取病历样本中至少一个自然语句,并对所述自然语句进行分词;在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。采用本发明专利技术的技术方案,先在医学知识库中获取病历样本中各词语对应的医学标准化术语,确定出各词语的候选同义词,进而通过与各词语相关的词语以及与各医学标准化术语相关的医学标准化术语,从候选同义词中确定出目标同义词,从而精准地确定出各词语的目标同义词。

【技术实现步骤摘要】
医疗同义词的确定方法和装置
本专利技术实施例涉及计算机应用
,尤其涉及一种医疗同义词的确定方法和装置。
技术介绍
病历是医务人员对患者疾病的发生、发展、转归,进行检查、诊断、治疗等医学活动过程所作的文字记录。病历既是临床实践工作的总结,又是探索疾病规律及处理医学纠纷的法律依据,是国家的宝贵财富。在临床医学中,有效整理病历,从中挖掘医生临床经验,对医学进步具有重大意义。但是,由于医务人员录入病历的时候,经常混杂大量不规范的同义词表述、缩写用法,甚至还有错别字,而且使用的句型不仅多样化,还可能不规范,给病历整理工作带来极大不便。若单纯依靠人工整理的方式,工作量较大,且效率较低。因此,如何识别病历中的各项内容的准确表述显得尤为重要。
技术实现思路
本专利技术提供了一种医疗同义词的确定方法和装置,以解决现有的病历中表述不规范而造成的病历中的内容识别困难的问题。第一方面,本专利技术实施例提供了一种医疗同义词的确定方法,该方法包括:获取病历样本中至少一个自然语句,并对所述自然语句进行分词;在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。第二方面,本专利技术实施例还提供了一种医疗同义词的确定装置,该装置包括:病历分词模块,用于获取病历样本中至少一个自然语句,并对所述自然语句进行分词;候选同义词获取模块,用于在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;目标同义词确定模块,用于根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。本专利技术实施例的技术方案,通过对病历样本中的自然语句进行分词,进而在医学知识库中获取分词后各词语对应的各医学标准化术语,确定出各词语可能的候选同义词,进而通过同一病历中与各词语相关的词语,以及医学知识库中与各医学标准化术语相关的各医学标准化术语,从而进一步从各候选的各医学标准化术语中,更加精确地确定出各词语对应的医学标准化用语,即从候选同义词中确定出目标同义词,不仅解决了现有的病历中表述不规范而造成的病历中的内容识别困难的问题,能够结合医学知识,更加准确、高效地确定出各词语的目标同义词。附图说明为了更加清楚地说明本专利技术示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本专利技术所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。图1为本专利技术实施例一所提供的一种医疗同义词的确定方法的流程示意图;图2A为本专利技术实施例二所提供的一种医疗同义词的确定方法的流程示意图;图2B为本专利技术实施例二所提供的一种字向量生成方法的流程示意图;图3为本专利技术实施例三所提供的一种医疗同义词的确定装置的结构示意图。具体实施方式下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1为本专利技术实施例一所提供的一种医疗同义词的确定方法的流程示意图。如图1所示,本实施例的方法可以由医疗同义词的确定装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可独立的配置在服务器中或者由终端和服务器配合实现本实施例的方法。,本实施例的方法具体包括:S110、获取病历样本中至少一个自然语句,并对所述自然语句进行分词。自然语句一般可以理解为采用自然语言撰写的句子。其中,至少一个自然语句可以是一个自然语句,也可以是两个及两个以上的自然语句。考虑到在病例样本中所记载的内容往往前后相关,可选是获取病历样本中包括两个及两个以上自然语句的段落,譬如,病历样本中所记录的现病史、病程记录以及检查报告等。可以理解的是,病历样本可以是文本病历,也可以是电子化的病历。对自然语句进行分词,首先可以是对待处理的自然语句进行预处理,其中,预处理包括对去标点符号,去停用词等。在本实施例中,可基于字符串匹配的分词方法对自然语句进行分词,也可以基于理解的分词方法对自然语句进行分词,还可以基于统计的分词方法对自然语句进行分词。对所述自然语句进行分词的方法有很多种,例如可以基于判别式机器学习技术来解决分词问题。判别式机器学习技术解决分词问题基于由字构词理念,将分词问题转化为分类问题,通过定义每个字的在词中的位置来确定字类别的序列预测。具体地,判别式机器学习技术主要代表有条件随机场,最大熵/隐马尔科夫最大熵、感知机,支撑向量机等。以采用条件随机场算法进行分词为例,对自然语句进行分词具体可以是:采用条件随机场(ConditionalRandomFields,CRF)算法统计所述自然语句中字与字的连缀概率,并根据所述连缀概率对所述自然语句进行分词。S120、在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词。示例性地,可以请医学专业人士预先人工整理出或者借助人工智能技术整理出各种医学标准化术语,以及各医学标准化术语的各种属性等医学知识,先录入数据库中,然后建立搜索索引,并且把相关知识条目连缀起来,生成医学知识库。即,医学知识库中存储有各医学标准化用语以及各医学标准化用语之间的拓扑关系的数据库,将各种医学术语及其拓扑关系,组成网状结构,方便存储和调用。为了便于查询,医学知识库还可以增加智能文字处理与检索功能。其中,医学知识一般有两个来源,医学文献和某一领域专家的临床经验。医学知识库可以理解为一个)由点(Vertex)和边(Edge)组成的初级的医学知识图谱,其中,点用来描述医学知识库中的各医学标准化术语,譬如各种症状、各种器官和组织等;边用来描述各医学标准化术语之间的关系,,譬如“位于”、“包含”以及“数量”等等。点和边都是预先定义的有限集合。其中,各医学标准化用语之间的拓扑关系可以理解为医学知识库的边。用于描述各医学标准化用语之间的关联关系。例如,各个器官之间的位置关系以及各种症状的数量关系等。可以理解的是,随着医学检验、医学影像、临床诊断以及康复治疗等医学技术的不断发展,医学知识也会不断的充实,为了充分发挥医学知识库的作用,可以不断地采集新生医学知识,更新医学知识库。其中,获取与分词后的词语所对应的医学标准化用语具体可以是获取分词后的各词语的目标词向量,并计算各所述词语的所述目标词向量与预先建立的医学知识库中的医学标准化用语的词向量之间的余弦距离;根据所述余弦距离确定与所述词语所对应的医学标准化用语本文档来自技高网...
医疗同义词的确定方法和装置

【技术保护点】
一种医疗同义词的确定方法,其特征在于,包括:获取病历样本中至少一个自然语句,并对所述自然语句进行分词;在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。

【技术特征摘要】
1.一种医疗同义词的确定方法,其特征在于,包括:获取病历样本中至少一个自然语句,并对所述自然语句进行分词;在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。2.根据权利要求1所述的方法,其特征在于,所述对所述自然语句进行分词包括:采用条件随机场算法统计所述自然语句中字与字的连缀概率,并根据所述连缀概率对所述自然语句进行分词。3.根据权利要求1所述的方法,其特征在于,所述获取与分词后的词语所对应的医学标准化用语包括:获取分词后的各词语的目标词向量,并计算各所述词语的所述目标词向量与预先建立的医学知识库中的医学标准化用语的词向量之间的余弦距离;根据所述余弦距离确定与所述词语所对应的医学标准化用语。4.根据权利要求3所述的方法,其特征在于,所述获取分词后的各词语的目标词向量包括:采用语言模型获取分词后的词语中每个字的字向量以及该词语的词向量;将词语中每个字的字向量以及该词语的词向量进行拼接,生成所述词语的目标词向量。5.根据权利要求1-4任一所述的方法,其特征在于,在所述从所述候选同义词中确定出目标同义词之后,还包括:记录并存储各所述词语与各所述目标同义词之间的对应关系,生成医疗同义词词库。6.一种医疗同义词的确定装置,其特征在于,包括:病历...

【专利技术属性】
技术研发人员:邓侃孙风磊邱鹏飞李丕勋
申请(专利权)人:北京大数医达科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1