一种导诊医学术语库的构建方法及装置制造方法及图纸

技术编号:20680947 阅读:26 留言:0更新日期:2019-03-27 18:53
本发明专利技术实施例涉及数据处理技术领域,尤其涉及一种导诊医学术语库的构建方法及装置,用以提高导诊医学术语库的构建效率。本发明专利技术实施例包括:获取待导诊的自然语言;利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本;将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。

【技术实现步骤摘要】
一种导诊医学术语库的构建方法及装置
本专利技术涉及数据处理
,尤其涉及一种导诊医学术语库的构建方法及装置。
技术介绍
导诊也叫导医,是根据患者对自身症状的描述,初步判断患者所患疾病,以及引导患者到相关科室就医的过程。智能导诊是实现智能化医院的重要组成部分,而导诊医学术语库则是智能导诊的基础。导诊术语库的目标是将导诊中会出现的术语标准化,使得导诊中的各种口语/方言/缩略语/含错别字/非正式的描述能够正确地映射到清晰无歧义的正式医学概念上。传统的构建导诊术语库的方法主要是依赖人工,需要大量的人力资源,将实际医院导诊场景中会的许多不同的同义词映射到相应的医疗概念上去,这种构建导诊术语库的方式效率较低。
技术实现思路
本申请提供一种导诊医学术语库的构建方法及装置,用以提高导诊医学术语库的构建效率。本专利技术实施例提供的一种导诊医学术语库的构建方法,包括:获取待导诊的自然语言;利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本;将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。可选的,所述获取待导诊的自然语言之前,还包括:获取训练医疗文本;从所述训练医疗文本中确定与医学术语相关联的训练文本,输入初始模型,经训练后得到所述文本结构化模型;将所述训练文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中。可选的,还包括:针对第一表述聚类中的M个表述,按照拆分模板将每个表述拆分成N个文本单元,所述拆分模板包括不同属性的N个模板单元;其中N>1;所述第一表述聚类为所述医学术语库中多个表述聚类中的任一个;将M*N个文本单元组合为K个不同的表述,所述K个表述属于所述第一表述聚类且每个表述包含N个不同属性的文本单元;将所述K个不同的表述存储至所述医学术语库中的所述第一表述聚类中。可选的,所述医学术语库的各医学术语分类存储在所述医学术语库中;所述存储至所述医学术语库中所述医学术语对应的表述聚类中,包括:将所述目标文本进行分类,并分类存储在所述医学术语对应的表达聚类中,所述分类至少包括症状、部位、操作。一种导诊医学术语库的构建装置,包括:获取单元,用于获取待导诊的自然语言;确定单元,用于利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本;存储单元,用于将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。可选的,还包括训练单元,用于:获取训练医疗文本;从所述训练医疗文本中确定与医学术语相关联的训练文本,输入初始模型,经训练后得到所述文本结构化模型;将所述训练文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中。可选的,所述存储单元,还用于:针对第一表述聚类中的M个表述,按照拆分模板将每个表述拆分成N个文本单元,所述拆分模板包括不同属性的N个模板单元;其中N>1;所述第一表述聚类为所述医学术语库中多个表述聚类中的任一个;将M*N个文本单元组合为K个不同的表述,所述K个表述属于所述第一表述聚类且每个表述包含N个不同属性的文本单元;将所述K个不同的表述存储至所述医学术语库中的所述第一表述聚类中。可选的,所述医学术语库的各医学术语分类存储在所述医学术语库中;所述存储单元,还用于将所述目标文本进行分类,并分类存储在所述医学术语对应的表达聚类中,所述分类至少包括症状、部位、操作。本专利技术实施例还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例中任一所述的方法。本专利技术实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述实施例中任一所述方法。本专利技术实施例中,系统获取待导诊的自然语言。利用文本结构化模型,从自然语言中确定与医学术语属于同一概念的目标文本。将该目标文本作为医学术语对应的表达,存储至医学术语库中该医学术语对应的表述聚类中。医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。本专利技术实施例创新性地将文本结构化模型用于构建医学术语库,显著提高了医学术语库的构建效率,减少对人工的依赖。此外,现有技术中只能处理样本数据中出现过的表达方式,对于样本数据中没有出现的表达,医学术语库中无法覆盖。文本结构化模型只需要少量的训练样本就能够学习到多种不同的表述方式,这样,即使待导诊的自然语言没有包括在医学术语库中,本专利技术实施例仍然可以识别,并将该自然语言保存在医学术语库中,从而丰富了医学术语库的内容,扩大了医学术语库的覆盖范围。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种导诊医学术语库的构建方法的流程示意图;图2为本专利技术实施例提供的一种诊医学术语库的构建装置的结构示意图;图3为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部份实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种导诊医学术语库的构建方法。如图1所示,本专利技术实施例提供的病史采集方法,包括以下步骤:步骤101、获取待导诊的自然语言。步骤102、利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本。步骤103、将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。本专利技术实施例中,系统获取待导诊的自然语言。利用文本结构化模型,从自然语言中确定与医学术语属于同一概念的目标文本。将该目标文本作为医学术语对应的表达,存储至医学术语库中该医学术语对应的表述聚类中。医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。本专利技术实施例创新性地将文本结构化模型用于构建医学术语库,显著提高了医学术语库的构建效率,减少对人工的依赖。此外,现有技术中只能处理样本数据中出现过的表达方式,对于样本数据中没有出现的表达,医学术语库中无法覆盖。文本结构化模型只需要少量的训练样本就能够学习到多种不同的表述方式,这样,即使待导诊的自然语言没有包括在医学术语库中,本专利技术实施例仍然可以识别,并将该自然语言保存在医学术本文档来自技高网...

【技术保护点】
1.一种导诊医学术语库的构建方法,其特征在于,包括:获取待导诊的自然语言;利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本;将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。

【技术特征摘要】
1.一种导诊医学术语库的构建方法,其特征在于,包括:获取待导诊的自然语言;利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本;将所述目标文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中;所述医学术语库中存储有各医学术语对应的表述聚类,其中一个表述聚类中包括一个医学术语的多个不同表述。2.如权利要求1所述的方法,其特征在于,所述获取待导诊的自然语言之前,还包括:获取训练医疗文本;从所述训练医疗文本中确定与医学术语相关联的训练文本,输入初始模型,经训练后得到所述文本结构化模型;将所述训练文本作为所述医学术语对应的表述,存储至所述医学术语库中所述医学术语对应的表述聚类中。3.如权利要求1所述的方法,其特征在于,还包括:针对第一表述聚类中的M个表述,按照拆分模板将每个表述拆分成N个文本单元,所述拆分模板包括不同属性的N个模板单元;其中N>1;所述第一表述聚类为所述医学术语库中多个表述聚类中的任一个;将M*N个文本单元组合为K个不同的表述,所述K个表述属于所述第一表述聚类且每个表述包含N个不同属性的文本单元;将所述K个不同的表述存储至所述医学术语库中的所述第一表述聚类中。4.如权利要求1所述的方法,其特征在于,所述医学术语库的各医学术语分类存储在所述医学术语库中;所述存储至所述医学术语库中所述医学术语对应的表述聚类中,包括:将所述目标文本进行分类,并分类存储在所述医学术语对应的表达聚类中,所述分类至少包括症状、部位、操作。5.一种导诊医学术语库的构建装置,其特征在于,包括:获取单元,用于获取待导诊的自然语言;确定单元,用于利用文本结构化模型,从所述自然语言中确定与医学术语属于同一概念的目标文本;存储单元,用于将所述目...

【专利技术属性】
技术研发人员:曹越
申请(专利权)人:上海依智医疗技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1