当前位置: 首页 > 专利查询>东北大学专利>正文

表示病历文本向量的方法、装置及问诊系统制造方法及图纸

技术编号:24211854 阅读:35 留言:0更新日期:2020-05-20 17:14
本发明专利技术公开了一种表示病历文本向量的方法、装置及问诊系统,一种表示病历文本向量的方法,包括:获取病历文本,将所述病历文本转换成词列表;利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量;分别将所述词向量转换为文本向量;将所有所述文本向量进行合成,得到合成文本向量;其中,所述合成文本向量为分类模型的输入,所述分类模型完成所述病历文本的分类。以解决传统的文本向量表示方法不能够充分表达文本信息,造成分类模型不能够很好地对输入文本进行分类的问题。

Method, device and inquiry system of representing medical record text vector

【技术实现步骤摘要】
表示病历文本向量的方法、装置及问诊系统
本专利技术涉及医学领域,具体说是一种表示病历文本向量的方法、装置及问诊系统。
技术介绍
疾病分类模型的输入文本(病历文本)预处理,文字不能直接输入给模型,需要将文本转为向量的形式。但是目前病历文本向量的方法不能充分表达文本信息,这样会造成分类模型不能够很好地对输入文本进行分类。
技术实现思路
有鉴于此,本专利技术提供一种表示病历文本向量的方法、装置及问诊系统。以解决传统的文本向量表示方法不能够充分表达文本信息,造成分类模型不能够很好地对输入文本进行分类的问题。第一方面,本专利技术提供了一种表示病历文本向量的方法,包括:获取病历文本,将所述病历文本转换成词列表;利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量;分别将所述词向量转换为文本向量;将所有所述文本向量进行合成,得到合成文本向量;其中,所述合成文本向量为分类模型的输入,所述分类模型完成所述病历文本的分类。优选地,所述将所述词向量转换为文本向量:其中,所述为所述词列表中的所有词的词向量集合,n表示所述词列表中词的个数,(i)表示词向量模型的个数,max()表示取最大值,min()表示取最小值,mean()表示取均值,h()表示词向量转换为文本向量的操作,表示拼接。优选地,所述至少2个预设的词向量模型通过所述病历文本进行训练而得到,然后利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量,所述预设的词向量模型的训练方法为:根据所述病历文本得到词向量模型的训练语料;将所述训练语料分别输入预设的向量模型,对所述预设的向量模型进行训练;其中,对所述预设的词向量模型进行训练的病历文本的集合,包含利用至少2个预设的词向量模型分别将所述词列表中的每个词转换词向量所使用的病历文本。优选地,所述预设的词向量模型的数量为2个,以及/或所述预设的词向量模型分别是word2vec模型和GloVe模型。第二方面,本专利技术提供了一种表示病历文本向量的装置,包括:词列表转换单元、至少2个预设的词向量模型、文本向量转换单元以及合成单元,所述词列表转换单元的输出与分别所述预设的词向量模型的输入连接,所述预设的词向量模型的输出与所述文本向量转换单元的输入连接,所述文本向量转换单元的输出与所述合成单元的输入连接;所述词列表转换单元,用于获取病历文本,将所述病历文本转换成词列表;所述预设的词向量模型,分别将所述词列表中的每个词转换词向量;所述文本向量转换单元,分别将所述词向量转换为文本向量;所述合成单元,将所有所述文本向量进行合成,得到合成文本向量;其中,所述合成文本向量为分类模型的输入,所述分类模型完成所述病历文本的分类。优选地,所述合成单元,将所述词向量转换为文本向量,得到文本向量完成以下操作:其中,所述为所述词列表中的所有词的词向量集合,n表示所述词列表中词的个数,(i)表示词向量模型的个数,max()表示取最大值,min()表示取最小值,mean()表示取均值,h()表示词向量转换为文本向量的操作,表示拼接。优选地,所述的装置,还包括训练单元;所述至少2个预设的词向量模型通过所述病历文本进行训练而得到,然后利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量,所述训练单元完成以下操作:根据所述病历文本得到词向量模型的训练语料;将所述训练语料分别输入预设的向量模型,对所述预设的向量模型进行训练;其中,对所述预设的词向量模型进行训练的病历文本的集合,包含利用至少2个预设的词向量模型分别将所述词列表中的每个词转换词向量所使用的病历文本。优选地,所述预设的词向量模型的数量为2个,以及/或所述预设的词向量模型分别是word2vec模型和GloVe模型。第三方面,本专利技术提供了一种表示病历文本向量的装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行上述一种表示病历文本向量的方法。第四方面,本专利技术提供了一种问诊系统,包括:发送所述问诊文本至预设文本分析单元,通过所述预设文本分析单元对所述问诊文本进行识别,以得到所述问诊文本中每个文本的意图和词槽,并根据所述意图和词槽在预设数据库中查找所述意图和词槽的位置信息,并利用所述位置信息匹配预设关键信息生成病历报告,将所述病历报告发送至所述预设诊断模型,所述预设诊断模型根据所述病历报告给出诊断结果;以及/或预设文本分析单元为意图词槽模型,通过所述问诊文本的训练文本构建所述意图词槽模型,对所述问诊文本进行识别,以得到所述问诊文本中每个文本的意图和词槽;以及/或根据说话人标签分别对所述问诊文本的意图和词槽进行记录,根据记录结果构建所述预设数据库,并根据所述意图和词槽在预设数据库中查找所述意图和词槽的位置信息,并利用所述位置信息匹配预设关键信息生成病历报告;以及/或所述预设诊断模型的构建过程为:通过对带有诊断的给定病历报告进行分词,用分词后的所述给定病历报告进行训练得到文本词向量,根据所述问诊文本词向量表示文本向量,用所述文本向量训练所述诊断模型以得到所述预设诊断模型;将所述病历报告发送至所述预设诊断模型,所述预设诊断模型根据所述病历报告给出诊断结果;其中,文本向量的表示方法如上述一种表示病历文本向量的方法;或者文本向量采用如上述一种表示病历文本向量的装置生成。本专利技术至少具有如下有益效果:本专利技术提供了一种表示病历文本向量的方法、装置及问诊系统,以解决传统的文本向量表示方法不能够充分表达文本信息,造成分类模型不能够很好地对输入文本进行分类的问题。附图说明通过以下参考附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点更为清楚,在附图中:图1是本专利技术实施例的一种眩晕症获取问诊文本的方法流程示意图;图2是本专利技术实施例的一种眩晕症获取问诊文本的装置示意图;图3是本专利技术实施例的一种表示病历文本向量的方法流程示意图。具体实施方式以下基于实施例对本专利技术进行描述,但是值得说明的是,本专利技术并不限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。然而,对于没有详尽描述的部分,本领域技术人员也可以完全理解本专利技术。此外,本领域普通技术人员应当理解,所提供的附图只是为了说明本专利技术的目的、特征和优点,附图并不是实际按照比例绘制的。同时,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包含但不限于”的含义。图1是本专利技术实施例的一种眩晕症获取问诊文本的方法流程示意图。如图1所示,一种获取问诊文本的方法,包括:步骤101实时采集医生针对眩晕症所提出的问题以及患者针对问题的应答;步骤10本文档来自技高网...

【技术保护点】
1.一种表示病历文本向量的方法,其特征在于,包括:/n获取病历文本,将所述病历文本转换成词列表;/n利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量;/n分别将所述词向量转换为文本向量;/n将所有所述文本向量进行合成,得到合成文本向量;/n其中,所述合成文本向量为分类模型的输入,所述分类模型完成所述病历文本的分类。/n

【技术特征摘要】
1.一种表示病历文本向量的方法,其特征在于,包括:
获取病历文本,将所述病历文本转换成词列表;
利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量;
分别将所述词向量转换为文本向量;
将所有所述文本向量进行合成,得到合成文本向量;
其中,所述合成文本向量为分类模型的输入,所述分类模型完成所述病历文本的分类。


2.根据权利要求1所述的方法,其特征在于,所述将所述词向量转换为文本向量:



其中,所述为所述词列表中的所有词的词向量集合,n表示所述词列表中词的个数,(i)表示词向量模型的个数,max()表示取最大值,min()表示取最小值,mean()表示取均值,h()表示词向量转换为文本向量的操作,表示拼接。


3.根据权利要求1或2所述的方法,其特征在于,所述至少2个预设的词向量模型通过所述病历文本进行训练而得到,然后利用至少2个预设的词向量模型,分别将所述词列表中的每个词转换词向量,所述预设的词向量模型的训练方法为:
根据所述病历文本得到词向量模型的训练语料;
将所述训练语料分别输入预设的向量模型,对所述预设的向量模型进行训练;
其中,对所述预设的词向量模型进行训练的病历文本的集合,包含利用至少2个预设的词向量模型分别将所述词列表中的每个词转换词向量所使用的病历文本。


4.根据权利要求1或2所述的方法,其特征在于:
所述预设的词向量模型的数量为2个,以及/或所述预设的词向量模型分别是word2vec模型和GloVe模型。


5.一种表示病历文本向量的装置,其特征在于,包括:
词列表转换单元、至少2个预设的词向量模型、文本向量转换单元以及合成单元,所述词列表转换单元的输出与分别所述预设的词向量模型的输入连接,所述预设的词向量模型的输出与所述文本向量转换单元的输入连接,所述文本向量转换单元的输出与所述合成单元的输入连接;
所述词列表转换单元,用于获取病历文本,将所述病历文本转换成词列表;
所述预设的词向量模型,分别将所述词列表中的每个词转换词向量;
所述文本向量转换单元,分别将所述词向量转换为文本向量;
所述合成单元,将所有所述文本向量进行合成,得到合成文本向量;
其中,所述合成文本向量为分类模型的输入,所述分类模型完成所述病历文本的分类。


6.根据权利要求5所述的装置,其特征在于,所述合成单元,将所述词向量转换为文本向量,得到文本向量完成以下操作:



其中,所述为所述词列表中的所有词的词向量集合,n表示所...

【专利技术属性】
技术研发人员:王超张淑蕾柴东杨英健范智渊康雁
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1