表示病历文本向量的方法、装置及问诊系统制造方法及图纸

技术编号：24211854 阅读：35 留言：0更新日期：2020-05-20 17:14

本发明专利技术公开了一种表示病历文本向量的方法、装置及问诊系统，一种表示病历文本向量的方法，包括：获取病历文本，将所述病历文本转换成词列表；利用至少2个预设的词向量模型，分别将所述词列表中的每个词转换词向量；分别将所述词向量转换为文本向量；将所有所述文本向量进行合成，得到合成文本向量；其中，所述合成文本向量为分类模型的输入，所述分类模型完成所述病历文本的分类。以解决传统的文本向量表示方法不能够充分表达文本信息，造成分类模型不能够很好地对输入文本进行分类的问题。

Method, device and inquiry system of representing medical record text vector

全部详细技术资料下载

【技术实现步骤摘要】
表示病历文本向量的方法、装置及问诊系统
本专利技术涉及医学领域，具体说是一种表示病历文本向量的方法、装置及问诊系统。
技术介绍
疾病分类模型的输入文本(病历文本)预处理，文字不能直接输入给模型，需要将文本转为向量的形式。但是目前病历文本向量的方法不能充分表达文本信息，这样会造成分类模型不能够很好地对输入文本进行分类。
技术实现思路
有鉴于此，本专利技术提供一种表示病历文本向量的方法、装置及问诊系统。以解决传统的文本向量表示方法不能够充分表达文本信息，造成分类模型不能够很好地对输入文本进行分类的问题。第一方面，本专利技术提供了一种表示病历文本向量的方法，包括：获取病历文本，将所述病历文本转换成词列表；利用至少2个预设的词向量模型，分别将所述词列表中的每个词转换词向量；分别将所述词向量转换为文本向量；将所有所述文本向量进行合成，得到合成文本向量；其中，所述合成文本向量为分类模型的输入，所述分类模型完成所述病历文本的分类。优选地，所述将所述词向量转换为文本向量：其中，所述为所述词列表中的所有词的词向量集合，n表示所述词列表中词的个数，(i)表示词向量模型的个数，max()表示取最大值，min()表示取最小值，mean()表示取均值，h()表示词向量转换为文本向量的操作，表示拼接。优选地，所述至少2个预设的词向量模型通过所述病历文本进行训练而得到，然后利用至少2个预设的词向量模型，分别将所述词列表中的每个词转换词向量，所述预设...

【技术保护点】
1.一种表示病历文本向量的方法，其特征在于，包括：/n获取病历文本，将所述病历文本转换成词列表；/n利用至少2个预设的词向量模型，分别将所述词列表中的每个词转换词向量；/n分别将所述词向量转换为文本向量；/n将所有所述文本向量进行合成，得到合成文本向量；/n其中，所述合成文本向量为分类模型的输入，所述分类模型完成所述病历文本的分类。/n

【技术特征摘要】
1.一种表示病历文本向量的方法，其特征在于，包括：
获取病历文本，将所述病历文本转换成词列表；
利用至少2个预设的词向量模型，分别将所述词列表中的每个词转换词向量；
分别将所述词向量转换为文本向量；
将所有所述文本向量进行合成，得到合成文本向量；
其中，所述合成文本向量为分类模型的输入，所述分类模型完成所述病历文本的分类。

2.根据权利要求1所述的方法，其特征在于，所述将所述词向量转换为文本向量：

其中，所述为所述词列表中的所有词的词向量集合，n表示所述词列表中词的个数，(i)表示词向量模型的个数，max()表示取最大值，min()表示取最小值，mean()表示取均值，h()表示词向量转换为文本向量的操作，表示拼接。

3.根据权利要求1或2所述的方法，其特征在于，所述至少2个预设的词向量模型通过所述病历文本进行训练而得到，然后利用至少2个预设的词向量模型，分别将所述词列表中的每个词转换词向量，所述预设的词向量模型的训练方法为：
根据所述病历文本得到词向量模型的训练语料；
将所述训练语料分别输入预设的向量模型，对所述预设的向量模型进行训练；
其中，对所述预设的词向量模型进行训练的病历文本的集合，包含利用至少2个预设的词向量模型分别将所述词列表中的每个词转换词向量所使用的病历文本。

4.根据权利要求1或2所述的方法，其特征在于：
所述预设的词向量模型的数量为2个，以及/或所述预设的词向量模型分别是word2vec模型和GloVe模型。

5.一种表示病历文本向量的装置，其特征在于，包括：
词列表转换单元、至少2个预设的词向量模型、文本向量转换单元以及合成单元，所述词列表转换单元的输出与分别所述预设的词向量模型的输入连接，所述预设的词向量模型的输出与所述文本向量转换单元的输入连接，所述文本向量转换单元的输出与所述合成单元的输入连接；
所述词列表转换单元，用于获取病历文本，将所述病历文本转换成词列表；
所述预设的词向量模型，分别将所述词列表中的每个词转换词向量；
所述文本向量转换单元，分别将所述词向量转换为文本向量；
所述合成单元，将所有所述文本向量进行合成，得到合成文本向量；
其中，所述合成文本向量为分类模型的输入，所述分类模型完成所述病历文本的分类。

6.根据权利要求5所述的装置，其特征在于，所述合成单元，将所述词向量转换为文本向量，得到文本向量完成以下操作：

其中，所述为所述词列表中的所有词的词向量集合，n表示所...

【专利技术属性】
技术研发人员：王超，张淑蕾，柴东，杨英健，范智渊，康雁，
申请(专利权)人：东北大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人