一种医学文本词向量化方法技术

技术编号:32173825 阅读:17 留言:0更新日期:2022-02-08 15:33
本发明专利技术涉及面向自然语言处理的预训练领域,具体提供了一种医学文本词向量化方法,通过对原始医学文本数据探查建立词库对后续的向量化做准备,然后通过GLOVE模型进行医学数据词向量化;所述原始医学文本分为结构化数据、半结构化数据和非结构化数据,所述结构化数据中有固定的填写要求数据,所述半结构化数据包含一部分电子病历数据,半结构化数据中有固定标识,固定标识中的内容可能空,所述非结构化数据也包含一部分电子病历数据,非结构化数据没有标识,根据知识去提取。与现有技术相比,本发明专利技术收集数据较快速且准确。本发明专利技术收集数据较快速且准确。本发明专利技术收集数据较快速且准确。

【技术实现步骤摘要】
一种医学文本词向量化方法


[0001]本专利技术涉及面向自然语言处理的预训练领域,具体提供一种医学文本词向量化方法。

技术介绍

[0002]医疗健康大数据面向健康人群、患者、医生、医疗机构、政府和药企等为主体,以需求为导向,影响医疗行业的变革。医疗健康大数据促进医疗数据挖掘和知识发现的研究,不同数据源的异构数据量巨大。在医疗数据领域内,可以明显感到医疗数据集的特征为数据异构,即因为医疗检测手段的关系,数据图像化比例较高。但是也包含了一部分结构化数据,和大部分非结构化数据,因此医疗数据集市典型的非结构化数据和结构化数据并存的异构数据集。
[0003]所以现在需要对医疗数据进行整合,清洗及挖掘。医疗健康大数据研究涉及计算机科学,数据科学、系统工程、机械工程等学科,需要研究人员跨界合作,数据收集比较麻烦。

技术实现思路

[0004]本专利技术是针对上述现有技术的不足,提供一种实用性强的医学文本词向量化方法。
[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]一种医学文本词向量化方法,通过对原始医学文本数据探查建立词库对后续的向量化做准备,然后通过GLOVE模型进行医学数据词向量化;
[0007]所述原始医学文本分为结构化数据、半结构化数据和非结构化数据,所述结构化数据中有固定的填写要求数据,所述半结构化数据包含一部分电子病历数据,半结构化数据中有固定标识,固定标识中的内容可能空,所述非结构化数据也包含一部分电子病历数据,非结构化数据没有标识,根据知识去提取
[0008]进一步的,在GLOVE模型搭建中,统计共现矩阵,
[0009]a.设共现矩阵为X,其元素为Xij,Xij的意义为:在整个语料库中,单词ii和单词jj共同出现在一个窗口中的次数;
[0010]b.建立一个词汇频率为整个语料库,返回字典D

>(a,f),将字串映射为对单词ID和单词语料库频率;
[0011]c.给定的语料库建立一个共现列表。
[0012]进一步的,在GLOVE模型搭建中,模型的损失函数如下:
[0013][0014]其中vi,vj,是单词i和单词j的词向量,bi,bj是两个偏差项,f是权重函数,N是词汇表的大小,共现矩阵维度为N*N。
[0015]进一步的,GLOVE模型的推导方式为两个条件概率的比值:
[0016][0017]取得是矩阵i一行的和,如下条件概率表示k出现在单词i语境中的概率
[0018][0019]由上述公式可知这三个单词的关联性跟概率是存在关系的,Ratio这个指标跟jk的关联性成反比,跟ik的关联性成正比。
[0020]进一步的,共现矩阵和词向量可以相同,那么有如下形式:
[0021][0022]其中wi是单词向量wk是独立的上下文单词向量,
[0023]首先我们希望F的信息在向量空间中以比例表示,最自然的方法是使用向量的差值,修改上述等式为:
[0024][0025]接下来,上述式子中自变量为向量,等式右边为标量,所以需要把左边进行参数的点积:
[0026][0027]由上式可得出:
[0028][0029]对等式两边取对数可得:
[0030][0031]这时把最右边的log(Xi)与k无关,所以可以通过增加偏置让两边恢复对称性,最终得到等式如下:
[0032][0033]再对上式进行加权最小二乘回归,将上式转换成最小二乘法问题得到最终损失函数如下:
[0034][0035]其中函数F(X)应该满足如下要求:
[0036]a.在0点时应为0且连续;
[0037]b.函数不应是递减的;
[0038]c.在x较大时F(X)应相对较小;
[0039]最终选择:
[0040][0041]进一步的,在GLOVE模型搭建中,包括大段文本搭建、细项文本搭建、全局及详情共现矩阵搭建和矩阵向量化;
[0042]大段文本搭建对大段文本进行分割,仅需将文本分成多条句子即可,分词方法为根据[$%&'()*+,
‑‑‑
。,;:......]等断句符切割,即T=[S1,S2,S3

Sn],
[0043]保留结果S在数据库中,用于之后计算词向量。
[0044]进一步的,对以上[S1,S2,S3

Sn]句子进行细项切割,在这部分需要用到中文停用词表对文本进行分割如下:
[0045]S=[X1,X2,X3

Xn][0046]因为GLOVE模型是根据全局信息去计算词向量,这样就会缺失部分上下文之间的关系,所以需要对S和T文本都进行共现矩阵的计算,并对T文本计算出的共现矩阵取:
[0047]Si=XSi=∑
k
XSik
[0048]得出在计算S文本生成的Xi时加入Si如下:
[0049]Xi

Si Xi
[0050]这样就能够保留部分上下文之间联系。
[0051]进一步的,在全局及详情共现矩阵搭建中,
[0052]每个分句无重复词:在分解T文本时对每个S文本打上标记C,使得之后的Xi共现矩阵带着标记的用于Si去计算相应的子项:
[0053]T=[(S1,C1),(S2,C2),(S3,C3)

(Sn,C4)][0054]Si=[(X1,Ci),(X2,Ci),(X3,Ci)

(Xn,Ci)][0055]存在重复词情况:在分解T文本时对每个S文本打上标记C,使得之后的Xi共现矩阵带着标记的用于Si去计算相应的子项,对于含有重复项的子项存储为CiCj,乘以多个Si
[0056]T=[(S1,C1),(S2,C2),(S3,C3)

(Sn,C4)][0057]Si=[(X1,CiCj),(X2,Ci),(X3,CiCj)

(Xn,Ci)][0058]进一步的,在矩阵向量化中,
[0059]a.设置入参
[0060]入参为共现矩阵T,语料库字典D,输出维度,迭代次数;
[0061]共现矩阵T通过共现矩阵T通过全局及详情共现矩阵搭建中计算得出,固定窗口大小为10.语料库字典D通过建立一个词汇频率来计算,返回值为D

>(a,f),将句子映射为单词ID和单词语料库频率,输出维度和迭代次数为固定值;
[0062]b.构建矢量矩阵
[0063]该矩阵为2V*d,其中V为语料库词汇量的大小,d为词向量的维数,在(

0.5,0.5)范围内随机初始化所有元素,为每个单词构建两个单词向量:一个单词作为主单词,一个单词作为上下文单词;
[0064]c.构建偏差项:
[0065]通过上述向量构建一个大小为2V的数组,值域为(0.5,0.5)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学文本词向量化方法,其特征在于,通过对原始医学文本数据探查建立词库对后续的向量化做准备,然后通过GLOVE模型进行医学数据词向量化;所述原始医学文本分为结构化数据、半结构化数据和非结构化数据,所述结构化数据中有固定的填写要求数据,所述半结构化数据包含一部分电子病历数据,半结构化数据中有固定标识,固定标识中的内容可能空,所述非结构化数据也包含一部分电子病历数据,非结构化数据没有标识,根据知识去提取。2.根据权利要求1所述的一种医学文本词向量化方法,其特征在于,在GLOVE模型搭建中,统计共现矩阵,a.设共现矩阵为X,其元素为Xij,Xij的意义为:在整个语料库中,单词ii和单词jj共同出现在一个窗口中的次数;b.建立一个词汇频率为整个语料库,返回字典D

>(a,f),将字串映射为对单词ID和单词语料库频率;c.给定的语料库建立一个共现列表。3.根据权利要求2所述的一种医学文本词向量化方法,其特征在于,在GLOVE模型搭建中,模型的损失函数如下:其中vi,vj,是单词i和单词j的词向量,bi,bj是两个偏差项,f是权重函数,N是词汇表的大小,共现矩阵维度为N*N。4.根据权利要求3所述的一种医学文本词向量化方法,其特征在于,GLOVE模型的推导方式为两个条件概率的比值:取得是矩阵i一行的和,如下条件概率表示k出现在单词i语境中的概率由上述公式可知这三个单词的关联性跟概率是存在关系的,Ratio这个指标跟jk的关联性成反比,跟ik的关联性成正比。5.根据权利要求4所述的一种医学文本词向量化方法,其特征在于,共现矩阵和词向量可以相同,那么有如下形式:其中wi是单词向量wk是独立的上下文单词向量,首先我们希望F的信息在向量空间中以比例表示,最自然的方法是使用向量的差值,修改上述等式为:
接下来,上述式子中自变量为向量,等式右边为标量,所以需要把左边进行参数的点积:由上式可得出:对等式两边取对数可得:这时把最右边的log(Xi)与k无关,所以可以通过增加偏置让两边恢复对称性,最终得到等式如下:再对上式进行加权最小二乘回归,将上式转换成最小二乘法问题得到最终损失函数如下:其中函数F(X)应该满足如下要求:a.在0点时应为0且连续;b.函数不应是递减的;c.在x较大时F(X)应相对较小;最终选择:6.根据权利要求5所述的一种医学文本词向量化方法,其特征在于,在GLOVE模型搭建中,包括大段文本搭建、细项文本搭建、全局及详情共现矩阵搭建和矩阵向量化;大段文本搭建对大段文本进行分割,仅需将文本分成多条句子即可,分词方法为根据[$%&'()*+,
‑‑‑
。,;:......]等断句符切割,即T=[S1,S...

【专利技术属性】
技术研发人员:荆晨
申请(专利权)人:山东健康医疗大数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1