【技术实现步骤摘要】
一种医学文本词向量化方法
[0001]本专利技术涉及面向自然语言处理的预训练领域,具体提供一种医学文本词向量化方法。
技术介绍
[0002]医疗健康大数据面向健康人群、患者、医生、医疗机构、政府和药企等为主体,以需求为导向,影响医疗行业的变革。医疗健康大数据促进医疗数据挖掘和知识发现的研究,不同数据源的异构数据量巨大。在医疗数据领域内,可以明显感到医疗数据集的特征为数据异构,即因为医疗检测手段的关系,数据图像化比例较高。但是也包含了一部分结构化数据,和大部分非结构化数据,因此医疗数据集市典型的非结构化数据和结构化数据并存的异构数据集。
[0003]所以现在需要对医疗数据进行整合,清洗及挖掘。医疗健康大数据研究涉及计算机科学,数据科学、系统工程、机械工程等学科,需要研究人员跨界合作,数据收集比较麻烦。
技术实现思路
[0004]本专利技术是针对上述现有技术的不足,提供一种实用性强的医学文本词向量化方法。
[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]一种医学文本词向量化方法,通过对原始医学文本数据探查建立词库对后续的向量化做准备,然后通过GLOVE模型进行医学数据词向量化;
[0007]所述原始医学文本分为结构化数据、半结构化数据和非结构化数据,所述结构化数据中有固定的填写要求数据,所述半结构化数据包含一部分电子病历数据,半结构化数据中有固定标识,固定标识中的内容可能空,所述非结构化数据也包含一部分电子病历数据,非结构化数据没有标识,根据知识去提取 ...
【技术保护点】
【技术特征摘要】
1.一种医学文本词向量化方法,其特征在于,通过对原始医学文本数据探查建立词库对后续的向量化做准备,然后通过GLOVE模型进行医学数据词向量化;所述原始医学文本分为结构化数据、半结构化数据和非结构化数据,所述结构化数据中有固定的填写要求数据,所述半结构化数据包含一部分电子病历数据,半结构化数据中有固定标识,固定标识中的内容可能空,所述非结构化数据也包含一部分电子病历数据,非结构化数据没有标识,根据知识去提取。2.根据权利要求1所述的一种医学文本词向量化方法,其特征在于,在GLOVE模型搭建中,统计共现矩阵,a.设共现矩阵为X,其元素为Xij,Xij的意义为:在整个语料库中,单词ii和单词jj共同出现在一个窗口中的次数;b.建立一个词汇频率为整个语料库,返回字典D
‑
>(a,f),将字串映射为对单词ID和单词语料库频率;c.给定的语料库建立一个共现列表。3.根据权利要求2所述的一种医学文本词向量化方法,其特征在于,在GLOVE模型搭建中,模型的损失函数如下:其中vi,vj,是单词i和单词j的词向量,bi,bj是两个偏差项,f是权重函数,N是词汇表的大小,共现矩阵维度为N*N。4.根据权利要求3所述的一种医学文本词向量化方法,其特征在于,GLOVE模型的推导方式为两个条件概率的比值:取得是矩阵i一行的和,如下条件概率表示k出现在单词i语境中的概率由上述公式可知这三个单词的关联性跟概率是存在关系的,Ratio这个指标跟jk的关联性成反比,跟ik的关联性成正比。5.根据权利要求4所述的一种医学文本词向量化方法,其特征在于,共现矩阵和词向量可以相同,那么有如下形式:其中wi是单词向量wk是独立的上下文单词向量,首先我们希望F的信息在向量空间中以比例表示,最自然的方法是使用向量的差值,修改上述等式为:
接下来,上述式子中自变量为向量,等式右边为标量,所以需要把左边进行参数的点积:由上式可得出:对等式两边取对数可得:这时把最右边的log(Xi)与k无关,所以可以通过增加偏置让两边恢复对称性,最终得到等式如下:再对上式进行加权最小二乘回归,将上式转换成最小二乘法问题得到最终损失函数如下:其中函数F(X)应该满足如下要求:a.在0点时应为0且连续;b.函数不应是递减的;c.在x较大时F(X)应相对较小;最终选择:6.根据权利要求5所述的一种医学文本词向量化方法,其特征在于,在GLOVE模型搭建中,包括大段文本搭建、细项文本搭建、全局及详情共现矩阵搭建和矩阵向量化;大段文本搭建对大段文本进行分割,仅需将文本分成多条句子即可,分词方法为根据[$%&'()*+,
‑‑‑
。,;:......]等断句符切割,即T=[S1,S...
【专利技术属性】
技术研发人员:荆晨,
申请(专利权)人:山东健康医疗大数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。