【技术实现步骤摘要】
一种多特征融合的中文医疗文本命名实体识别方法
本专利技术涉及中文命名实体识别领域,具体涉及一种多特征融合的中文医疗文本命名实体识别方法。
技术介绍
随着国内电子病例技术的成熟和应用,产生了大量的电子病历数据,非专业人员认识难以有效利用。命名实体识别技术能够有效的识别并获取电子病历中特定信息,例如病症、诊疗方案、等等,把这些信息识别出来,可以进行进一步的利用,统计这些不同类别的实体信息和分析这些实体信息之间的关系,为诊疗提供精确的数据支持。目前,人们把深度学习技术应用到中文医学文本上来。但这些深度学习的方法大部分都是面向英文的电子病历的,存在以下问题:1)使用基于字的词嵌入算法,难以利用词汇的信息。2)使用基于词的词嵌入算法,会出现分词错误的情况。3)由于中文的特殊性,带来的一词多义和形声字的问题很难解决。
技术实现思路
本专利技术为了克服以上技术的不足,提供了一种提升识别的效果的多特征融合的中文医疗文本命名实体识别方法。本专利技术克服其技术问题所采用的技术方案是:< ...
【技术保护点】
1.一种多特征融合的中文医疗文本命名实体识别方法,其特征在于,包括:/na)对中文电子病历数据进行预处理;/nb)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典D
【技术特征摘要】
1.一种多特征融合的中文医疗文本命名实体识别方法,其特征在于,包括:
a)对中文电子病历数据进行预处理;
b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典Dc和词典Dw;
c)对预处理完成的数据插入并细化标签,完成标准化处理,得到数据集F;
d)从新华字典中获取笔画顺序信息,构建新字典Dc_o1;
e)从新华字典中收集部首信息,构建新字典Dc_r,并将Dc_r加入到新字典Dc_o1中生成字典Dc_o;
f)取字典Dc_o中x字的笔画n-gram的维度大小为|Dc_o|×1的one-hot编码xre、部首维度大小为|Dc_o|×1的one-hot编码xbe以及字的维度大小为|Dc_o|×1的one-hot编码xe_o,通过公式xo=xre+xbe+xe_o计算得到相加后的特征融合的输入向量xo,其维度大小为|Dc_o|×1,其中xre={xre1…xren},xren为第n个n-grams笔画顺序的one-hot编码;
g)通过索引映射将字典Dc_o中每个字映射到N维空间,初始化一个N维空间的矩阵作为权重矩阵将字典Dc_o所有的字映射到矩阵每个字与矩阵中的某一列相对应,通过公式取出中心字xo对应的字向量xe;
h)初始化一个N维空间的矩阵作为权重矩阵作为背景字向量的矩阵,通过公式将字向量xe与权重矩阵中的上下文字做内积运算,得到每个字的计算结果q,式中y0为背景字索引为0的向量,T为转置;
i)通过公式计算得到字向量xe与字向量y0之间的相似度sim(xe,y0),为xe的嵌入,为y0的嵌入;
j)计算损失函数L,使用随机梯度下降法优化损失函数L,优化后将矩阵取出作为多特征字向量矩阵;
k)使用Word2vec训练中文电子病历数据的词向量,得到词向量矩阵
l)数据集F中的某一输入语句x,x=z1,z2,...,zm、x=c1,c2,...,cn,其中zj为语句x的第j个字符,j∈{1,...,m},ci为语句x的第i个词,i∈{1,...,n};
m)将字序列x=z1,z2,...,zm输入Lattice-Lstm模型的嵌入层,通过公式计算每个字符zj被embedding表示为多特征的字向量riz,ez为embedding层的权重矩阵;
n)将词序列x=c1,c2,...,cn输入Lattice-Lstm模型的嵌入层,通过公式计算每个被embedding表示为多特征的词向量为第b个字符到第e个字符组成的词语,ec为embedding矩阵;
o)将字向量riz输入到Lattice-Lstm模型的Lstm层,通过公式计算得到Lstm层中的单词记忆单元遗忘门输入门及遗忘门信息式中σ为sigmoid函数,tanh...
【专利技术属性】
技术研发人员:王英龙,李佳康,舒明雷,周书旺,
申请(专利权)人:山东省人工智能研究院,齐鲁工业大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。