【技术实现步骤摘要】
医学文本的向量表示生成方法和装置
[0001]本专利技术实施例涉及计算机
,特别涉及一种医学文本的向量表示生成方法和装置。
技术介绍
[0002]文本表征是自然语言处理应用的关键任务。它的目标是将非结构化文本映射到低维的向量空间中去,以便可以用数学的方法对文本进行计算。不同的文本表征可以捕捉和解析隐藏在文本中的不同方面的语义信息。因此,如何学习较好的文本表示对于更好地解决自然语言处理问题至关重要。
[0003]当前,现有的表征方式大都利用神经网络模型来生成文本的表示。在针对中文的相关技术中,许多研究基于词级别进行建模,但是不同于英文文本,中文没有分隔符,文本划分成词的过程中,会由于分词错误引入大量噪声;而另一部分研究则采用基于字的模型,避开了中文分词错误的问题,但是这种建模方式的不足在于丢失了词的边界信息,而且词中每个字符的语义叠加后的结果和词本身的语义很多时候并不能等同。近年来,一些研究致力于将词的信息集成到字中,因为词的表示中包含着更完整的语义信息,甚至边界信息,这两类信息的补充都可以对最终的模型预测起到重 ...
【技术保护点】
【技术特征摘要】
1.一种医学文本的向量表示生成方法,其特征在于,包括:构建医学文本的单一粒度图和与每一个单一粒度图对应的第一邻接矩阵;其中,所述单一粒度图包括字符粒度图、单词粒度图和术语粒度图,每一个单一粒度图均包括多个节点和多条边,每条边连接于两个所述节点之间,所述第一邻接矩阵是基于与该第一邻接矩阵对应的单一粒度图中每一条边的权重确定的;基于所述第一邻接矩阵,利用预设的图神经网络模型对每一个单一粒度图进行多次迭代操作,得到该单一粒度图中各节点的第一向量表示;其中,每一个单一粒度图中各节点的第一向量表示是聚合该单一粒度图中各节点自身的向量表示和各阶邻居节点的向量表示得到的;拼接每一个单一粒度图中各节点的第一向量表示,得到各节点自身的第二向量表示;基于不同单一粒度图的节点的包含关系,确定多粒度图的第二邻接矩阵;其中,所述多粒度图是通过对所有单一粒度图进行重构得到的,所述多粒度图包括每一个单一粒度图中的所有节点,所述多粒度图包括的边是基于不同单一粒度图的节点的包含关系得到的;基于所述第二邻接矩阵,利用所述图神经网络模型对所述多粒度图进行多次迭代操作,得到所述多粒度图中各节点的目标向量表示;其中,所述多粒度图中各节点的目标向量表示是聚合所述多粒度图中各节点自身的第二向量表示和各阶邻居节点的第二向量表示得到的。2.根据权利要求1所述的方法,其特征在于,所述构建所述医学文本的单一粒度图和与每一个单一粒度图对应的第一邻接矩阵,包括:对所述医学文本分别进行分字处理、分词处理和医学知识库匹配,得到包括字符、单词和术语三种类型的节点;针对每一种类型的节点,确定连接于两个节点之间的边;基于相同类型的节点和连接于该类型中两个节点之间的边,构建与该类型节点对应的单一粒度图;针对每一种类型的节点,确定该类型中连接两个节点之间的边的权重;基于该类型中连接两个节点之间的边的权重,构建与该类型节点对应的第一邻接矩阵。3.根据权利要求1所述的方法,其特征在于,所述基于所述第一邻接矩阵,利用预设的图神经网络模型对每一个单一粒度图进行多次迭代操作,得到该单一粒度图中各节点的第一向量表示,包括:基于每一个单一粒度图中各节点的上一次向量表示、所述第一邻接矩阵和权重参数矩阵,确定各节点的当前向量表示;其中,各节点的上一次向量表示是利用预设的图神经网络模型对所述第一邻接矩阵进行第t
‑
1次迭代操作后得到的,各节点的当前向量表示是利用所述图神经网络模型对所述第一邻接矩阵进行第t次迭代操作后得到的,t为大于1的正整数,各节点的上一次向量表示包括各节点自身的向量表示及其t
‑
1阶邻居节点的向量表示,各节点的当前向量表示包括各节点的自身的向量表示及其t阶邻居节点的向量表示;根据各节点的当前向量表示,确定各节点的第一向量表示。4.根据权利要求3所述的方法,其特征在于,所述基于各节点的当前向量表示,确定所述各节点的第一向量表示,包括:
基于各节点的上一次向量表示、各节点的当前向量表示、更新门权重参数矩阵、更新门偏差参数矩阵和更新门激活函数,确定各节点的待更新特征矩阵;基于各节点的上一次向量表示、各节点的当前向量表示、遗忘门权重参数矩阵、遗忘门偏差参数矩阵和遗忘门激活函数,确定各节点的待遗忘特征矩阵;基于各节点的上一次向量表示、各节点的当前向量表示、各节点的待遗忘特征矩阵、遗忘权重参数矩阵和遗忘偏差参数矩阵,确定各节点的遗忘特征矩阵;基于各节点的遗忘特征矩阵、各节点的待更新特征矩阵和各节点的上一次向量表示,确定各节点的第一向量表示。5.根据权利要求1所述的方法,其特征在于,所述基于所述第二邻接矩阵,利用所述图神经网络模型对多粒度图进行多次迭代操作,得到多粒度图中各节点的目标向量表示,包括:基于多粒度图中各节点的...
【专利技术属性】
技术研发人员:傅湘玲,闫晨巍,苗从,高越,陈松龄,宋美琦,陈越鹏,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。