一种实体链接方法及装置制造方法及图纸

技术编号:24891509 阅读:34 留言:0更新日期:2020-07-14 18:17
本发明专利技术公开了一种实体链接方法及装置,包括:获取当前医疗文本,从当前医疗文本中确定待链接的医疗术语;基于待链接的医疗术语获得当前词向量;比较当前词向量和预设词向量的相似度,输出对比相似度;根据对比相似度确定待链接的医疗术语的当前医疗实体;将待链接的医疗术语和当前医疗实体链接。词向量相比于现有技术的语义成分而言更加多样化,使得解析的结果不局限于一种,在多种结果里筛选最合适的一种结果来作为当前医疗文本,相比于现有技术,避免了由于CRF识别待链接实体的语义成分过于单一导致解析的准确率太低进而无法有效的得到理疗实体或者得到错误的医疗实体的情况,提高了准确率。

【技术实现步骤摘要】
一种实体链接方法及装置
本专利技术涉及数据处理
,尤其涉及一种实体链接方法及装置。
技术介绍
在临床病历大数据的处理中,由于地域、医院、医生、标准等差异,同一实体往往有大量不同的表达方式,只有精确地识别出同一种实体,针对有限的实体空间,才能有效的对数据进行统计和计算。因此,医学术语实体链接是数据处理过程中一个必不可少的部分。目前,现有的实体链接方法一般是通过N-gram算法获得候选数量,CRF识别候选数量的待链接实体的语义成分和候选标准词条的语义成分进行匹配,借助知识图谱的语义成分的同义关系,最后获得相似度最高的标准词语。但是这种方法存在以下缺点:CRF识别待链接实体的语义成分过于单一导致解析的准确率太低进而无法有效的得到理疗实体或者得到错误的医疗实体。
技术实现思路
针对上述所显示出来的问题,本方法基于获取当前医疗文本,确定待链接的医疗术语并获得待链接的医疗术语的当前词向量来和预设词向量作比较进而确定待链接的医疗术语中当前医疗实体并与待链接的医疗术语链接。一种实体链接方法,包括以下步骤:获取当前医疗文本,从所述当前医疗文本中确定待链接的医疗术语;基于所述待链接的医疗术语获得当前词向量;比较所述当前词向量和预设词向量的相似度,输出对比相似度;根据所述对比相似度确定所述待链接的医疗术语的当前医疗实体;将所述待链接的医疗术语和所述当前医疗实体链接。优选的,所述获取当前医疗文本,从所述当前医疗文本中确定待链接的医疗术语,包括:从所述当前医疗文本中抽取所有的第一医疗术语;将所述第一医疗术语输入到预设知识图谱中进行检索;通过检索确定所述待链接的医疗术语。优选的,所述基于所述待链接的医疗术语获得当前词向量,包括:对所述待链接的医疗术语进行预处理,将所述待链接的医疗术语中的英文成分转化成对应的中文;利用下列公式计算所述待链接的医疗术语中每一个中文的标签分数:其中,所述X=(x1,x2,......xn),表示所述待链接的医疗术语中每一个字的输入序列,所述y=(y1,y2,...),表示所述待链接的医疗术语中每一个字的输出序列,所述表示输入为xi输出为标签yi的概率,所述表示从所述标签yi转化到标签yi+1的概率;选择得分最高的输出序列作为所述待链接的医疗术语的当前标签;抽取所述当前标签的n个第一语义成分;利用预设模型训练出所述n个第一语义成分中每个第一语义成分的词向量;将所述每一个语义成分的词向量确定为所述当前词向量。优选的,所述比较所述当前词向量和预设词向量的相似度,输出对比相似度,包括:确定所述待链接的医疗术语对应的医疗概念;在所述预设知识图谱中检索出与所述医疗概念相关的所有的第二医疗术语;抽取所述第二医疗术语中的第二语义成分;利用所述预设模型训练出所述第二语义成分对应的词向量;将所述第二语义成分对应的词向量确定为预设词向量;利用下列公式计算所述当前词向量和所述预设词向量的相似度:其中,所述cosθ为所述当前词向量和所述预设词向量的相似度,所述a1、a2、an为所述当前词向量中的n个词向量,所述b1、b2、bn为所述预设词向量中的n个词向量。优选的,所述根据所述对比相似度确定所述待链接的医疗术语的当前医疗实体,包括:确认所述相似度是否大于等于预设阈值;若是,确认所述相似度是否为百分之百;若是,则根据所述预设词向量对应的预设医疗实体确定所述当前词向量对应的当前医疗实体;否则,判断所述当前词向量和所述预设词向量是否满足预设条件:若是,则根据所述预设词向量对应的预设医疗实体确定所述当前词向量对应的当前医疗实体;否则,提示无匹配当前医疗实体。一种实体链接装置,该装置包括:获取模块,用于获取当前医疗文本,从所述当前医疗文本中确定待链接的医疗术语;获得模块,用于基于所述待链接的医疗术语获得当前词向量;比较模块,用于比较所述当前词向量和预设词向量的相似度,输出对比相似度;确定模块,用于根据所述对比相似度确定所述待链接的医疗术语的当前医疗实体;链接模块,用于将所述待链接的医疗术语和所述当前医疗实体链接。优选的,所述获取模块,包括:第一抽取子模块,用于从所述当前医疗文本中抽取所有的第一医疗术语;第一检索子模块,用于将所述第一医疗术语输入到预设知识图谱中进行检索;第一确定子模块,用于通过检索确定所述待链接的医疗术语。优选的,所述获得模块,包括:预处理子模块,用于对所述待链接的医疗术语进行预处理,将所述待链接的医疗术语中的英文成分转化成对应的中文;第一计算子模块,用于利用下列公式计算所述待链接的医疗术语中每一个中文的标签分数:其中,所述X=(x1,x2,......xn),表示所述待链接的医疗术语中每一个字的输入序列,所述y=(y1,y2,...),表示所述待链接的医疗术语中每一个字的输出序列,所述表示输入为xi输出为标签yi的概率,所述表示从所述标签yi转化到标签yi+1的概率;选择子模块,用于选择得分最高的输出序列作为所述待链接的医疗术语的当前标签;第二抽取子模块,用于抽取所述当前标签的n个第一语义成分;第一训练子模块,用于利用预设模型训练出所述n个第一语义成分中每个第一语义成分的词向量;第二确定子模块,用于将所述每一个语义成分的词向量确定为所述当前词向量。优选的,所述比较模块,包括:第三确定子模块,用于确定所述待链接的医疗术语对应的医疗概念;第二检索子模块,用于在所述预设知识图谱中检索出与所述医疗概念相关的所有的第二医疗术语;第三抽取子模块,用于抽取所述第二医疗术语中的第二语义成分;第二训练子模块,用于利用所述预设模型训练出所述第二语义成分对应的词向量;第三确定子模块,用于将所述第二语义成分对应的词向量确定为预设词向量;第二计算子模块,用于利用下列公式计算所述当前词向量和所述预设词向量的相似度:其中,所述cosθ为所述当前词向量和所述预设词向量的相似度,所述a1、a2、an为所述当前词向量中的n个词向量,所述b1、b2、bn为所述预设词向量中的n个词向量。优选的,所述确定模块,包括:第一确认子模块,用于确认所述相似度是否大于等于预设阈值;第二确认子模块,用于若所述第一确认子模块确认所述相似度大于等于所述预设阈值时,确认所述相似度是否为百分之百;第四确定子模块,用于若所述第二确认子模块确认所述相似度为百分之百时,根据所述预设词向量对应的预设医疗实体确定所述当前词向量对应的当前医疗实体;判断子模块,用于当所述第二确认子模块不确认所述相似度为百分之百时,判断所述当前词向量和所述预设词向量是否满足预设条件:若是本文档来自技高网...

【技术保护点】
1.一种实体链接方法,其特征在于,包括以下步骤:/n获取当前医疗文本,从所述当前医疗文本中确定待链接的医疗术语;/n基于所述待链接的医疗术语获得当前词向量;/n比较所述当前词向量和预设词向量的相似度,输出对比相似度;/n根据所述对比相似度确定所述待链接的医疗术语的当前医疗实体;/n将所述待链接的医疗术语和所述当前医疗实体链接。/n

【技术特征摘要】
1.一种实体链接方法,其特征在于,包括以下步骤:
获取当前医疗文本,从所述当前医疗文本中确定待链接的医疗术语;
基于所述待链接的医疗术语获得当前词向量;
比较所述当前词向量和预设词向量的相似度,输出对比相似度;
根据所述对比相似度确定所述待链接的医疗术语的当前医疗实体;
将所述待链接的医疗术语和所述当前医疗实体链接。


2.根据权利要求1所述实体链接方法,其特征在于,所述获取当前医疗文本,从所述当前医疗文本中确定待链接的医疗术语,包括:
从所述当前医疗文本中抽取所有的第一医疗术语;
将所述第一医疗术语输入到预设知识图谱中进行检索;
通过检索确定所述待链接的医疗术语。


3.根据权利要求2所述实体链接方法,其特征在于,所述基于所述待链接的医疗术语获得当前词向量,包括:
对所述待链接的医疗术语进行预处理,将所述待链接的医疗术语中的英文成分转化成对应的中文;
利用下列公式计算所述待链接的医疗术语中每一个中文的标签分数:



其中,所述X=(x1,x2,......xn),表示所述待链接的医疗术语中每一个字的输入序列,所述y=(y1,y2,...),表示所述待链接的医疗术语中每一个字的输出序列,所述表示输入为xi输出为标签yi的概率,所述表示从所述标签yi转化到标签yi+1的概率;
选择得分最高的输出序列作为所述待链接的医疗术语的当前标签;
抽取所述当前标签的n个第一语义成分;
利用预设模型训练出所述n个第一语义成分中每个第一语义成分的词向量;
将所述每一个语义成分的词向量确定为所述当前词向量。


4.根据权利要求1所述实体链接方法,其特征在于,所述比较所述当前词向量和预设词向量的相似度,输出对比相似度,包括:
确定所述待链接的医疗术语对应的医疗概念;
在所述预设知识图谱中检索出与所述医疗概念相关的所有的第二医疗术语;
抽取所述第二医疗术语中的第二语义成分;
利用所述预设模型训练出所述第二语义成分对应的词向量;
将所述第二语义成分对应的词向量确定为预设词向量;
利用下列公式计算所述当前词向量和所述预设词向量的相似度:



其中,所述cosθ为所述当前词向量和所述预设词向量的相似度,所述a1、a2、an为所述当前词向量中的n个词向量,所述b1、b2、bn为所述预设词向量中的n个词向量。


5.根据权利要求4所述实体链接方法,其特征在于,所述根据所述对比相似度确定所述待链接的医疗术语的当前医疗实体,包括:
确认所述相似度是否大于等于预设阈值;
若是,确认所述相似度是否为百分之百;
若是,则根据所述预设词向量对应的预设医疗实体确定所述当前词向量对应的当前医疗实体;
否则,判断所述当前词向量和所述预设词向量是否满足预设条件:
若是,则根据所述预设词向量对应的预设医疗实体确定所述当前词向量对应的当前医疗实体;
否则,提示无匹配当前医疗实体。


6.一种实体链接装置,其特征在于,该装置包括:
获取模块,用于获取当前医疗文本,从所述当前医疗文本中确定待链接的医疗术语;
获得模块,用于基于所述待链接的医疗术语获得当前词向量;
比较模块,用于比较所述当前词向量和预设词...

【专利技术属性】
技术研发人员:史亚飞
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1