基于表示学习的医学新词发现处理方法技术

技术编号:27772249 阅读:16 留言:0更新日期:2021-03-23 12:53
本发明专利技术公开了基于表示学习的医学新词发现处理方法,S10,原始语料预处理;S20,分词处理;S30,频繁n‑gram挖掘;S40,n‑gram词串剪枝。本发明专利技术基于词向量表征的n‑gram模型,同时,采用融合文本描述的Skip‑gram方法表征词向量,以提升词向量表征的准确度,解决医学领域新词发现的挑战,继而针对新发疾病提出相应的预防措施和治疗方案,具有现实意义。

【技术实现步骤摘要】
基于表示学习的医学新词发现处理方法
本专利技术属于语言处理
,涉及一种基于表示学习的医学新词发现处理方法。
技术介绍
近年来,随着人工智能技术的发展,基于知识图谱的认知智能的应用广泛,各类应用(包括数据分析、智慧搜索、智能推荐、自然人机交互和决策支持)都对知识图谱技术提出需求。知识图谱描述的是现实世界中实体间的关系,知识表示是对现实世界的一种抽象表达。以在医学领域的应用为例,知识图谱是从医学数据中提炼信息并加以管理、共享及应用,这是推进医学智能化的关键问题,是医学知识检索、临床诊断、医疗质量管理、电子病历及健康档案智能化处理的基础。具体来说,通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库。医学知识融合对医学知识库内容进行消歧和链接,增强知识库内部的逻辑性和表达能力,并通过人工或自动的方式为医学知识图谱更新旧知识或补充新知识;借助知识推理,推断出缺失事实,自动完成疾病诊断与治疗;质量评估则是保障数据的重要手段,提高医学知识图谱的可信度和准确度。知识表示学习是近年来的研究热点,知识表示学习目的是将研究对象的语义信息表示为低维稠密实值向量,主要面向知识图谱中的实体和关系进行表示学习目前的表示学习模型可分为三类:基于语义匹配、基于距离变换、基于融合多源信息。TransE模型作为距离变换模型的代表,将知识库中的关系看作实体间的某种平移向量。为解决TransE模型在处理复杂关系时的局限性,TransH模型提出让一个实体在不同的关系下拥有不同的表示。TransR模型提出不同关系关注实体的不同属性,不同的关系拥有不同的语义空间。TransD模型定义两个分别将头实体和尾实体投影到关系空间的相应投影矩阵。TransA模型将损失函数中的距离度量改用马氏距离,并为每一维学习不同的权重。在此基础上,又衍生出其他的改进模型。DKRL提出在知识表示学习中考虑FreeBase等知识库中描述实体的文本信息,通过卷积神经网络或者连续词袋模型编码实体描述信息;TransE-NMM提出引入邻居实体信息,通过邻居向量和实体向量相加得到最后的实体表示;PTransE考虑了关系路径信息增强知识表示学习;IKRL提出融合图像多模态,将图像信息映射到向量空间;TKRL提出将层次类型信息用于映射矩阵,使每一个实体在不同关系下突出不同的实体类型。表示学习的应用有知识库的链接预测、三元组的事实判定(作为知识图谱的增补)、实体分类等。疾病智能辅助诊断发展至今,在越来越多临床场景铺开尝试性应用。1982年,美国匹兹堡大学的Miller成功研发了内科辅助诊断系统,其构建的知识库中含有572种疾病,以及约4500种症状数据;1991年美国哈弗大学Barnertt研制的“解释”软件,包含2200种疾病数据和5000种症状数据;2013年KarimBaati等人提出基于分类算法朴素贝叶斯诊断淋巴疾病;2016年KhushbooChandel等人提出采用数据挖掘分类技术(贝叶斯、K-近邻和支持向量机)应用于甲状腺疾病分析。医学智能诊断覆盖高低危疾病、罕见疾病,凭借既往病史、症状等信息就能推理出疾病类型,有助于后续治疗。
技术实现思路
本专利技术提出一种基于词向量表征的n-gram模型,同时,采用融合文本描述的Skip-gram方法表征词向量,最后将其应用于新词发现。本专利技术的技术方案为基于表示学习的医学新词发现处理方法,包括以下步骤:S10,原始语料预处理;S20,分词处理;S30,频繁n-gram挖掘;S40,n-gram词串剪枝。优选地,所述原始语料预处理,为对原始语料中的语句进行预处理,通过句、逗号或换行符,将语句简单划分成短句子集合。优选地,所述分词处理,为遍历短句,进行分词处理,分词之后形成一个有序词列。优选地,所述频繁n-gram挖掘,包括以下步骤:S31,设定频率阈值,第一遍扫描数据集T,在第一次扫描结束后找出所有出现频率大于阈值的n元词串,扫描的同时记录下所有这些n元词串的位置索引;S32,进行第二遍扫描,只扫描上一次扫描结果词所在的词序列,并且只根据上一次扫描结果记录的位置索引前后扩张一个词,探测n+1元词串是否满足要求;S33,重复S32,最终得到出现频率高于阈值的nmax元词串,得到新词候选词串。优选地,所述n-gram词串剪枝为利用Skip-gram模型剪枝,通过n-gram挖掘得到候选词串中含有大量的噪音数据,利用词向量的相似性对候选词串进行过滤,利用候选词串中的词与词之间对应的词向量的距离衡量相似度,词与词之间的相似度小于某个阈值,便对其进行剪枝,从而剔除噪音数据。优选地,所述n-gram词串剪枝为利用CENE将文本内容视为特殊类型的节点,并利用节点-节点链接和节点-内容链接进行节点嵌入,与Skip-gram模型结合,把语句中的词理解为CENE模型中的节点。优选地,所述CENE模型中实现节点-句子链接,包括以下组合模型:WAvg:将词向量的平均值表示句子嵌入,不考虑词序;RNN:使用门控循环单位,具有捕获每层隐藏层信息的能力;BiRNN:在RNN的基础上采用两层独立的隐藏层在两个相反方向上处理同一个句子,两层隐藏层输出经过平均池化层之后汇集。本专利技术至少有如下具体有益效果:医学领域的快速发展,网络信息的快速更迭,医学新词的频繁涌现,这给文本挖掘工作带来很大的挑战,新词发现与分词工作紧密相关,分词的准确性又很大程度上影响文本语义分析的准确性。例如,对于“新冠肺炎的早期症状是发热、疲劳和干咳”进行文本分析,错误把“新冠肺炎”分为“新/冠肺炎”,会导致后续文本分析中与新冠肺炎这一实体相关的分析不准确。目前新词识别方法主要分为有监督的方法和无监督的方法。有监督的方法主要是基于统计学习,这种方法需要大量的标注数据以及繁复的特征选取工作,而获得大量的标注数据往往成本高昂,特征选取则需要丰富的经验。无监督的方法主要是基于规则或计算一些统计指标来进行新词发现,基于规则的方法需要制定大量的语言规则,可移植性差,而单纯的某个统计指标往往效果较差,且一些统计指标计算复杂。近几年的研究表明,通过知识表示模型的训练,已经能够较好的将实词及词之间的语义关系向量化表示。本专利技术提出一种基于词向量表征的n-gram模型,同时,采用融合文本描述的Skip-gram方法表征词向量,最后将其应用于新词发现。在医学领域,一些疾病的诞生、爆发具有未知性、不可控性,比如今年在世界范围内爆发的新冠疫情,其传播感染性强,可通过呼吸道、密切接触传播,患者常见症状有发烧、疲劳、咳嗽等,在集中爆发时期致死率较高,对于新冠肺炎的危险性是疾病发现伊始无法预料的。随着疫情的发展,我们对新冠肺炎的认知不断刷新,潜伏期、无症状感染者、核酸检测、新冠病毒基因序列这些名词随之诞生。基于词向量表征的新词发现能解决新词分词的问题,而分词作为文本语义分析的基础,有助于医学知识图谱的构建、补全,有助于医学疾病诊断。本文档来自技高网
...

【技术保护点】
1.基于表示学习的医学新词发现处理方法,其特征在于,包括以下步骤:/nS10,原始语料预处理;/nS20,分词处理;/nS30,频繁n-gram挖掘;/nS40,n-gram词串剪枝。/n

【技术特征摘要】
1.基于表示学习的医学新词发现处理方法,其特征在于,包括以下步骤:
S10,原始语料预处理;
S20,分词处理;
S30,频繁n-gram挖掘;
S40,n-gram词串剪枝。


2.根据权利要求1所述的方法,其特征在于,所述原始语料预处理,为对原始语料中的语句进行预处理,通过句、逗号或换行符,将语句简单划分成短句子集合。


3.根据权利要求2所述的方法,其特征在于,所述分词处理,为遍历短句,进行分词处理,分词之后形成一个有序词列。


4.根据权利要求3所述的方法,其特征在于,所述频繁n-gram挖掘,包括以下步骤:
S31,设定频率阈值,第一遍扫描数据集T,在第一次扫描结束后找出所有出现频率大于阈值的n元词串,扫描的同时记录下所有这些n元词串的位置索引;
S32,进行第二遍扫描,只扫描上一次扫描结果词所在的词序列,并且只根据上一次扫描结果记录的位置索引前后扩张一个词,探测n+1元词串是否满足要求;
S33,重复S32,最终得到出现频率高于阈值的nmax元词串,得...

【专利技术属性】
技术研发人员:张继勇陈浩翔
申请(专利权)人:浙江汉德瑞智能科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1