【技术实现步骤摘要】
医学知识图谱构建方法、装置、服务器及存储介质
本专利技术涉及人工智能领域,特别涉及一种医学知识图谱构建方法、装置、服务器及存储介质。
技术介绍
近几年来,知识图谱开始在学术界和工业界普及并引起广泛关注。知识图谱是一种旨在实现更智能搜索引擎的语义网络,本质上是一个具有有向图结构的知识库。随着互联网和信息产业的发展,医学相关的数据呈爆发式增长。由于医学这个特定专业领域,与通用领域相比具有较强的专业性,因此在构建知识图谱时会遇到特有的问题,如:医学语境的固化导致某些词汇常常共现,以至共现词被错误解读为同义词;某些医学实体在文本中出现频率过低(也即低频词多),难以学习;实体所在的文本信息不完备、背景知识不足、信息描述模糊,导致关系抽取困难,准确率低;医学专业文本更长,文本中实体间隔更大,带来实体间关系弱、难以捕捉的挑战。因此,现有医学知识图谱主要是通过人工对海量医学数据进行标注来获得,耗时耗力。
技术实现思路
为了解决现有医学知识图谱主要是通过人工对海量医学数据进行标注来获得,耗时耗力的问题,本专利技术实施例提供了一种医学知识图谱构建方法、装置、服务器及存储介质。所述技术方案 ...
【技术保护点】
1.一种医学知识图谱构建方法,其特征在于,所述方法包括:获取文本数据并对文本数据进行预处理,得到训练数据集;采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型;采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型;通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。
【技术特征摘要】
1.一种医学知识图谱构建方法,其特征在于,所述方法包括:获取文本数据并对文本数据进行预处理,得到训练数据集;采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型;采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型;通过所述同义实体学习模型和所述关系抽取模型从利用医学文本数据中获取同义实体和实体间关系,得到医学知识图谱。2.根据权利要求1所述的方法,其特征在于,所述获取文本数据并对文本数据进行预处理,得到训练数据集,包括:获取多源异构医学领域文本数据;对获取到的所述多源异构医学领域文本数据进行分词处理,得到医学领域的数据集;获取通用领域文本数据;对获取到的所述通用领域文本数据进行分词处理,得到通用领域的数据集;通过远监督方式对所述医学领域的数据集和所述通用领域的数据集进行文本对齐和标注,得到所述训练数据集。3.根据权利要求2所述的方法,其特征在于,所述采用所述训练数据集进行神经网络训练,得到面向医学文本的同义实体学习模型,包括:在神经网络语言模型中添加已有医学词汇层级结构信息和现有同义词信息;设计所述神经网络语言模型,使其能够同时考虑全局上下文和局部上下文;采用所述训练数据集作为训练语料对所述神经网络语言模型进行训练,得到所述同义实体学习模型。4.根据权利要求2所述的方法,其特征在于,所述采用所述训练数据集进行神经网络训练,得到面向医学文本的关系抽取模型,包括:采用双向门控循环单元模型作为关系抽取的训练模型,并在所述训练模型中添加注意力机制;将句法依存信息转化成向量添加到所述训练模型中;采用所述训练数据集作为训练语料,对所述训练模型进行训练,得到所述关系抽取模型。5.一种医学知识图谱构建装置,其特征在于,所述装置包括:获取模块,用于获取文本数据并对文本数据进行预处理,得到训练数据...
【专利技术属性】
技术研发人员:沈颖,雷凯,司尚春,
申请(专利权)人:北京大学深圳研究生院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。