医学语义匹配模型的训练方法、医学知识匹配方法及装置制造方法及图纸

技术编号:31320003 阅读:57 留言:0更新日期:2021-12-13 00:03
本发明专利技术公开了医学语义匹配模型的训练方法、医学知识匹配方法及装置,该方法包括:在模型训练过程中,使用医学领域的文本对预训练语言模型进行语义训练,得到医学语义分析模型。通过医学语义分析模型的编码器生成每个样本对的两个第一句子级语义向量,再计算转换得到的两个第一句子级语义向量间的相似度,根据第二损失函数计算第二损失值并调整医学语义分析模型中的参数,以得到医学语义匹配模型。在应用过程中,通过文本库建立向量化知识库,再根据需求自行选择需要的模型并结合向量化知识库来进行高精度的匹配或粗精度的匹配,最后基于匹配结果及向量化知识库内的索引完成对匹配结果的输出,这样用户就快速找对与待匹配文本相关联的医学知识。文本相关联的医学知识。文本相关联的医学知识。

【技术实现步骤摘要】
医学语义匹配模型的训练方法、医学知识匹配方法及装置


[0001]本专利技术涉及大数据
,尤其是涉及医学语义匹配模型的训练方法、医学知识匹配方法及装置。

技术介绍

[0002]目前大量的文本数据仍缺乏高效率的管理方式,主要还是依赖专家系统来人为管理。专家系统需要依靠临床分析师对文本数据进行阅读,定位业务中所需要的知识点,再把整理好的知识点与相关的项目关联起来。这种方法投入的人力成本高,效率低,速度慢且缺乏规划。
[0003]在当今自然语言处理领域,预训练语言模型开创了研究的新范式,刷新了多项自然语言处理任务的最好水平。预训练语言模型即先基于大量无监督语料进行语言模型预训练(Pre

training),再使用少量标注语料进行微调(Fine

tuning)来完成文本分类、序列标注、机器翻译、阅读理解等下游NLP(自然语言处理,Neuro

Linguistic Programming)任务。目前的预训练语言模型虽然在一般通用领域内表现较好,但由于其基于的大规模语料并非针对某一特定本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种医学语义匹配模型的训练方法,其特征在于,所述方法包括:获取第一文本知识库和预训练语言模型,对所述第一文本知识库的文本进行实体全词覆盖,得到语义训练样本;所述第一文本数据库的文本包括多个检测报告文本和知识条目,所述实体全词覆盖用于隐藏所述文本中的至少一个词汇;使用所述语义训练样本对所述预训练语言模型进行语义训练,以预测在所述语义训练样本的覆盖位置处的词汇补全结果,根据所述词汇补全结果和第一损失函数计算第一损失值,根据所述第一损失值调整所述预训练语言模型中的参数,得到训练后的医学语义分析模型,所述预训练语言模型包括编码器和第一输出层,所述编码器用于提取语义向量,所述第一输出层用于根据所述编码器输出的语义向量输出所述词汇补全结果;获取多个样本对,所述多个样本对包括正样本对和负样本对,一个正样本对包括一个检测报告和一个匹配的知识条目,一个负样本对包括一个检测报告和一个不匹配的知识条目;通过所述医学语义分析模型中的编码器生成每个样本对的两组词语级语义向量,对所述每个样本对的两组词语级语义向量进行降维,得到每个样本对的两个第一句子级语义向量;所述两组词语级语义向量包括检测报告对应的一组词语级语义向量和知识条目对应的一组词语级语义向量,一组词语级语义向量包括多个词语级语义向量,一个词语级语义向量为一个字对应的多维度语义向量;通过与所述医学语义分析模型中编码器连接的第二输出层计算所述每个样本对的两个第一句子级语义向量间的相似度,根据所述相似度和第二损失函数计算第二损失值,根据所述第二损失值调整所述医学语义分析模型中编码器和所述第二输出层的参数,以增大正样本对的两个第一句子级语义向量间的相似度,且所述减小负样本对的两个第一句子级语义向量间的相似度,以得到训练后的医学语义匹配模型。2.根据权利要求1所述的方法,其特征在于,所述对所述第一文本知识库的文本进行实体全词覆盖,得到语义训练样本,包括:获取医学标准术语库,所述医学标准术语库包括多个医学标准术语;以词汇为单位对所述第一文本知识库中的文本进行分词,得到分词结果;根据所述医学标准术语库,用覆盖标签对所述分词结果中的医学标准术语进行覆盖,得到所述语义训练样本。3.根据权利要求1所述的方法,其特征在于,对所述第一文本知识库的文本进行实体全词覆盖,得到语义训练样本,包括:当每进行一轮语义训练时,随机对所述第一文本知识库的文本进行实体全词覆盖,其中一个目标文本中覆盖的实体词汇的字数与所述目标文本的字数的比值大于预设的第一比值,所述目标文本为任一文本。4.根据权利要求1所述的方法,其特征在于,所述对所述每个样本对的两组词语级语义向量进行降维,得到每个样本对的两个第一句子级语义向量,包括:对所述每个样本对的两组词语级语义向量分别在预设的维度上取平均值,得到所述每个样本对的两个第一句子级语义向量。5.根据权利要求1所述的方法,其特征在于,所述第一损失函数为负对数拟然损失函数,预训练语言模型中的参数包括所述预训练语言模型中编码器的参数和所述第一输出层
的参数。6.根据权利要求1所述的方法,其特征在于,所述第二损失函数为三重损失函数。7.一种医学知识匹配方法,其特征在于,应用如权利要求1所述的医学语义分析模型和医学语义匹配模型,所述方法包括:获取向量化知识库,所述向量化知识库包括多个向量化知识,一个向量化知识由所述医学语义分析模型中的编码器对第二文本知识库中的一个知识条目转换得到,所述第二文本知识库包括若干知识条目,一个向量化知识通过一个索引与所述第二文本知识库的一个知识条目关联;当进行第一匹配标准的知识匹配时,通过所述医学语义分析模型的编码器将所述待匹配文本转换为向量化待匹配文本,将所述向量化待匹配文本和目标向量化知识输入所述医学语义匹配模型,输出所有向量化知识与所述待匹配文本的匹配度,所述目标向量化知识为所述向量化知识库中的任一向量化知识;当进行第二匹配标准...

【专利技术属性】
技术研发人员:陈思彤陶然刘斯刘芯雨
申请(专利权)人:广州医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1