基于日志反馈的中文医学术语自适应对齐方法技术

技术编号:38718251 阅读:9 留言:0更新日期:2023-09-08 15:00
本发明专利技术公开了一种基于日志反馈的中文医学术语自适应对齐方法,基于日志反馈、弱监督和对比学习实现,通过记录客户端的操作日志,分析日志中的动作过程,识别并抽取医学术语,打通医学术语并分拆概念子图,从而实现自动构建训练样本,并进行自学习和自动索引,从而可随着下游的业务系统的日志数据的接入进行自我学习与自我提升,然后把自学习好的模型再服务于下游系统,通过全流程的闭环来实现术语对齐的自动化和高效性。齐的自动化和高效性。齐的自动化和高效性。

【技术实现步骤摘要】
基于日志反馈的中文医学术语自适应对齐方法


[0001]本专利技术涉及人工智能
,具体涉及一种基于日志反馈的中文医学术语自适应对齐方法。

技术介绍

[0002]医学概念对齐是医疗信息处理领域的一个重要研究方向。它主要指将医学领域中使用的术语、符号、缩写等进行标准化。在医疗信息系统中,同一个医学术语可能有多种不同的医学概念表达方式。这种表达方式的不统一和不准确现象严重阻碍了医疗大数据的整合、共享和利用,给医疗领域的临床、教学和科研带来困难。例如,会出现术语混淆、信息不准确、信息遗漏、信息重复以及跨机构交流难等问题。
[0003]医疗机构基于现有的医学术语标准词典,采用人工编码的方式将临床医疗文本中的医学概念手动映射为医学术语编码,而人工编码需要大量具有医学知识的专业人员进行操作,成本高昂,效率有限并且准确性不高。
[0004]近年来,为了解决成本与效率问题,深度神经网络与知识图谱被广泛应用,特别是在NLP领域中文医学术语的应用方面。目前已经出现了多种方法,如基于NER对文本进行更细粒度的拆解,基于半监督和主动学习相结合的实体抽取方法,以及基于深度和搜索的抽取方法。这些方法可以通过召回术语,再通过精排推荐。流程大部分都需要收集好数据或利用国外的英文术语库进行翻译,有必要时需要专家进行标注。显然这里是存在以下几个问题:
[0005]问题1、数据的收集是一个浩大的工程,需要花费大量的资金、人力、时间成本;
[0006]问题2、英文术语库转成中文的翻译的正确性依然是一个问题;如果加入人工审核,诚然能够提高中文翻译的正确性,但巨大的人工审核量会视术语对齐工程遥遥无期。

技术实现思路

[0007]针对现有技术的不足,本专利技术旨在提供一种基于日志反馈的中文医学术语自适应对齐方法。
[0008]为了实现上述目的,本专利技术采用如下技术方案:
[0009]一种基于日志反馈的中文医学术语自适应对齐方法,具体包括如下步骤:
[0010]S1、收集开放的医学术语资源,进行医学术语初始化,构建初始的医学术语样本,训练得到中文医学术语对齐模型;
[0011]S2、用户可通过客户端输入查询的医学术语;然后应用服务器通过术语服务器的中文医学术语对齐模型检索查询词相关的概念编码,并返回候选概念编码序列,此时用户在客户端对候选的概念编码进行选择并提交;应用服务器的日志系统对用户的查询操作进行记录得到用户的操作日志数据,并得到应用服务器由此产生的事务日志数据,然后将用户的操作日志数据和应用服务器的事务日志数据反馈到术语服务器的日志仓库;
[0012]S3、日志仓库将应用服务器反馈的日志数据通过弱监督进行学习,得到高质量训
练样本;术语服务器利用得到的训练样本对中文医学术语对齐模型基于对比学习进行训练,训练得到的中文医学术语对齐模型持续为应用服务器提供服务。
[0013]进一步地,步骤S1中构建初始医学术语样本数据的具体过程为:
[0014]S1.1、选择UMLS开源医学资源库,收集UMLS术语;
[0015]S1.2、对步骤S1.2收集到的UMLS术语进行翻译。
[0016]进一步地,步骤S2的具体实现过程如下:
[0017]S2.1、在客户端的应用界面进行埋点与日志采集请求,一旦事件点被激发,客户端基于脚本代码向应用服务器发送日志记录请求,完成一次操作日志记录;
[0018]S2.2、应用服务器的日志系统响应客户端的日志记录请求,完成操作日志记录,并对应用服务器业务处理过程的日志进行记录,得到事务日志数据;
[0019]S2.3、将操作日志数据和事务日志数据同步至日志仓库:
[0020]客户端的操作日志记录请求包括的字段有请求IP、用户uui、时间、事件类型和业务参数;应用服务器的事务日志字段也包括请求时间、用户uui、事件类型、事件方法和业务参数;
[0021]对获取的所有日志按用户uui进行分组,按时序还原用户行为过程,从时序中提取出用户的选择,完成最后的数据标注;将日志数据处理形成(服务器编码,uui,日期,查询的医学术语,候选集,选择集,是否自定义)格式的数据结构,并把格式化的数据更新到日志仓库中。
[0022]进一步地,步骤S3的具体过程如下:
[0023]S3.1、定义样本格式:首先把日志数据的结构转换成(术语1,术语2,{1,-1})的形式,每一个样本都包含一个术语对;具体转换规则为:
[0024](1)查询的医学术语与选择集对应的术语构建成正样本;
[0025](2)从候选集对应的术语中去除选择集所对应的术语得到去重术语集,将查询的医学术语与去重术语集中的术语构建成负样本;
[0026]S3.2、定义与建立学习模型:在步骤S3.1中根据两个规则生成的正样本集和负样本集中,删除频率小于3的样本,最终得到样本集S,日志来源个数为M,总样本数据量为N;样本标注矩阵为A∈{

1,1}
N*(2M+|C|)
,C表示任意日志来源i,k的两两组合的抽样,表示日志来源的相关情况,样本的真实标签为Y∈{

1,1}
N
为隐变量;把多来源标注与真实标注的关系定义为概率图模型的因子图模型,记为P
θ
(A,Y),定义三个因子式为:
[0027][0028][0029][0030]式(1)生成的标签矩阵记为式(2)生成的正确度矩阵记为式(3)生成的相关矩阵记为具体地,定义的元素表示样本x
i
来源于j源头的日志数据,如果存在术语相似,则否则对于的元素如果标注样本的标注标签与
真实一致,则否则对于的元素如果样本x
i
在来源j与来源k相同,则否则故合并三个因子可以得到
[0031]综上,所以合并后的因子表达式记为学习模型定义为:
[0032][0033]其中,表示概率分布的权重;
[0034]S3.3、学习模型训练:对于包含的隐变量Y的学习模型P
θ
(A,Y),根据日志标注标签可见的矩阵A,最小化负对数边际似然:
[0035][0036]求解与优化问题,采用梯度下降的方法,具体为Gibbs采样算法,采用斯坦福的Snorkel工具包求解,把学习后参数记为θ
*

[0037]S3.4、由步骤S3.3得到学习模型的参数θ
*
,得到训练后的学习模型即
[0038]S3.5、通过学习模型学习,对多来源样本的含噪声的标注进行了融合,得到一个软标注分布,会生成软标注的术语对样本集X
soft

[0039]设定过滤标注阈值α(α≥0.95),对X
soft
进行过滤得到术语对样本集X
hard
,构建概念图:
[0040]B1、对于术语对样本集X
hard
,以术语作为概念图的节点,以术语对构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于日志反馈的中文医学术语自适应对齐方法,其特征在于,具体包括如下步骤:S1、收集开放的医学术语资源,进行医学术语初始化,构建初始的医学术语样本,训练得到中文医学术语对齐模型;S2、用户可通过客户端输入查询的医学术语;然后应用服务器通过术语服务器的中文医学术语对齐模型检索查询词相关的概念编码,并返回候选概念编码序列,此时用户在客户端对候选的概念编码进行选择并提交;应用服务器的日志系统对用户的查询操作进行记录得到用户的操作日志数据,并得到应用服务器由此产生的事务日志数据,然后将用户的操作日志数据和应用服务器的事务日志数据反馈到术语服务器的日志仓库;S3、日志仓库将应用服务器反馈的日志数据通过弱监督进行学习,得到高质量训练样本;术语服务器利用得到的训练样本对中文医学术语对齐模型基于对比学习进行训练,训练得到的中文医学术语对齐模型持续为应用服务器提供服务。2.根据权利要求1所述的方法,其特征在于,步骤S1中构建初始医学术语样本数据的具体过程为:S1.1、选择UMLS开源医学资源库,收集UMLS术语;S1.2、对步骤S1.2收集到的UMLS术语进行翻译。3.根据权利要求1所述的方法,其特征在于,步骤S2的具体实现过程如下:S2.1、在客户端的应用界面进行埋点与日志采集请求,一旦事件点被激发,客户端基于脚本代码向应用服务器发送日志记录请求,完成一次操作日志记录;S2.2、应用服务器的日志系统响应客户端的日志记录请求,完成操作日志记录,并对应用服务器业务处理过程的日志进行记录,得到事务日志数据;S2.3、将操作日志数据和事务日志数据同步至日志仓库:客户端的操作日志记录请求包括的字段有请求IP、用户uui、时间、事件类型和业务参数;应用服务器的事务日志字段也包括请求时间、用户uui、事件类型、事件方法和业务参数;对获取的所有日志按用户uui进行分组,按时序还原用户行为过程,从时序中提取出用户的选择,完成最后的数据标注;将日志数据处理形成(服务器编码,uui,日期,查询的医学术语,候选集,选择集,是否自定义)格式的数据结构,并把格式化的数据更新到日志仓库中。4.根据权利要求1所述的方法,其特征在于,步骤S3的具体过程如下:S3.1、定义样本格式:首先把日志数据的结构转换成(术语1,术语2,{1,-1})的形式,每一个样本都包含一个术语对;具体转换规则为:(1)查询的医学术语与选择集对应的术语构建成正样本;(2)从候选集对应的术语中去除选择集所对应的术语得到去重术语集,将查询的医学术语与去重术语集中的术语构建成负样本;S3.2、定义与建立学习模型:在步骤S3.1中根据两个规则生成的正样本集和负样本集中,删除频率小于3的样本,最终得到样本集S,日志来源个数为M,总样本数据量为N;样本标注矩阵为A∈{

1,1}
N*(2M+|C|)
,C表示任意日志来源i,k的两两组合的抽样,表示日志来源的相关情况,样本的真实标签为Y∈{

1,1}
N
为隐变量;把多来源标注与真实标注的关系定义
为概率图模型的因子图模型,记为P
θ
(A,Y),定义三个因子式为:定义三个因子式为:定义三个因子式为:式(1)生成的标签矩阵记为式(2)生成的正确度矩阵记为式(3)生成的相关矩阵记为具体地,定义的元素表示样本x
i
来源于j源头的日志数据,如果存在术语相似,则否则对于的元素如果标注样本的标注标签与真实一致,则否则对于的元素如果样本x
i
在来源j与来源k相同,则否则故合并三个因子可以得到综上,所以合并后的因子表达式记为学习模型定义为:其中,表示概率分布的权重;S3.3、学习模型训练:对于包含的隐变量Y的学习模型P
θ
(A,Y),根据日志标注标签可见的矩阵A,最小化负对数边际似然:求解与优化问题,采用梯度下降的方法,具体为Gibbs采样算法,采用斯坦福的Snorkel工具包求解,把学习后参数记为θ
*
;S3.4、由步骤S3.3得到学习模型的参数θ
*
,得到训练后的学习模型即S3.5、通过学习模型学习,对多来源样本的含噪声的标注进行了融合,得到一个软标注分布,会生成软标注的术语对样本集X
soft
;设定过滤标注阈值α(α≥0.95),对X
soft
进行过滤得到术语对样本集X
hard
,构建概念图:B1、对于术语对样本集X
hard
,以术语作为概念图的节点,以术语对构成两节点的边,构建成了概念子图G
sample
,此时的术语集合为Term_set
sample
;B2、基于UMLS先验库,概念编码CUI为单位,取术语集合Term_set
umls
,取T
i
∈Term_set
umls
创建节点,其中节点可以中文术语或英文术语,所有的术语构建成节点集合,并对同一CUI术语集合中的节点两两用边连接起来构成一个个独立的概念子图G
UMLS
;B3、按构建G
UMLS
的过程,构建其它的术语库的概念子图G
x
;B4、基于相同节点术语和多个概念子图,得到概念图G:
同理,全体医学术语集合表示为:B5、对于图G,分拆出独立连通子图,每个连通子图定义为概念子图获取过程采用python的第三方包networkx的connected_components方法进行计算,形式表示为:对每个给予唯一的全局概念编码来表示,称为概念编码,记为获取对应的子图中的节点术语,并构建的医学术语语义等价集全量术语等价集记为S
C
;统一概念编码后,同时得到与公开源术语库的术语映射关系列表gid2cid_list;对Term_set的医学术语进行自动编号,带编号的医学术语集记为Term_set',编码号字段记为tid,同时得到与Term_set'的术语映射关系列表tid2gid_list。5.根据权利要求4所述的方法,其特征在于,所述中文医学术语对齐模型主要由术语库、文本搜索引擎和语义搜索引擎构成;术语...

【专利技术属性】
技术研发人员:梁锐唐珂轲陈美莲黄毅宁钟冬赐林少泽吴豪
申请(专利权)人:广州中康数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1