【技术实现步骤摘要】
一种基于语言模型的跨专科文本结构化方法
[0001]本专利技术涉及一种文本结构化技术,尤其涉及面向于电子病历的基于语言模型的文本结构化方法。
技术介绍
[0002]随着医疗信息化的不断推进,病人的电子健康记录(Electronic Health Record,简称EHR)也愈发趋于完善。EHR是以个人健康、保健和治疗为中心的数字记录,它以数字化的形式采集和存储患者的健康信息和就诊信息。
[0003]在EHR中,大量的医疗文书是以文本形式存在,电子病历的文本包含了病人的症状,检查结果,以及医生根据症状、理化指标等基础数据做出的诊断和治疗过程的描述。相比已经结构化非常良好的用药记录、检验结果等,临床文本中记录了医生的判断依据,以及对各种诊疗行为的效果跟踪,而这些重要的信息保存在非结构化信息中,不能被计算机所理解和处理。
[0004]现有的文本结构化例如基于通用领域预训练的BERT、CRF、LSTM等模型的命名实体识别或关系抽取算法,都面临着问题定义不精准、不同应用的抽取目标不同、算法泛化能力差、依赖于大规模人工语
【技术保护点】
【技术特征摘要】
1.一种基于语言模型的跨专科文本结构化方法,其特征在于,包括如下步骤:S1:利用模板术语分离器,以医学知识库为字典,从医学文本S中匹配出对应的术语部分,对其进行替换,生成文本模板与专业术语集合;S2:输入文本模板与专业术语,融合后获得向量表征;S3:在使用语言模型的基础上,解码器根据病历文本表征,以及字段名表征,依次采用Self Attention、Query Cross Attention、Text Cross Attention捕捉上文信息,字段信息以及病历文本信息,通过门控单元生成对应的字段值。2.如权利要求1所述的基于语言模型的跨专科文本结构化方法,其特征在于:所述步骤S1中,构造文本模板与专业术语集合的方法包括如下步骤:S11:输入为病历文本S
Doc
、字段名S
key
,输出入为字段值S
value
,根据字段类型确定三种任务类型,所述任务类型包括分类任务,文本跨度型任务,生成型任务;S12:根据不同类型的任务,将任务转化,具体为:如果是分类型任务,则枚举对应候选值,转换为完形填空问题;根据候选值集合建立字典树,转换为限制候选词列表的生成问题;如果是文本跨度型任务,则枚举所有可能的文本跨度,转换为完形填空问题,解码过程引入门控机制,通过额外的神经元计算当前是否应该选择原文中的一个词,转换为可以直接生成原文中一个词的生成问题;如果是生成型任务,解码过程中引入Beam Search算法,通过扩大一定量的搜索空间,转换为对应的生成问题;S13:利用字典树匹配算法,以医学知识库KG为字典,从医学文本S中匹配出对应的术语部分,再对其进行替换,生成文本模板S
pattern
与专业术语集合S
kG
。3.如权利要求1所述的基于语言模型的跨专科文本结构化方法,其特征在于:所述步骤S2中,获得向量表征的方法包括如下步骤:S21:构建基于电子病历文本的可迁移语言模型,其输入为病历文本D
in
以及医学知识库KG,预训练阶段的输出为下游任务的损失,微调阶段的输出为融合后的向量表征E
l+1
;S22:使用预训练完成的语言模型,输入文本模板与专业术语,输出融合后的向量表征E
l+1
,其中模板术语编码器使用Patten Attention、KG Cross Attention依次捕捉模板的上下文语义信息,模板与知识库之间的关联信息,再使用FNN层对其进行一次非线性变换,得融合...
【专利技术属性】
技术研发人员:薛魁,柳俊,王奕,黄宗浩,叶琪,
申请(专利权)人:华东理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。