一种医疗文本数据处理方法及装置制造方法及图纸

技术编号:38814101 阅读:28 留言:0更新日期:2023-09-15 19:53
本发明专利技术涉及一种医疗文本数据处理的方法及装置,所述方法包括:根据搜集到的公开医学信息抽取数据集微调中文医疗预训练模型MC

【技术实现步骤摘要】
一种医疗文本数据处理方法及装置


[0001]本专利技术属于信息处理
,特别涉及一种使用人工智能技术对医疗文本进行处理的方法及装置。

技术介绍

[0002]人工智能(Artificial Intelligence,Al)指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通电脑实现的智能。人工智能包括弱人工智能和强人工智能。一般认为,弱人工智能(也称狭义人工智能)指的是专注于解决某个特定领域问题的人工智能技术,也可以认为是应用于该领域的技术工具。
[0003]自然语言处理技术是狭义人工智能的一个重要分支,注重于对自然语言的处理和运用,在人机交互中已经得到了广泛的应用。自然语言处理的范畴包括信息检索、信息抽取、机器翻译、文本朗读、分词、词性标注、自动摘要等领域。
[0004]在健康医疗大数据领域的实际应用中,使用自然语言处理技术中的分词、标注,可以对于医生使用自然语言描述的病历进行分析,从中提取病人的症状、诊疗信息和事件等信息。这些信息的获得和标准化对于医生的临床科研研究以及人工智能辅助诊疗系统等应用的搭建都起到重要的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种医疗文本数据处理方法,其特征在于,所述方法包括:根据获取到的公开医学信息抽取数据集构建训练集,微调中文医疗预训练模型MC

BERT,完成参数的域迁移;基于微调后的MC

BERT将临床医疗文本分词后得到长度为N的词元(token)合集并构造N*N的矩阵,其中N为自然数,随后将分词后的医学文本送入MC

BERT获得编码向量,利用矩阵的位置坐标反推出医学实体所对应的文本范围,抽取医学实体;基于全连接层的多分类器,对存在医学关系的实体对进行关系判别,抽取医学实体关系;将提取到的医学实体和医学实体关系进行结果融合。2.根据权利要求1所述的一种医疗文本数据处理方法,其特征在于,所述公开医学信息抽取数据集为CHIP2020中文医学文本命名实体识别、中文医学实体关系抽取数据集,CCKS2020医疗命名实体识别、医疗实体及属性抽取数据集。3.根据权利要求1所述的一种医疗文本数据处理方法,其特征在于,所述微调中文医疗预训练模型的方法为:基于BIOES编码方式对所有收集到的公开医学信息抽取数据集进行序列标注,其中B

Type代表实体的起始,I

Type代表实体的中间,O代表非实体部分,E

Type代表实体的尾部,S

Type代表单字实体,Type代表所对应的医学实体类型。对某类型医学实体Type

a中嵌套其它类型实体Type

b情况时,采用合并标签层的方式,将存在嵌套关系的两种实体类别两两组合,产生新的实体类型标签Type

a|Type

b。通过统一序列标注后的数据以命名实体识别任务为学习目标微调MC

BERT,得到领域迁移后的新语言模型。4.根据权利要求1所述的一种医疗文本数据处理方法,其特征在于,所述抽取医学实体具体步骤为:对临床医疗文本数据预处理,清洗并切分长文本;采用BERT模型自带的字典文件进行分词,得到的长度为N的词元集合并构造N*N的span矩阵用于编码实体标签,矩阵的下标值span[start][end]=C,其中[start][end]代表医学实体所对应文本的起止范围,C代表实体类别,C=0时则表示非实体文本;通过微调后的MC

Bert作为embedding,得到span[start][end]所对应文本片段的实体类型逻辑得分,得分大于阈值α视为有效实体。5.根据权利要求3所述的一种医疗文本数据处理方法,其特征在于,所述将标注出的有效实体通过以下公式进行实体间关系的确定:式中,M代表实体关系类别总数,p
i
表示第i个实体对所代表的上下文向量表示,d
i
表示第i个实体对间的相对距离特征向量,字符
°
表示向量级联操作。6.根据权利要求5所述的一种医疗文本数据处理方法,其中标注实体类型标签主要有:患处的...

【专利技术属性】
技术研发人员:李琴杨斌文治中宋黎晓
申请(专利权)人:百洋智能科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1