当前位置: 首页 > 专利查询>之江实验室专利>正文

一种急救场景的医疗文本纠错及智能提取的方法及装置制造方法及图纸

技术编号:38010616 阅读:6 留言:0更新日期:2023-06-30 10:30
本说明书公开了一种急救场景的医疗文本纠错及智能提取的方法及装置,可以获取语音识别出的急救医疗文本,而后,根据统计语言模型和/或错字识别模型,确定急救医疗文本中存在的错误位置,进而,确定每个错误位置对应的候选代替字,并根据每个错误位置对应的候选代替字,确定将急救医疗文本进行纠错后的各候选纠错文本,以从各候选纠错文本中选取出目标文本,最后,可以将预设的医疗信息类型与目标文本输入到预先训练的信息提取模型的第一网络层中,以使第一网络层输出提示信息向量,将提示信息向量和目标文本输入到信息提取模型的第二网络层,以通过信息提取模型从目标文本中提取出该医疗信息类型下的医疗信息,从而提高了信息提取的准确性。了信息提取的准确性。了信息提取的准确性。

【技术实现步骤摘要】
一种急救场景的医疗文本纠错及智能提取的方法及装置


[0001]本说明书涉及神经网络
,尤其涉及一种急救场景的医疗文本纠错及智能提取的方法及装置。

技术介绍

[0002]在医疗系统中,往往需要将患者的一些信息录入到医院的系统中,便于后续医生的治疗和复诊,在院前医疗急救中也是同样的,院前医疗急救时,医护人员可以将与患者相关的医疗信息上传到医院的系统中。
[0003]当前,将与患者相关的医疗信息录入到医院的系统,通常可以将医护人员输入的一段话,转换成结构化的医疗信息,再将结构化的医疗信息存储在系统中。但是,院前医疗急救与院内医疗最大的区别在于,医护人员在紧急的情况下往往来不及手动输入一段话,而语音输入的话,由于不同人口音差异、现场口述的失误、现场环境的噪声等因素,语音识别出的文字可能会存在较多的错误,将语音识别的文本,转为结构化的医疗信息,会影响结果的准确性。
[0004]所以,如何提高提取出患者结构化的医疗信息的准确性,则是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种急救场景的医疗文本纠错及智能提取的方法及装置,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:本说明书提供了一种急救场景的医疗文本纠错及智能提取的方法,包括:接收信息提取请求,通过所述信息提取请求获取语音识别出的急救医疗文本;根据预设的统计语言模型和/或错字识别模型,确定所述急救医疗文本中存在的错误位置;确定每个错误位置对应的候选代替字,并根据每个错误位置对应的候选代替字,确定将所述急救医疗文本进行纠错后的各候选纠错文本,以从所述各候选纠错文本中选取出目标文本;将预设的医疗信息类型与所述目标文本输入到预先训练的信息提取模型的第一网络层中,以使所述第一网络层输出提示信息向量,将所述提示信息向量和所述目标文本输入到所述信息提取模型的第二网络层,以通过所述信息提取模型从所述目标文本中提取出所述医疗信息类型下的医疗信息。
[0007]可选地,根据预设的统计语言模型,确定所述急救医疗文本中存在的错误位置,具体包括:针对所述急救医疗文本中的每个字,根据所述统计语言模型,确定该字对应的第一条件概率和第二条件概率,所述第一条件概率用于表示该字的左侧上下文与所述急救医
疗文本中一致的条件下该字出现在所述左侧上下文右边的条件概率,所述第二条件概率用于表示该字的右侧上下文与所述急救医疗文本中一致的条件下该字出现在所述右侧上下文左边的条件概率;根据所述第一条件概率和所述第二条件概率,确定通过所述统计语言模型为该字确定出的错误率,作为该字对应的第一错误率;根据各字对应的第一错误率,确定所述急救医疗文本中存在的错误位置。
[0008]可选地,根据预设的错字识别模型,确定所述急救医疗文本中存在的错误位置,具体包括:将所述急救医疗文本输入到预先训练的错字识别模型中,以通过所述错字识别模型输出所述急救医疗文本中各字对应的第二错误率;根据各字对应的第二错误率,确定所述急救医疗文本中存在的错误位置。
[0009]可选地,确定每个错误位置对应的候选代替字,具体包括:将所述每个错误位置所组成的错字序列中每个错字作为独立不组成词语的字,根据拼音相似度,从预设的中文词表中确定每个错误位置上的错字所对应的候选代替字;从所述错字序列中确定出各错词,针对每个错词,根据拼音相似度,从预设的中文词表中确定该错词对应的候选代替词,一个错词中包含所述错字序列中在所述急救医疗文本至少两个相邻的字;根据各错词对应的候选代替词,确定各错字对应的候选代替字。
[0010]可选地,从所述各候选纠错文本中选取出目标文本,具体包括:针对每个候选纠错文本,将该候选纠错文本与所述急救医疗文本进行拼接输入到预先训练的纠错识别模型中,以使所述纠错识别模型输出该候选纠错文本的准确度;将各候选纠错文本中准确度最高的候选纠错文本,作为所述目标文本。
[0011]可选地,将预设的医疗信息类型与所述目标文本输入到信息提取模型的第一网络层中之前,所述方法还包括:通过自然语言训练样本,对所述信息提取模型中的第二网络层进行第一次预训练;通过医学语言训练样本,对所述第二网络层进行第二次预训练,所述预训练为随机将训练样本中的部分文字替换为预设字符,得到替换文本,并将替换文本输入到第二网络层中,以所述第二网络层输出被替换的部分文本为训练目标,对第二网络层进行预训练。
[0012]可选地,将所述提示信息向量和所述目标文本输入到所述信息提取模型的第二网络层,以通过所述信息提取模型从所述目标文本中提取出所述医疗信息类型下的医疗信息,具体包括:将所述目标文本、所述提示信息向量与所述预设字符进行拼接后得到的拼接文本输入到所述信息提取模型的第二网络层,以通过所述信息提取模型从所述目标文本中提取出所述医疗信息类型下的医疗信息。
[0013]可选地,对所述信息提取模型进行训练,具体包括:获取训练样本;将所述训练样本中的医疗信息类型和样本文本输入到信息提取模型的第一网络层中,以使所述第一网络层输出提示信息向量,将提示信息向量和所述样本文本输入到所
述信息提取模型的第二网络层,以使所述第二网络层输出所述样本文本中所述医疗信息类型的预测信息;以最小化所述预测信息与所述训练样本中的标注信息之间的差异为训练目标对所述信息提取模型中的第一网络层和第二网络层进行训练,所述标注信息用于表示所述样本文本中所述医疗信息类型下的实际信息。
[0014]本说明书提供了一种急救场景的医疗文本纠错及智能提取的装置,包括:接收模块,用于接收信息提取请求,通过所述信息提取请求获取语音识别出的急救医疗文本;错误定位模块,用于根据预设的统计语言模型和/或错字识别模型,确定所述急救医疗文本中存在的错误位置;纠错模块,用于确定每个错误位置对应的候选代替字,并根据每个错误位置对应的候选代替字,确定将所述急救医疗文本进行纠错后的各候选纠错文本,以从所述各候选纠错文本中选取出目标文本;提取模块,用于将预设的医疗信息类型与所述目标文本输入到预先训练的信息提取模型的第一网络层中,以使所述第一网络层输出提示信息向量,将所述提示信息向量和所述目标文本输入到所述信息提取模型的第二网络层,以通过所述信息提取模型从所述目标文本中提取出所述医疗信息类型下的医疗信息。
[0015]可选地,所述错误定位模块具体用于,针对所述急救医疗文本中的每个字,根据所述统计语言模型,确定该字对应的第一条件概率和第二条件概率,所述第一条件概率用于表示该字的左侧上下文与所述急救医疗文本中一致的条件下该字出现在所述左侧上下文右边的条件概率,所述第二条件概率用于表示该字的右侧上下文与所述急救医疗文本中一致的条件下该字出现在所述右侧上下文左边的条件概率;根据所述第一条件概率和所述第二条件概率,确定通过所述统计语言模型为该字确定出的错误率,作为该字对应的第一错误率;根据各字对应的第一错误率,确定所述急救医疗文本中存在的错误位置。
[0016]可选地,所述错误定位模块具体用于,将所述急救医疗文本输入到预先训练的错本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种急救场景的医疗文本纠错及智能提取的方法,其特征在于,包括:接收信息提取请求,通过所述信息提取请求获取语音识别出的急救医疗文本;根据预设的统计语言模型和/或错字识别模型,确定所述急救医疗文本中存在的错误位置;确定每个错误位置对应的候选代替字,并根据每个错误位置对应的候选代替字,确定将所述急救医疗文本进行纠错后的各候选纠错文本,以从所述各候选纠错文本中选取出目标文本;将预设的医疗信息类型与所述目标文本输入到预先训练的信息提取模型的第一网络层中,以使所述第一网络层输出提示信息向量,将所述提示信息向量和所述目标文本输入到所述信息提取模型的第二网络层,以通过所述信息提取模型从所述目标文本中提取出所述医疗信息类型下的医疗信息。2.如权利要求1所述的方法,其特征在于,根据预设的统计语言模型,确定所述急救医疗文本中存在的错误位置,具体包括:针对所述急救医疗文本中的每个字,根据所述统计语言模型,确定该字对应的第一条件概率和第二条件概率,所述第一条件概率用于表示该字的左侧上下文与所述急救医疗文本中一致的条件下该字出现在所述左侧上下文右边的条件概率,所述第二条件概率用于表示该字的右侧上下文与所述急救医疗文本中一致的条件下该字出现在所述右侧上下文左边的条件概率;根据所述第一条件概率和所述第二条件概率,确定通过所述统计语言模型为该字确定出的错误率,作为该字对应的第一错误率;根据各字对应的第一错误率,确定所述急救医疗文本中存在的错误位置。3.如权利要求1所述的方法,其特征在于,根据预设的错字识别模型,确定所述急救医疗文本中存在的错误位置,具体包括:将所述急救医疗文本输入到预先训练的错字识别模型中,以通过所述错字识别模型输出所述急救医疗文本中各字对应的第二错误率;根据各字对应的第二错误率,确定所述急救医疗文本中存在的错误位置。4.如权利要求1所述的方法,其特征在于,确定每个错误位置对应的候选代替字,具体包括:将所述每个错误位置所组成的错字序列中每个错字作为独立不组成词语的字,根据拼音相似度,从预设的中文词表中确定每个错误位置上的错字所对应的候选代替字;从所述错字序列中确定出各错词,针对每个错词,根据拼音相似度,从预设的中文词表中确定该错词对应的候选代替词,一个错词中包含所述错字序列中在所述急救医疗文本至少两个相邻的字;根据各错词对应的候选代替词,确定各错字对应的候选代替字。5.如权利要求1所述的方法,其特征在于,从所述各候选纠错文本中选取出目标文本,具体包括:针对每个候选纠错文本,将该候选纠错文本与所述急救医疗文本进行拼接输入到预先训练的纠错识别模型中,以使所述纠错识别模型输出该候选纠错文本的准确度;将各候选纠错文本中准确度最高的候选纠错文本,作为所述目标文本。
6.如权利要求1所述的方法,其特征在于,将预设的医疗信息类型与所述目标文本输入到信息提取模型的第一网络层中之前,所述方法还包括:通过自然语言训练样本,对所述信息提取模型中的第二网络层进行第一次预训练;通过医学语言训练样本,对所述第二网络层进行第二次预训练,所述预训练为随机将训练样本中的部分文字替换为预设字符,得到替换文本,并将替换文本输入到第二网络层中,以所述第二网络层输出被替换的部分文本为训练目标,对第二网络层进行预训练。7.如权利要求6所述的方法,其特征在于,将所述提示信息向量和所述目标文本输入到所述信息提取模型的第二网络层,以通过所述信息提取模型从所述目标文本中提取出所述医疗信息类型下的医疗信息,具体包括:将所述目标文本、所述提示信息向量与所述预设字符进行拼接后得到的拼接文本输入到所述信息提取模型的第二网络层,以通过所述信息提取模型从所述目标文本中提取出所述医疗信...

【专利技术属性】
技术研发人员:李劲松杨宗峰周逸飞田雨周天舒
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1