医疗文本纠错方法、装置、存储介质及电子设备制造方法及图纸

技术编号:34920207 阅读:66 留言:0更新日期:2022-09-15 07:11
本公开涉及自然语言处理领域,具体涉及一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备,该文本纠错方法包括:获取用户输入的待纠错医疗文本;将所述待纠错医疗文本进行短句划分,以得到多个短句;利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理,生成第一纠错文本;利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理,生成第二纠错文本。本公开能够提高医疗文本纠错的准确率。率。率。

【技术实现步骤摘要】
医疗文本纠错方法、装置、存储介质及电子设备


[0001]本公开涉及自然语言处理领域,尤其涉及一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备。

技术介绍

[0002]在实际的医疗诊断过程中,医生在写病历的时候很有可能写入一些错别字、词。但医学是很严谨的,病例中的错误字、词可能会对患者造成误诊,进而对患者造成伤害。并且在医疗数据生产的过程中,存在错误字、词的医疗文本也可能对之后的医学研究造成一定的干扰。因此,需要对医疗文本进行纠错。
[0003]文本纠错,是自然语言处理领域检测一段文字是否存在错别字、以及将错别字进行纠正的技术。现有的医疗文本纠错方案,解决方法主要包括两种:第一种是N元语法n

gram、kenlm等概率计算模型进行纠错。采用此类模型进行文本纠错,对于存在上下文依赖的语义错误处理不够准确,导致文本纠错的准确率不高。
[0004]第二种是基于深度学习的神经网络模型构建的自然语言处理(NatureLanguage Process,NLP)模型。此类模型通常使用海量中文语料库作为训练集训练构建本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种医疗文本纠错方法,其特征在于,包括:获取用户输入的待纠错医疗文本;将所述待纠错医疗文本进行短句划分,以得到多个短句;利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理,生成第一纠错文本;利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理,生成第二纠错文本。2.根据权利要求1所述的方法,其特征在于,所述利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理,生成第一纠错文本,包括:获取所述待纠错医疗文本各短句中每个字的N元语法概率得分;根据所述每个字的N元语法概率得分,识别所述待纠错医疗文本是否存在错别字;在所述待纠错医疗文本存在错别字时,纠正所述错别字,生成第一纠错文本。3.根据权利要求2所述的方法,其特征在于,根据所述每个字的N元语法概率得分,识别所述待纠错医疗文本是否存在错别字,包括:根据各所述短句中每个字的N元语法概率得分,确定各所述短句的中位值及各所述短句的平均绝对离差;针对各所述短句中每个字,计算所述字的N元语法概率得分与所述平均绝对离差的差值;计算所述差值与正态分布参数的乘积,并确定所述乘积与所述平均绝对离差的比值;若所述比值大于预设阈值,且所述字的N元语法概率得分小于所述中位值,则确定所述字为错别字。4.根据权利要求2所述的方法,其特征在于,所述纠正所述错别字包括:获取所述错别字的拼音,并根据所述拼音获取所述错别字对应的纠错候选集,所述纠错候选集中包括至少一个纠错候选字;使用目标字对所述错别字进行纠错,所述目标字为所述至少一个纠错候选字中使用频率最高的字。5.根据权利要求4所述的方法,其特征在于,所述使用目标字对所述错别字进行纠错后,所述方法还包括:获取所述目标字对应的第一困惑度,所述第一困惑度为使用所述目标字对所述错别字进行纠错后所述第一纠错文本的困惑度;分别使用所述至少一个纠错候选字中除所述目标字外的其他字中的每个字对所述错别字进行纠正,并分别获取所述其他字中每个字对应的第二困惑度;从所述第一困惑度和所述第二困惑度中确定最小困惑度;使用所述最小困惑度对应的字对所述错别字进行纠正。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:对各所述短句分别进行切词,以用于将各所述短句中的词与预设混淆列表作比对,所述预设混淆列表包括至少一个错误词;若所述词存在于所述预...

【专利技术属性】
技术研发人员:马鑫畅绍政
申请(专利权)人:医渡云北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1