医疗文本纠错方法及装置、存储介质、电子设备制造方法及图纸

技术编号:34467609 阅读:14 留言:0更新日期:2022-08-10 08:40
本公开属于自然语言处理技术领域,涉及一种医疗文本纠错方法及装置、存储介质、电子设备。该方法包括:获取目标医疗文本和医学命名实体,并对目标医疗文本进行语境置信度计算得到候选字和候选字的语境置信度;对目标医疗文本和候选字进行字符相似度计算得到字符相似度,并对候选字和医学命名实体进行实体相似度计算得到实体相似度;基于语境置信度、字符相似度和实体相似度,利用候选字对目标医疗文本进行文本纠错。本公开为目标医疗文本的文本纠错提供了数据基础和理论支持,丰富了文本纠错可依据的数据维度,从数据全面性方面保证了错字检错和纠正的准确性,提升了医疗文本的纠错效果,通过系统性的文本纠错方法提升了医疗文本纠错的扩展性。本纠错的扩展性。本纠错的扩展性。

【技术实现步骤摘要】
医疗文本纠错方法及装置、存储介质、电子设备


[0001]本公开涉及自然语言处理
,尤其涉及一种医疗文本纠错方法与医疗文本纠错装置、计算机可读存储介质及电子设备。

技术介绍

[0002]错字检查是NLP(Natural Language Processing,自然语言处理)领域最重要的问题之一。虽然有多种经典方法能够实现错字检查,但是由于经典方法无法准确把握句子的真实语义,导致错字检查成本高,且扩展性差。因此,深度学习成功应用于自然语言处理中,并在多数任务中都超越了经典方法。
[0003]然而,在医学领域的文本中,由于术语的复杂性和语言的特殊性,常用的深度学习模型常常无功而返。不同语言的纠错方式也不同,国外的各种语言病历文本纠错中,大多应用了制定医学领域的相关规则的方式。而中文病历等医疗文本的纠正大多基于字典和规则,存在准确性差、维护难和扩展性弱等问题。
[0004]鉴于此,本领域亟需开发一种新的医疗文本纠错方法及装置。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的目的在于提供一种医疗文本纠错方法、医疗文本纠错装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的准确性差、维护难和扩展性弱的技术问题。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。<br/>[0008]根据本公开的一个方面,提供一种医疗文本纠错方法,所述方法包括:获取目标医疗文本和医学命名实体,并对所述目标医疗文本进行语境置信度计算得到候选字和所述候选字的语境置信度;
[0009]对所述目标医疗文本和所述候选字进行字符相似度计算得到字符相似度,并对所述候选字和所述医学命名实体进行实体相似度计算得到实体相似度;
[0010]基于所述语境置信度、所述字符相似度和所述实体相似度,利用所述候选字对所述目标医疗文本进行文本纠错。
[0011]在本公开的一种示例性实施例中,所述对所述目标医疗文本进行语境置信度计算得到候选字和所述候选字的语境置信度,包括:
[0012]将所述目标医疗文本输入至预先训练好的医学语言表征模型中,以使所述预先训练好的医学语言表征模型对所述目标医疗文本进行语境置信度计算得到候选字和所述候选字的语境置信度。
[0013]在本公开的一种示例性实施例中,在所述将所述目标医疗文本输入至预先训练好
的医学语言表征模型中之前,所述方法还包括:
[0014]获取训练待训练的医学语言表征模型的医疗文本正样本;
[0015]将所述医疗文本正样本输入至所述待训练的医学语言表征模型中,以对所述待训练的医学语言表征模型进行训练,直至完成训练得到预先训练好的医学语言表征模型。
[0016]在本公开的一种示例性实施例中,所述对所述目标医疗文本和所述候选字进行字符相似度计算得到字符相似度,包括:
[0017]对所述目标医疗文本和所述候选字的字形进行字形相似度计算得到所述字形相似度;
[0018]对所述目标医疗文本和所述候选字的字音进行字音相似度计算得到所述字音相似度;
[0019]根据所述字形相似度和所述字音相似度确定所述目标医疗文本和所述候选字的字符相似度。
[0020]在本公开的一种示例性实施例中,所述对所述目标医疗文本和所述候选字的字形进行字形相似度计算得到所述字形相似度,包括:
[0021]对所述目标医疗文本进行表意文字描述得到目标文字描述符,并对所述候选字进行表意文字描述得到候选文字描述符;
[0022]对所述目标文字描述符和所述候选文字描述符进行编辑距离计算得到所述目标医疗文本和所述候选字的字形编辑距离;
[0023]对所述字形编辑距离进行字形相似度计算得到所述目标医疗文本和所述候选字的字形相似度。
[0024]在本公开的一种示例性实施例中,所述对所述目标医疗文本和所述候选字的字音进行字音相似度计算得到所述字音相似度,包括:
[0025]获取所述目标医疗文本的目标读音表征,并获取所述候选字的候选读音表征;
[0026]对所述目标读音表征和所述候选读音表征进行编辑距离计算得到所述目标医疗文本和所述候选字的字音编辑距离;
[0027]对所述字音编辑距离进行字音相似度计算得到所述目标医疗文本和所述候选字的字音相似度。
[0028]在本公开的一种示例性实施例中,所述根据所述字形相似度和所述字音相似度确定所述目标医疗文本和所述候选字的字符相似度,包括:
[0029]将所述字形相似度确定为所述目标医疗文本和所述候选字的字符相似度;或
[0030]将所述字音相似度确定为所述目标医疗文本和所述候选字的字符相似度;或
[0031]对所述字形相似度和所述字音相似度进行加权计算得到所述目标医疗文本和所述候选字的字符相似度。
[0032]在本公开的一种示例性实施例中,所述基于所述语境置信度、所述字符相似度和所述实体相似度,利用所述候选字对所述目标医疗文本进行文本纠错,包括:
[0033]获取与所述医疗文本正样本对应的医疗文本负样本,并对所述医疗文本正样本和所述医疗文本负样本进行消融试验得到消融平面;
[0034]根据所述语境置信度、所述字符相似度和所述实体相似度确定所述候选字相对于所述消融平面的位置坐标;
[0035]基于所述位置坐标,利用所述候选字对所述目标医疗文本进行文本纠错。
[0036]在本公开的一种示例性实施例中,所述基于所述位置坐标,利用所述候选字对所述目标医疗文本进行文本纠错,包括:
[0037]若所述位置坐标处于所述消融平面的上方,利用所述候选字对所述目标医疗文本进行文本纠错。
[0038]在本公开的一种示例性实施例中,所述利用所述候选字对所述目标医疗文本进行文本纠错,包括:
[0039]若多个所述候选字对应的位置坐标处于所述消融平面的上方,根据所述字符相似度确定多个所述候选字中的一个为目标候选字;
[0040]利用所述目标候选字对所述目标医疗文本进行文本纠错。
[0041]在本公开的一种示例性实施例中,所述方法还包括:
[0042]若所述位置坐标处于所述消融平面的下方,保留所述目标医疗文本。
[0043]在本公开的一种示例性实施例中,所述对所述候选字和所述医学命名实体进行实体相似度计算得到实体相似度,包括:
[0044]对所述候选字和所述医学命名实体进行编辑距离计算得到实体编辑距离;
[0045]对所述实体编辑距离进行归一化处理得到所述候选字和所述医学命名实体的实体相似度。
[0046]根据本公开的一个方面,提供一种医疗文本纠错装置,所述装置包括:第一计算模块,被配置为获取目标医疗文本和医学命名实体,并对所述目标医疗文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗文本纠错方法,其特征在于,所述方法包括:获取目标医疗文本和医学命名实体,并对所述目标医疗文本进行语境置信度计算得到候选字和所述候选字的语境置信度;对所述目标医疗文本和所述候选字进行字符相似度计算得到字符相似度,并对所述候选字和所述医学命名实体进行实体相似度计算得到实体相似度;基于所述语境置信度、所述字符相似度和所述实体相似度,利用所述候选字对所述目标医疗文本进行文本纠错。2.根据权利要求1所述的医疗文本纠错方法,其特征在于,所述对所述目标医疗文本进行语境置信度计算得到候选字和所述候选字的语境置信度,包括:将所述目标医疗文本输入至预先训练好的医学语言表征模型中,以使所述预先训练好的医学语言表征模型对所述目标医疗文本进行语境置信度计算得到候选字和所述候选字的语境置信度。3.根据权利要求2所述的医疗文本纠错方法,其特征在于,在所述将所述目标医疗文本输入至预先训练好的医学语言表征模型中之前,所述方法还包括:获取训练待训练的医学语言表征模型的医疗文本正样本;将所述医疗文本正样本输入至所述待训练的医学语言表征模型中,以对所述待训练的医学语言表征模型进行训练,直至完成训练得到预先训练好的医学语言表征模型。4.根据权利要求3所述的医疗文本纠错方法,其特征在于,所述对所述目标医疗文本和所述候选字进行字符相似度计算得到字符相似度,包括:对所述目标医疗文本和所述候选字的字形进行字形相似度计算得到所述字形相似度;对所述目标医疗文本和所述候选字的字音进行字音相似度计算得到所述字音相似度;根据所述字形相似度和所述字音相似度确定所述目标医疗文本和所述候选字的字符相似度。5.根据权利要求4所述的医疗文本纠错方法,其特征在于,所述对所述目标医疗文本和所述候选字的字形进行字形相似度计算得到所述字形相似度,包括:对所述目标医疗文本进行表意文字描述得到目标文字描述符,并对所述候选字进行表意文字描述得到候选文字描述符;对所述目标文字描述符和所述候选文字描述符进行编辑距离计算得到所述目标医疗文本和所述候选字的字形编辑距离;对所述字形编辑距离进行字形相似度计算得到所述目标医疗文本和所述候选字的字形相似度。6.根据权利要求4所述的医疗文本纠错方法,其特征在于,所述对所述目标医疗文本和所述候选字的字音进行字音相似度计算得到所述字音相似度,包括:获取所述目标医疗文本的目标读音表征,并获取所述候选字的候选读音表征;对所述目标读音表征和所述候选读音表征进行编辑距离计算得到所述目标医疗文本和所述候选字的字音编辑距离;对所述字音编辑距离进行字音相似度计算得到所述目标医疗文本和所述候选字的字音相似度。7.根据权利要求4所述的医疗文本纠错方法,其特征在于,所述根据所述字形相似度和
所述字音相似度确定所述目标医疗文本和所述候选字的字符相似度,包括:将所述字形相似度确定为所述目标...

【专利技术属性】
技术研发人员:陈文昌李思敏杨亮任保森李林峰
申请(专利权)人:医渡云北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1