基于图神经网络的文本纠错方法、装置、设备及存储介质制造方法及图纸

技术编号:26531460 阅读:24 留言:0更新日期:2020-12-01 14:12
本发明专利技术涉及人工智能领域,应用于智慧医疗领域,公开了基于图神经网络的文本纠错方法、装置、设备及存储介质,用于避免在医疗业务系统进行待测文本语料的文本纠错时进行大量的数据计算,提高了文本纠错效率。基于图神经网络的文本纠错方法包括:根据医疗业务预料建立形近混淆语料集合与近音混淆语料集合;基于预置的图神经网络建立形近混淆结构图谱以及近音混淆结构图谱;对形近混淆结构图谱以及近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;利用预置的向量提取器提取待测文本语料的字符向量,根据字符向量与混淆语料结构图谱之间的基础相似概率对待测文本语料进行更改处理,得到目标文本语料。

【技术实现步骤摘要】
基于图神经网络的文本纠错方法、装置、设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种基于图神经网络的文本纠错方法、装置、设备及存储介质。
技术介绍
在人工智能领域中,中文纠错是自然语言处理中的一个纠察优化步骤,中文纠错的能力越高说明自然语言处理系统的处理准确性越高。中文纠错具体为从包含各种错误的文本中进行错误纠正,还原出正确的标准文本。随着科学技术的发展,中文纠错广泛应用于语音识别和社交网络等场景。在医疗场景下,医生在使用计算机外接键盘或外接语音接收器录入患者信息时,通过外接键盘打字录入文字时会出现拼音错误或相邻键盘按键敲击错误的情况,通过外接语音接收器进行语音转化文本的过程中会出现形近字或近音字转化错误的情况,这些错误在医疗场景下存在一定风险,特别是医生在记录关于患者病情或者治疗方案时产生的错误,不仅不利于患者的治疗和病情追踪,也容易加剧医患关系的紧张,阻碍着医疗系统的完善和医疗技术的进步。在现有的技术中,通过计算机大量的计算与排查,对文本文字进行纠错。但利用现有的技术进行待测文本语料的文本纠错时,计算机需要进行大量的数据计算,耗费大量的时间,进而导致待测文本语料的文本纠错效率低下。
技术实现思路
本专利技术提供一种基于图神经网络的文本纠错方法、装置、设备及存储介质,用于避免在医疗业务系统进行待测文本语料的文本纠错时,进行大量的数据计算,提高了待测文本语料的文本纠错效率。本专利技术第一方面提供了一种基于图神经网络的文本纠错方法,包括:获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱;对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料。可选的,在本专利技术第一方面的第一种实现方式中,所述获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合包括:获取医疗业务语料,利用预置的相似度函数计算所述医疗业务语料与预置的字典中的标准语料之间的基础字形相似度;筛选出所述基础字形相似度大于相似阈值的目标字形相似度,将所述目标字形相似度对应的标准语料作为所述医疗业务语料的形近混淆语料,将所述医疗业务语料与所述形近混淆语料组合为形近混淆组合,通过所述形近混淆组合生成形近混淆语料集合;利用预置的模糊匹配算法将所述医疗业务语料转化为语料音标,筛选出所述语料音标中的目标音标,所述目标音标包括具有易混淆的韵母和/或声母;将目标音标转化为近音音标,并在所述预置的字典中查询标准音标与所述近音音标相同的标准语料,将所述标准音标与所述近音音标相同的标准语料作为所述医疗业务语料的近音混淆语料,将所述医疗业务语料与所述近音混淆语料组合为近音混淆组合,通过所述近音混淆组合生成近音混淆语料集合。可选的,在本专利技术第一方面的第二种实现方式中,所述基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱包括:在医疗业务语料中提取第一业务语料与第二业务语料,将所述第一业务语料与所述第二业务语料进行组合,得到待检测组合;根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵;根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵;利用预置的图神经网络生成所述基础形近混淆矩阵的形近混淆结构图谱以及所述基础近音混淆矩阵的近音混淆结构图谱。可选的,在本专利技术第一方面的第三种实现方式中,所述根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵包括:判断所述待检测组合是否为所述形近混淆组合;若所述待检测组合为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第一阈值;若所述待检测组合不为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第二阈值;通过所述待检测组合的位置坐标建立初始形近混淆矩阵,将所述第一位置元素录入所述初始形近混淆矩阵中,得到基础形近混淆矩阵。可选的,在本专利技术第一方面的第四种实现方式中,所述根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵包括:判断所述待检测组合是否为所述近音混淆组合;若所述待检测组合为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第三阈值;若所述待检测组合不为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第四阈值;通过所述待检测组合的位置坐标建立初始近音混淆矩阵,将所述第二位置元素录入所述初始近音混淆矩阵中,得到基础近音混淆矩阵。可选的,在本专利技术第一方面的第五种实现方式中,对所述形近混淆结构图谱进行图卷积计算,并利用第一计算公式计算相邻形近语料信息,所述第一计算公式为:f(Ap,Hpl)=Ap'HplWpl,其中,f(Ap,Hpl)表示相邻形近语料信息,Ap表示形近混淆结构图谱中的基础形近混淆矩阵,Hpl表示第l卷积层的第一超参数,Ap'表示基础形近混淆矩阵的正则化矩阵,Wpl表示第l卷积层的第二超参数;对所述近音混淆结构图谱进行图卷积计算,并利用第二计算公式计算相邻近音语料信息,所述第二计算公式为:f(As,Hsl)=As'HslWsl,其中,f(As,Hsl)表示相邻近音语料信息,As表示近音混淆结构图谱中的基础近音混淆矩阵,Hsl表示第l卷积层的第三超参数,As'表示基础近音混淆矩阵的正则化矩阵,Wsl表示第l卷积层的第四超参数;利用第三计算公式对所述相邻形近语料信息与所述相邻近音语料信息进行图注意力计算,得到语料混淆结构矩阵,所述第三计算公式为:其中,表示语料混淆结构矩阵,表示相邻形近语料信息或邻近音语料信息的第l卷积层第i行的语料信息,且i为正整数,k表示信息标记符,且k∈(s,p),表示相邻形近语料信息或邻近音语料信息的第l卷积层第i个的语料信息的权重,wa表示表示,β表示控制图注意力权重的超参数;采用所述预置的图神经网络生成所述语料混淆结构矩阵的混淆语料结构图谱。可选的,在本专利技术第一方面的第六种实现方式中,所述获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料包括:获取待测文本语料,利用预置的向量提取器提取所述待测文本语料中的字符向量本文档来自技高网...

【技术保护点】
1.一种基于图神经网络的文本纠错方法,其特征在于,所述基于图神经网络的文本纠错方法包括:/n获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;/n基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱;/n对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;/n获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料。/n

【技术特征摘要】
1.一种基于图神经网络的文本纠错方法,其特征在于,所述基于图神经网络的文本纠错方法包括:
获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;
基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱;
对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;
获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料。


2.根据权利要求1所述的基于图神经网络的文本纠错方法,其特征在于,所述获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合包括:
获取医疗业务语料,利用预置的相似度函数计算所述医疗业务语料与预置的字典中的标准语料之间的基础字形相似度;
筛选出所述基础字形相似度大于相似阈值的目标字形相似度,将所述目标字形相似度对应的标准语料作为所述医疗业务语料的形近混淆语料,将所述医疗业务语料与所述形近混淆语料组合为形近混淆组合,通过所述形近混淆组合生成形近混淆语料集合;
利用预置的模糊匹配算法将所述医疗业务语料转化为语料音标,筛选出所述语料音标中的目标音标,所述目标音标包括具有易混淆的韵母和/或声母;
将目标音标转化为近音音标,并在所述预置的字典中查询标准音标与所述近音音标相同的标准语料,将所述标准音标与所述近音音标相同的标准语料作为所述医疗业务语料的近音混淆语料,将所述医疗业务语料与所述近音混淆语料组合为近音混淆组合,通过所述近音混淆组合生成近音混淆语料集合。


3.根据权利要求2所述的基于图神经网络的文本纠错方法,其特征在于,所述基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱包括:
在医疗业务语料中提取第一业务语料与第二业务语料,将所述第一业务语料与所述第二业务语料进行组合,得到待检测组合;
根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵;
根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵;
利用预置的图神经网络生成所述基础形近混淆矩阵的形近混淆结构图谱以及所述基础近音混淆矩阵的近音混淆结构图谱。


4.根据权利要求3所述的基于图神经网络的文本纠错方法,其特征在于,所述根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵包括:
判断所述待检测组合是否为所述形近混淆组合;
若所述待检测组合为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第一阈值;
若所述待检测组合不为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第二阈值;
通过所述待检测组合的位置坐标建立初始形近混淆矩阵,将所述第一位置元素录入所述初始形近混淆矩阵中,得到基础形近混淆矩阵。


5.根据权利要求3所述的基于图神经网络的文本纠错方法,其特征在于,所述根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵包括:
判断所述待检测组合是否为所述近音混淆组合;
若所述待检测组合为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第三阈值;
若所述待检测组合不为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为...

【专利技术属性】
技术研发人员:颜泽龙王健宗吴天博程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1