文本纠错方法、装置、设备及存储介质制造方法及图纸

技术编号:26531462 阅读:17 留言:0更新日期:2020-12-01 14:12
本申请实施例公开了一种文本纠错方法、装置、设备及存储介质,应用于数字医疗领域,包括:获取初始文本信息的文本特征,并根据上述文本特征确定待检索文本;基于上述待检索文本从领域智库中确定出目标领域知识;根据上述待检索文本以及上述目标领域知识生成待纠错文本序列,并基于上述待纠错文本序列对上述待检索文本进行纠错以实现对上述初始文本信息的纠错。采用本申请实施例,可关联领域知识对文本进行纠错,提升文本纠错正确率。

【技术实现步骤摘要】
文本纠错方法、装置、设备及存储介质
本申请涉及自然语言处理领域,尤其涉及一种文本纠错方法、装置、设备及存储介质。
技术介绍
文本纠错是检索系统对用户输入的待检索文本中的错误进行感知,并根据用户的搜索意图将其修正为正确的待检索文本的过程。文本纠错作为检索系统中必不可少的一部分,在语言处理领域中的文本纠错主要由文本检错和错误纠正两部分组成,现有技术主要利用基于规则的算法进行纠错或者利用深度学习模型进行纠错。然而,基于规则的算法进行纠错仅依据待检索文本的字面特征,并没有考虑到待检索文本的所属领域,容易造成进行文本纠错后的待检索文本语义发生改变的问题,适用性差。基于深度学习模型的纠错算法需要进行大量的训练,但在待检索文本过短或者训练语料不足的情况下,难以进行有效的文本纠错。
技术实现思路
本申请实施例提供一种文本纠错方法、装置、设备及存储介质,可关联领域知识对文本进行纠错,提升文本纠错正确率。第一方面,本申请实施例供了一种文本纠错方法,该方法包括:获取初始文本信息的文本特征,并根据上述文本特征确定待检索文本;基于上述待检索文本从领域智库中确定出目标领域知识;根据上述待检索文本以及上述目标领域知识生成待纠错文本序列,并基于上述待纠错文本序列对上述待检索文本进行纠错以实现对上述初始文本信息的纠错。在本申请实施例中,根据初始文本信息的文本特征确定待检索文本,进而从领域智库中确定出待检索文本的目标领域知识。根据带检索文本和目标领域知识生产待纠错文本序列,并给予待纠错文本序列对待检索文本进行纠错从而对初始文本信息进行纠错。基于上述待检索文本从领域智库中确定出目标领域知识,可以在待检索文本过短的时候确定出待检索文本所处的目标领域,并在语义方面对待检索文本进行关联,得到与待检索文本有关的目标领域知识,极大地补充了待检索文本的语义特征。根据待检索文本以及目标领域知识生成待纠错文本序列,并基于待纠错文本序列对待检索文本进行纠错,使得纠错过程与语义关联程度更大,更贴近初始文本信息的语义,提高了文本纠错正确率。结合第一方面,在一种可能的实施方式中,上述基于上述待检索文本从领域智库中确定出目标领域知识包括:基于上述待检索文本从领域智库中确定出上述待检索文本所属的目标领域,从上述目标领域中确定出与上述待检索文本相关的领域文本信息并确定各领域文本信息与上述待检索文本的相关度;将上述各领域文本信息中与上述待检索文本的相关度大于或等于预设相关度阈值的领域文本信息确定为上述待检索文本的目标领域知识。结合第一方面,在一种可能的实施方式中,上述根据上述待检索文本以及上述目标领域知识生成待纠错文本序列,并基于上述待纠错文本序列对上述待检索文本进行纠错,包括:将上述待检索文本与上述目标领域知识分割为多个短序列文本,在各个短序列文本之间添加分割符并生成待纠错文本序列;对上述待纠错文本序列中的各短序列文本进行语义标注,得到上述待纠错文本序列的语义标注;基于上述待检索文本以及上述待纠错文本序列的语义标注,对上述待检索文本进行纠错。在本申请实施例中,将与待检索文本的相关度大于或等于预设相关度阈值的领域文本信息确定为待检索文本的目标领域知识。可以按照相关度提炼出与待检索文本密切相关的目标领域知识,从而在领域智库中合理匹配待检索文本的目标领域知识,使待检索文本的语义特征更明确。对待纠错文本序列中的各短序列文本进行语义标注,得到待纠错文本序列的语义标注;并基于待检索文本以及待纠错文本序列的语义标注,对待检索文本进行纠错。使得纠错过程与语义关联程度更大,使得纠错结果更贴近初始文本信息的语义,提高了文本纠错正确率。同时因为对目标领域知识按照相关度进行了筛选,缩短了纠错时间,提升了纠错效率。结合第一方面,在一种可能的实施方式中,上述基于上述待检索文本以及上述待纠错文本序列的语义标注,对上述待检索文本进行纠错,包括:基于上述待检索文本以及上述待纠错文本序列的语义标注,利用预设纠错算法确定上述待检索文本中各字符对应位置的备选字符;根据上述待检索文本中各字符以及各字符对应位置的备选字符,确定上述待检索文本中的各字符的置信概率;将置信概率小于预设概率阈值的字符确定为错别字符,并对上述错别字符进行纠正。在本申请实施例中,根据上述待检索文本中各字符以及各字符对应位置的备选字符,将置信概率小于预测概率比阈值的字符确定为错别字符。减少了将原本正确的字符错误地确定为错别字符的可能,减少了误检率,提升了纠错正确率。结合第一方面,在一种可能的实施方式中,上述基于上述待检索文本以及上述待纠错文本序列的语义标注,对上述待检索文本序列进行纠错,包括:基于上述待检索文本以及上述待纠错文本序列的语义标注,利用预设纠错算法确定上述待检索文本中各字符对应位置的备选字符以及备选字符的相关概率;根据上述待检索文本中各字符以及各字符对应位置的备选字符进行字符编码,确定上述待检索文本中的各字符的置信概率;根据上述待检索文本中的各字符的置信概率以及上述各字符对应的备选字符的相关概率,确定上述待检索文本中各字符的置信概率比;将置信概率比小于预测概率比阈值的字符确定为错别字符,并对上述错别字符进行纠正。结合第一方面,在一种可能的实施方式中,上述对上述错别字符进行纠正包括:若上述错别字符的对应位置只有一个备选字符,则将上述备选字符作为上述错别字符对应的备选纠正字符;若上述错别字符在对应位置有多个备选字符,则获取上述多个备选字符中各备选字符的相关概率,将相关概率大于或等于阈值的备选字符确定为上述错别字符对应的备选纠正字符。在本申请实施例中,根据上述待检索文本中各字符以及各字符对应位置的备选字符,将置信概率比小于预测概率比阈值的字符确定为错别字符。进一步减少了将原本正确的字符错误地确定为错别字符的可能,进一步减少了误检率。同时因为对备选字符按照相关概率进行了筛选,缩短了对错别字符进行纠正的时间,提升了纠错效率。结合第一方面,在一种可能的实施方式中,上述领域智库包括医疗器械领域、病理研究领域、疾病检测领域以及疾病治疗领域中的至少一种。第二方面,本申请实施例提供了一种文本纠错装置,该装置包括:文本确定模块,用于获取初始文本信息的文本特征,并根据上述文本特征确定待检索文本;领域检索模块,用于基于上述文本确定模块确定的上述待检索文本从领域智库中确定出目标领域知识;字符纠错模块,用于根据上述文本确定模块确定的上述待检索文本以及上述文本检索模块确定的上述目标领域知识生成待纠错文本序列,并基于上述待纠错文本序列对上述待检索文本进行纠错以实现对上述初始文本信息的纠错。第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器和存储器,该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,所述方法包括:/n获取初始文本信息的文本特征,并根据所述文本特征确定待检索文本;/n基于所述待检索文本从领域智库中确定出目标领域知识;/n根据所述待检索文本以及所述目标领域知识生成待纠错文本序列,并基于所述待纠错文本序列对所述待检索文本进行纠错以实现对所述初始文本信息的纠错。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,所述方法包括:
获取初始文本信息的文本特征,并根据所述文本特征确定待检索文本;
基于所述待检索文本从领域智库中确定出目标领域知识;
根据所述待检索文本以及所述目标领域知识生成待纠错文本序列,并基于所述待纠错文本序列对所述待检索文本进行纠错以实现对所述初始文本信息的纠错。


2.根据权利要求1所述的方法,其特征在于,所述基于所述待检索文本从领域智库中确定出目标领域知识,包括:
基于所述待检索文本从领域智库中确定出所述待检索文本所属的目标领域,从所述目标领域中确定出与所述待检索文本相关的领域文本信息并确定各领域文本信息与所述待检索文本的相关度;
将所述各领域文本信息中与所述待检索文本的相关度大于或等于预设相关度阈值的领域文本信息确定为所述待检索文本的目标领域知识。


3.根据权利要求2所述的方法,其特征在于,所述根据所述待检索文本以及所述目标领域知识生成待纠错文本序列,并基于所述待纠错文本序列对所述待检索文本进行纠错,包括:
将所述待检索文本与所述目标领域知识分割为多个短序列文本,在各个短序列文本之间添加分割符并生成待纠错文本序列;
对所述待纠错文本序列中的各短序列文本进行语义标注,得到所述待纠错文本序列的语义标注;
基于所述待检索文本以及所述待纠错文本序列的语义标注,对所述待检索文本进行纠错。


4.根据权利要求3所述的方法,其特征在于,所述基于所述待检索文本以及所述待纠错文本序列的语义标注,对所述待检索文本进行纠错,包括:
基于所述待检索文本以及所述待纠错文本序列的语义标注,利用预设纠错算法确定所述待检索文本中各字符对应位置的备选字符;
根据所述待检索文本中各字符以及各字符对应位置的备选字符,确定所述待检索文本中的各字符的置信概率;
将置信概率小于预设概率阈值的字符确定为错别字符,并对所述错别字符进行纠正。


5.根据权利要求3所述的方法,其特征在于,所述基于所述待检索文本以及所述待纠错文本序列的语义标注,对所述待检索文本序列进行纠错,包括:
基于所述待检索文本以及所述待纠...

【专利技术属性】
技术研发人员:付桂振
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1