【技术实现步骤摘要】
文本纠错方法、装置及存储介质
本申请涉及文本识别
,具体涉及一种文本纠错方法、装置及存储介质。
技术介绍
文本纠错是自然语言处理(NaturalLanguageProcessing,NLP)的一个基础任务,是搜索引擎,语音识别,内容审查等功能更好运行的基础模块之一。比如,在医疗领域来说,进行文本纠错可以快速检索出医生所需的历史病例,从而提高医生的诊断效率。目前文本纠错方法流程一般是从检错到纠错。其中,对文本检错需要通过一个模型实现,纠错需要通过另外一个模型实现。由于两个模型单独训练,导致在进行纠错的过程中需要协调工作,然而,由于两个模型之间的训练场景或者训练目的不同,导致两个模型之间难以输出最优解,导致对文本纠错精度低。
技术实现思路
本申请实施例提供了一种文本纠错方法、装置及存储介质。通过一个微调后的网络模型对待纠错文本进行检错和纠错,无需模型之间的协调,提高文本纠错精度。第一方面,本申请实施例提供一种文本纠错方法,包括:获取医疗领域的待纠错文本;将所述医疗领域的待 ...
【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n获取医疗领域的待纠错文本;/n将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词;/n通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本。/n
【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
获取医疗领域的待纠错文本;
将所述医疗领域的待纠错文本输入到微调后与所述医疗领域对应的网络模型,确定所述待纠错文本中的待纠错单词;
通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本。
2.根据权利要求1所述的方法,其特征在于,所述通过所述网络模型对所述待纠错单词进行纠错,得到纠错后的文本,包括:
获取所述待纠错单词对应的至少一个候选待纠错单词;
获取所述至少一个候选待纠错单词中每个候选待纠错单词对应的实体类型,通过所述网络模型对所述每个候选待纠错单词以及所述每个候选待纠错单词对应的实体类型进行编码,得到所述每个候选待纠错单词对应的编码向量;
通过所述网络模型对所述待纠错文本中的每个单词对应的词向量以及所述每个候选待纠错单词对应的编码向量进行融合处理,得到所述每个候选待纠错单词的目标特征向量;
根据所述每个候选待纠错单词的目标特征向量,得到所述每个候选待纠错单词对应的评分,所述评分用于表示使用所述每个候选待纠错单词对所述待纠错文本中的待纠错单词进行替换后的文本的合理度;
使用评分最大的候选待纠错单词对所述待纠错文本中的所述待纠错单词进行替换,得到纠错后的文本。
3.根据权利要求1或2所述的方法,其特征在于,在获取待纠错文本之前,所述方法还包括:
获取第一文本序列;
确定所述第一文本序列中的待替换单词,所述待替换单词为所述第一文本序列中的部分单词;
对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列;
将所述至少一个第二文本序列中的每个第二文本序列作为一个训练样本,对所述网络模型进行训练,得到预训练模型;
对所述预训练模型进行微调,得到微调后与所述医疗领域对应的网络模型。
4.根据权利要求3所述的方法,其特征在于,所述确定所述第一文本序列中的待替换单词,包括:
通过随机函数生成一个随机采样率;
根据所述随机采样率对所述第一文本序列进行采样,得到所述第一文本序列中的待替换单词。
5.根据权利要求3所述的方法,其特征在于,所述待替换单词包括第一待替换单词和第二待替换单词,所述对所述待替换单词进行替换,得到与所述第一文本序列对应的至少一个第二文本序列,包括:
从字典库中随机获取至少一个第一候选单词;
从所述字典库中获取与所述第二待替换单词对应的至少一个第二候选单词,所述至少一个第二候选单词中的每个第二候选单词为以下一种:与所述第二待替换单词对应的谐音单...
【专利技术属性】
技术研发人员:郭招,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。