【技术实现步骤摘要】
词语搭配不当识别方法、装置、电子设备和存储介质
本专利技术涉及文本校对
,尤其涉及一种词语搭配不当识别方法、装置、电子设备和存储介质。
技术介绍
随着信息处理技术和互联网的不断发展,电子书、电子报纸、电子邮件、电子办公文件等电子出版物,以及新的输入技术(如OCR识别、语音识别等)产生的电子文本不断涌现,使得文本自动校对的研究越来越受到重视。现有技术中的文本校对方法通常基于字词级别和语法级别,主要集中在别字、别词以及常见语法错误的校对上。然而,对于语义层面的词语搭配不当问题,现有的文本校对方法无法准确识别。
技术实现思路
本专利技术实施例提供一种,用以解决现有技术无法根据当前语境识别搭配不当的词语的问题。第一方面,本专利技术实施例提供一种词语搭配不当识别方法,包括:确定待识别文本中的存在搭配关系的两个待识别词;将所述待识别文本中的任一待识别词替换为遮盖标记,得到所述任一待识别词对应的输入文本;将所述任一待识别词对应的输入文本输入至词语预测模型,得到所述词 ...
【技术保护点】
1.一种词语搭配不当识别方法,其特征在于,包括:/n确定待识别文本中的存在搭配关系的两个待识别词;/n将所述待识别文本中的任一待识别词替换为遮盖标记,得到所述任一待识别词对应的输入文本;/n将所述任一待识别词对应的输入文本输入至词语预测模型,得到所述词语预测模型输出的所述任一待识别词的预测结果;其中,所述词语预测模型是基于样本文本训练得到的;/n基于两个待识别词的预测结果,确定词语搭配不当识别结果。/n
【技术特征摘要】
1.一种词语搭配不当识别方法,其特征在于,包括:
确定待识别文本中的存在搭配关系的两个待识别词;
将所述待识别文本中的任一待识别词替换为遮盖标记,得到所述任一待识别词对应的输入文本;
将所述任一待识别词对应的输入文本输入至词语预测模型,得到所述词语预测模型输出的所述任一待识别词的预测结果;其中,所述词语预测模型是基于样本文本训练得到的;
基于两个待识别词的预测结果,确定词语搭配不当识别结果。
2.根据权利要求1所述的词语搭配不当识别方法,其特征在于,所述基于两个待识别词的预测结果,确定词语搭配不当识别结果,具体包括:
基于任一待识别词的预测结果,确定所述任一待识别词的搭配判断结果;
基于两个待识别词的搭配判断结果,确定所述词语搭配不当识别结果。
3.根据权利要求2所述的词语搭配不当识别方法,其特征在于,所述基于任一待识别词的预测结果,确定所述任一待识别词的搭配判断结果,具体包括:
确定任一待识别词的预测结果中,所述任一待识别词的预测概率,以及另一待识别词所对应的若干个候选搭配词的预测概率;
基于所述任一待识别词的预测概率,以及所有候选搭配词的预测概率,确定所述任一待识别词的搭配判断结果。
4.根据权利要求3所述的词语搭配不当识别方法,其特征在于,所述基于所述任一待识别词的预测概率,以及所有候选搭配词的预测概率,确定所述任一待识别词的搭配判断结果,具体包括:
若所述任一待识别词的预测概率小于所有候选搭配词的预测概率的平均值,则确定所述任一待识别词的搭配判断结果为搭配不当;
否则,确定所述任一待识别词的搭配判断结果为搭配正确。
5.根据权利要求2所述的词语搭配不当识别方法,其特征在于,所述基于两个待识别词的搭配判断结果,确定所述词语搭配不当识别结果,具体包括:
若两个待识别词的搭配判断结果均为搭配正确,则确定所述词语搭配不当识别结果为无;
若两个待识别词的搭配判断结果均为搭配不当,则将预测概率较低的待识别词作为所述词语搭配不当识别结果;所述预测概率是从所述预测结果中提取的;
否则,将搭配判...
【专利技术属性】
技术研发人员:陈致鹏,崔一鸣,伍大勇,王士进,胡国平,刘挺,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。