【技术实现步骤摘要】
一种文本内容检测方法、检测装置、电子设备及存储介质
本专利技术涉及自然语言处理
,特别是涉及一种文本内容检测方法、检测装置、电子设备及存储介质。
技术介绍
获取文本内容后,通常需要检测文本内容中是否存在拼写错误,例如,在获取经OCR(OpticalCharacterRecognition,光学字符识别)或ASR(AutomaticSpeechRecognition,自动语音识别)处理得到的文本内容或者人类书写内容后,检测该文本内容中是否存在错别字。现有的文本内容检测方法通常基于预先设定的困惑集进行检测,其中,困惑集用于存储每个汉字可能被混淆的错别字,其具体检测过程为:对于待检测文本中的每个汉字,将困惑集中该汉字的所有相似汉字作为候选字,然后对各候选字进行筛选,如果筛选结果和原汉字一样,表明该汉字无错;如果筛选结果和原汉字不一样,表明该汉字存在拼写错误,进而可以将该汉字替换为正确的汉字。然而,专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:由于上述困惑集通常为预先设定好的,例如, ...
【技术保护点】
1.一种文本内容检测方法,其特征在于,包括:/n获取待检测文本,所述待检测文本中包括多个待检测文字;/n获取所述待检测文本的各待检测文字的多个候选字,以及各候选字的语境合适度,所述语境合适度用于表示所述候选字与所述待检测文本的语境匹配程度;/n针对所述多个候选字中的各候选字,计算该候选字与该候选字对应的待检测文字之间的相似度;/n基于各候选字的所述语境合适度、各候选字的所述相似度以及预设的错别字检测条件,对所述待检测文本的各待检测文字进行错别字检测,得到检测结果。/n
【技术特征摘要】
1.一种文本内容检测方法,其特征在于,包括:
获取待检测文本,所述待检测文本中包括多个待检测文字;
获取所述待检测文本的各待检测文字的多个候选字,以及各候选字的语境合适度,所述语境合适度用于表示所述候选字与所述待检测文本的语境匹配程度;
针对所述多个候选字中的各候选字,计算该候选字与该候选字对应的待检测文字之间的相似度;
基于各候选字的所述语境合适度、各候选字的所述相似度以及预设的错别字检测条件,对所述待检测文本的各待检测文字进行错别字检测,得到检测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取所述待检测文本的各待检测文字的多个候选字,以及各候选字的语境合适度的步骤,包括:
将所述待检测文本的各待检测文字输入预先训练好的掩码语言模型MLM模型,得到所述MLM模型输出的候选字矩阵,所述候选字矩阵中的每一行表示一组候选文本,一组候选文本中的各文字对应所述待检测文本中的所述多个待检测文字,且各行的排列顺序与该行中候选字的语境合适度相关,所述候选字矩阵中的每一列表示一个待检测文字的全部候选字。
3.根据权利要求1所述的方法,其特征在于,所述针对所述多个候选字中的各候选字,计算该候选字与该候选字对应的待检测文字之间的相似度的步骤,包括:
基于所述候选字的字形,计算所述候选字与该候选字对应待检测文字之间的字形相似度;或者,
基于所述候选字的读音,计算所述候选字与该候选字对应待检测文字之间的读音相似度。
4.根据权利要求3所述的方法,其特征在于,所述基于所述候选字的字形,计算所述候选字与该候选字对应待检测文字之间的字形相似度的步骤包括:
分别获取所述候选字和与该候选字对应的待检测文字的象形文字描述序列IDS表征字符,所述IDS表征字符用于表示组成文字的各字符间的组成顺序;
根据所述IDS表征字符,计算所述候选字与该候选字对应的待检测文字之间的第一编辑距离,所述第一编辑距离为将所述候选字修改为待检测文字所需替换的字符数;
利用所述第一编辑距离计算该候选字与对应的待检测文字之间的字形相似度。
5.根据权利要求3所述的方法,其特征在于,所述基于所述候选字的读音,计算所述候选字与该候选字对应待检测文字之间的读音相似度的步骤,包括:
分别获取所述候选字和与该候选字对应的待检测文字在不同预设语言类型中的汉字读音表征;
根据所获取的所述汉字读音表征,计算所述候选字与该候选字对应的待检测文字之间的第二编辑距离,所述第二编辑距离为将所述候选字的拼音修改为待检测文字的拼音所需替换的字符数;
利用所述第二编辑距离计算该候选字与对应的待检测文字之间的读音相似度。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于各候选字的所述语境合适度、各候选字的所述相似度以及预设的错别字检测条件,对所述待检测文本的各待检测文字进行错别字检测,得到检测结果的步骤,包括:
针对所述各候选字中的每一个候选字,利用该候选字与该候选字的所述待检测文字之间的语境合适度和相似度,生成该候选字的语境合适与相似度之间的对应关系;
判断所述对应关系是否符合预设的检测条件函数,所述检测条件函数是基于样本文本的语境合适度和相似度之间的对应关系确定的;
如果所述对应关系符合所述检测条件函数,则将该对应关系所对应的候选字的待检测文字识别为错别字。
7.根据权利要求6所述的方法,其特征在于,所述基于各候选字的所述语境合适度、各候选字的所述相似度以及预设的错别字检测条件,对所述待检测文本的各...
【专利技术属性】
技术研发人员:洪煜中,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。