【技术实现步骤摘要】
基于人工智能的文本纠错方法、装置、设备及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种基于人工智能的文本纠错的方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]目前,在中文文本中不可避免的会存在各种错误,例如,形近字、同音字、方言等导致的各类错误;例如,在传统的语音识别方案中往往会由于一些客观原因,使得识别结果不能够很好的表达客户的真实意图,例如,客户说话时带有方言口音或者受到外界环境噪音的影响等,均会导致识别出的文本存在错误。
[0003]针对上述问题,需要对相应的文本进行错误检查及纠正,以提升意图理解的准确性,进而提高用户体验。
[0004]现有的文本纠错方案,主要是通过基于规则的模型或基于统计的模型生成针对待纠正文本的多个候选文本,然后从多个候选文本中筛选出最合理的文本。然而在基于规则的模型或者基于统计的模型进行文本纠错过程中,文本纠错的准确率较低,文本纠错效果并不能兼顾多种错误形式,例如,模糊音、口语、方言等,进而不能满足现阶段用户对文本纠错功能的需求。
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的文本纠错方法,其特征在于,所述方法包括:基于预训练的分词模型对获取的待检测文本进行分词处理,以获取对应的分词结果;获取所述分词结果中的词以及所述待检测文本中的每个字在所述待检测文本的对应句子中的概率值;基于所述概率值,确定所述待检测文本的疑似错误位置候选集;基于预构建的字典,获取所述疑似错误位置候选集中的各错误对应的候选结果,并确定与所述候选结果相对应的纠错候选集;获取所述纠错候选集中的候选结果在对应句子中的困惑度,并基于所述困惑度,确定与所述各错误对应的纠错结果;基于所述纠错结果对所述待检测文本进行纠错。2.如权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述基于预训练的分词模型对获取的待检测文本进行分词处理,以获取对应的分词结果的步骤包括:获取训练集语料库,并基于所述训练集语料库对初始化的N
‑
gram模型进行训练,以获取训练完成的分词模型;基于所述分词模型对所述待检测文本进行一次分词处理,并获取对应的第一分词结果;基于前向最大匹配分词法,对所述第一分词结果进行二次分词处理,获取对应的第二分词结果;以及,基于后向最大匹配分词法,对所述第一分词结果进行二次分词处理,获取对应的第三分词结果;基于预设规则,从所述第二分词结果和所述第三分词结果中选取目标文本作为所述分词结果。3.如权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述获取所述分词结果中的词以及所述待检测文本中的每个字在所述待检测文本的对应句子中的概率值的步骤包括:获取待检测文本中的每个字,确定对应的字集合;对所述分词结果和所述字集合进行并集处理,以确定目标集合;获取所述目标集合中的所有元素在对应句子中的概率值。4.如权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述预构建的字典包括模糊音字典和形似字字典,所述确定与所述候选结果相对应的纠错候选集的步骤包括:将所述各错误处的字和/或词转换为目标拼音;在所述模糊音字典中,查找与所述目标拼音相对应的模糊音或相似音,以形成第一候选结果;同时,对所述目标拼音的声母和韵母进行拆分,以获取拆分后的目标声母和目标韵母;在所述模糊音字典中,查找与所述目标声母和所述目标韵母对应的模糊音或相似音,以形成第二候选结果;在所述形似字字典中,查找与所述各错误相对应的所有形似字,以形成第三候选结果;基于所述第一候选结果、所...
【专利技术属性】
技术研发人员:郭丹丹,
申请(专利权)人:平安普惠企业管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。