一种语句的纠错方法及设备技术

技术编号:28559903 阅读:123 留言:0更新日期:2021-05-25 17:54
本发明专利技术适用于数据处理技术领域,提供了一种语句的纠错方法及设备,包括:通过预设的关联概率识别模型识别目标语句包含的异常分词;将目标语句内的异常分词替换为合法分词,得到已纠错语句。本发明专利技术无需依赖人工对语句纠错,而是可以通过关联概率识别模型对目标语句进行语句纠错,在确保了输出语句的准确率的同时,也能够提高语句纠错的效率,满足了当今电子数据量庞大的校验需求。

【技术实现步骤摘要】
一种语句的纠错方法及设备
本专利技术属于数据处理
,尤其涉及一种语句的纠错方法及设备。
技术介绍
随着电子化进程的不断推进,越来越多的信息通过电子化的方式进行存储,例如可以通过语音识别,将声音信号转换为文字数据,又例如通过输入法将用户所需书写的内容转换为电子文档。而当用户通过声音信号或者输入法输入文字信息的过程中,常常在输出的文字数据中出现语句错误,例如在通过声音信号转换为文字数据时夹带了方言,导致无法准确识别用户所表达的文字数据;又例如用户使用输入法输入电子文档时,会出现拼音错误或形似字错误等情况,从而导致了输出的电子文档包含了错别字。对于上述情况,现有的语句纠错技术中,主要是通过人工对海量的数据进行人工校对,需要耗费较高的人力及时间成本,虽然更专业准确,但是校对过程效率较低,特别在当今电子数据以几何级的数量增长,人工校对的方式显然无法满足实际校验需求。
技术实现思路
有鉴于此,本专利技术实施例提供了一种语句的纠错方法及设备,以解决现有的语句纠错技术需要耗费较高的人力及时间成本,校对过程效率较低的问题。...

【技术保护点】
1.一种语句的纠错方法,其特征在于,包括:/n通过预设的关联概率识别模型识别目标语句包含的异常分词;/n将所述目标语句内的所述异常分词替换为合法分词,得到已纠错语句。/n

【技术特征摘要】
1.一种语句的纠错方法,其特征在于,包括:
通过预设的关联概率识别模型识别目标语句包含的异常分词;
将所述目标语句内的所述异常分词替换为合法分词,得到已纠错语句。


2.根据权利要求1所述的纠错方法,其特征在于,所述通过预设的关联概率识别模型识别目标语句包含的异常分词,包括:
在所述目标语句中选取多个连续的字符得到字符串;
分别计算各个所述字符与所述字符串内其余字符之间的关联度;
根据各个所述字符对应的所述关联度,确定所述字符串的分词关联系数;
若所述分词关联系数小于预设的关联阈值,则识别所述字符串包含异常分词。


3.根据权利要求2所述的纠错方法,其特征在于,所述在所述目标语句中选取多个连续的字符得到字符串,包括:
在所述目标语句中框取预设个数的多个连续的所述字符,得到所述字符串。


4.根据权利要求1所述的纠错方法,其特征在于,在所述通过预设的关联概率识别模型识别目标语句包含的异常分词之前,还包括:
获取模型学习参数;所述模型学习参数包括:初始效率、最低效率、效率调整步长以及学习周期个数;
根据所述初始效率设置第N个学习周期的学习效率;所述N的初始值为1;
通过多个训练样本以所述第N个学习周期学习效率对所述关联概率识别模型进行训练学习,直到所述关联概率识别模型的损失函数的输出值小于预设的收敛阈值;
对N的值进行加1操作,并基于所述效率调整步长减少第N-1个学习周期的学习效率,将调整后的第N-1个学习周期的学习效率识别为第N个学习周期的学习效率;
若所述学习效率小于所述最低效率,则将所述学习效率设置为初始效率,并返回执行所述通过多个训练样本以所述第N个学习周期学习效率对所述关联概率识别模型进行训练学习的操作;
若所述学习效率大于或等于最低效率,则返回执行通过多个训练样本以所述第N个学习周期学习效率对所述关联概率识别模型进行训练学习的操作;
若所述N的值大于所述学习周期个数,则识别所述关联概率识别模型已训练完毕。


5.根据权利要求1-4任一项所述的纠错方法,其特征在于,在所述通过预设的关联概率识别模型识别目标语句包含的异常分词之前,还包括:
将待纠错的原始语句导入到初始纠错模型,生成所述原始语句对应的所述目标语句。


6.根据权利要求5所述的纠错方法,其特征在于,所述将待纠错的原...

【专利技术属性】
技术研发人员:曹源
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1