【技术实现步骤摘要】
一种文本修正方法、装置、计算机设备及存储介质
[0001]本说明书涉及计算机
,尤其涉及一种文本修正方法、装置、计算机设备及存储介质。
技术介绍
[0002]目前,需要语音识别的应用场景越来越多,由此需要针对采集的语音进行文字文本转换。但是在语音转文字文本的过程中,常常由于拼音与文字之间不是一一对应的关系,导致转换之后的识别文本有较多的误识别字。从该识别文本中,确定对应的误识别字,目前采用从文字这一个维度,确定该误识别字,并针对该误识别字进行自动纠正。但由于语音识别是拼音和文字两个维度之间的转换,因此现有的仅基于文字这一个维度,进行误识别字检测的准确率较低,进而使自动纠正的准确率较低。
[0003]如何提高语音识别的应用场景中的,文本检错和自动纠正的准确率是现有技术中亟需解决的问题。
技术实现思路
[0004]为解决现有技术中的问题,本说明书实施例提供了一种文本修正方法、装置、计算机设备及存储介质,针对待检错文本进行文字维度的纠错和拼音维度的纠错,以确定修正文本,提高了语音识别的应用场景中的,文 ...
【技术保护点】
【技术特征摘要】
1.一种文本修正方法,其特征在于,包括:针对待检错文本进行切词处理和拼音转换处理,得到多个待检查文字文本和多个待检查拼音文本;利用预设分词文字集合和混淆文字集合,从所述多个待检查文字文本中确定至少一个预错误文字文本;利用预设拼音集合和混淆拼音集合,从所述多个待检查拼音文本中确定至少一个预错误拼音文本;针对每个所述预错误拼音文本进行拼音逆转换处理,得到预转换错误文字文本;以及利用所述混淆文字集合和预设目标文字集合,对所述待检错文本中的所述预错误文字文本和所述预转换错误文字文本进行处理,以确定修正文本,其中,所述拼音转换和所述拼音逆转换为互逆转换。2.根据权利要求1所述的方法,其特征在于,所述针对待检错文本进行切词处理和拼音转换处理,得到多个待检查文字文本和多个待检查拼音文本包括:针对所述待检错文本进行文字切词处理,得到所述多个待检查文字文本;以及针对所述多个待检查文字文本进行拼音转换处理,得到所述多个待检查拼音文本,其中,所述拼音转换处理包括根据所述多个待检查文字文本和与所述待检错文本对应的语音信息,确定所述多个待检查拼音文本。3.根据权利要求1所述的方法,其特征在于,所述针对待检错文本进行切词处理和拼音转换处理,得到多个待检查文字文本和多个待检查拼音文本包括:针对所述待检错文本进行文字切词处理,得到所述多个待检查文字文本;针对所述待检错文本进行拼音转换处理,得到待检错拼音文本;以及针对所述待检错拼音文本进行拼音切词处理,得到所述多个待检查拼音文本,其中,所述拼音转换处理包括根据所述待检错文本和与所述待检错文本对应的语音信息,确定所述待检错拼音文本。4.根据权利要求1所述的方法,其特征在于,所述预设分词文字集合包括预设第一文字集合和预设第二文字集合,所述利用预设分词文字集合和混淆文字集合,从所述多个待检查文字文本中确定至少一个预错误文字文本包括:按照所述待检错文本中文字的顺序,对所述多个待检查文字文本进行排序,得到待检查文字文本序列;将所述待检查文字文本序列中每相邻两个待检查文字文本作为子待检查文字文本集合,得到多个子待检查文字文本集合;利用所述预设第一文字集合,从所述多个子待检查文字文本集合中确定至少一个错误子文字文本集合;以及利用所述混淆文字集合和所述预设第二文字集合,从所述至少一个错误子文字文本集合中确定所述至少一个预错误文字文本,其中,所述预设第一文字集合包括两字标准文字集合,所述预设第二文字集合包括三字标准文字集合。5.根据权利要求4所述的方法,其特征在于,所述利用所述预设第一文字集合,从所述多个子待检查文字文本集合中确定至少一个错误子文字文本集合包括:
利用所述预设第一文字集合,计算与所述多个子待检查文字文本集合中的每个子待检查文字文本集合分别对应的两个第一概率数值;以及在确定所述两个第一概率数值中存在小于等于预设第一阈值的目标第一概率数值的情况下,确定与所述目标第一概率数值对应的子待检查文字文本集合为错误子文字文本集合,得到所述至少一个错误子文字文本集合。6.根据权利要求4所述的方法,其特征在于,利用所述混淆文字集合和所述预设第二文字集合,从所述至少一个错误子文字文本集合中确定所述至少一个预错误文字文本包括:针对所述至少一个错误子文字文本集合中的每个错误子文字文本集合,分别确定第一错误文本;利用所述混淆文字集合中的与所述第一错误文本对应的子混淆文字集合,针对所述错误子文字文本集合中的第一错误文本进行替换,得到与所述错误子文字文本集合对应的多个第一替换文本;利用所述预设第二文字集合,计算与所述多个第一替换文本对应的多个第二概率数值;以及在确定所述多个第二概率数值中存在大于等于预设第二阈值的目标第二概率数值的情况下,从所述错误子文字文本集合中确定预错误文字文本,得到所述至少一个预错误文字文本。7.根据权利要求1所述的方法,其特征在于,所述预设拼音集合包括预设第一拼音集合和预设第二拼音集合,所述利用预设拼音集合和混淆拼音集合,从所述多个待检查拼音文本中确定至少一个预错误拼音文本包括:按照所述待检错文本中文字的顺序,对所述多个待检查拼音文本进行排序,得到待检查拼音文本序列;将所述待检查拼音文本序列中每相邻两个待检查拼音文本作为子待检查拼音文本集合,得到多个子待检查拼音文本集合;利用所述混淆拼音集合和所述预设第一拼音集合,从所述多个子待检查拼音文本集合中确定至少一个错误子拼音文本集合;以及利用所述预设第二拼音集合,从所述至少一个错误子拼音文本集合中确定所述至少一个预错误拼音文本,其中,所述预...
【专利技术属性】
技术研发人员:方航,李玉,郑邦东,熊博颖,胡翔,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。