【技术实现步骤摘要】
一种文本纠错方法、装置、电子设备及可读存储介质
本专利技术涉及计算机
,特别是涉及一种文本纠错方法、装置、电子设备及可读存储介质。
技术介绍
目前,为了便于对视频资源进行分析,常常需要对视频资源中的台词或者新闻标题信息进行OCR(OpticalCharacterRecognition,光学字符识别)识别,进而可以识别得到视频资源中所包含的文本。其中,OCR是将图片上的文字直接转换为可编辑文本的技术。专利技术人在实现本专利技术的过程中发现,通过OCR识别得到的文本中常常存在许多识别错误,并且错误类型复杂。例如,存在形近字识别错误,还存在无规律可循的识别错误和常用词语错误等。但是,目前只能通过自然语言处理算法结合神经网络算法来对待纠错文本进行上下文语义识别,从而根据语义识别结果对文本进行纠错,但是该种文本纠错方式无法对错误内容较多且错误类型复杂的文本进行准确纠错。
技术实现思路
本专利技术实施例的目的在于提供一种文本纠错方法、装置、电子设备及可读存储介质,以可以对错误内容较多且错误类型复杂的文本进行准确 ...
【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n获得待纠错文本;/n对所述待纠错文本依次进行形近字纠错和常用字纠错,得到第一校正文本;/n对所述待纠错文本进行常用词纠错,得到第二校正文本;/n获得所述第一校正文本和所述第二校正文本的困惑度,将困惑度最低的校正文本确定为待纠错文本的校正文本。/n
【技术特征摘要】 【专利技术属性】
1.一种文本纠错方法,其特征在于,包括:
获得待纠错文本;
对所述待纠错文本依次进行形近字纠错和常用字纠错,得到第一校正文本;
对所述待纠错文本进行常用词纠错,得到第二校正文本;
获得所述第一校正文本和所述第二校正文本的困惑度,将困惑度最低的校正文本确定为待纠错文本的校正文本。
2.根据权利要求1所述的方法,其特征在于,所述对所述待纠错文本依次进行形近字纠错和常用字纠错,得到第一校正文本,包括:
通过预设形近字列表,按照从所述待纠错文本中的第一个字到最后一个字的顺序,对所述待纠错文本进行正向纠错;
通过所述预设形近字列表,按照从所述待纠错文本中的最后一个字到第一个字的顺序,对所述待纠错文本进行反向纠错;
根据正向纠错得到的纠错结果和反向纠错得到的纠错结果确定形近字纠错文本;
通过预设常用字列表,按照从所述形近字纠错文本中的第一个字到最后一个字的顺序,对所述形近字纠错文本进行正向纠错;
通过所述预设常用字列表,按照从所述形近字纠错文本中的最后一个字到第一个字的顺序,对所述形近字纠错文本进行反向纠错;
根据对所述形近字纠错文本进行正向纠错得到的纠错结果和反向纠错得到的纠错结果,确定所述第一校正文本。
3.根据权利要求1所述的方法,其特征在于,所述对所述待纠错文本进行常用词纠错,得到第二校正文本,包括:
依次通过第一常用词列表、第二常用词列表和第三常用词列表对所述待纠错文本进行纠错,得到第二校正文本;其中,所述第一常用词列表中每个常用词的包括的字的数量均为第一数量,所述第二常用词列表中的每个常用词包括的字的数量均为第二数量,所述第三常用词列表中的每个常用词包括的字的数量均为第三数量,所述第一数量大于所述第二数量,所述第二数量大于所述第三数量;和/或,
通过预设实体类别常用词列表对所述待纠错文本进行纠错,得到第二校正文本。
4.根据权利要求3所述的方法,其特征在于,所述依次通过第一常用词列表、第二常用词列表和第三常用词列表对所述待纠错文本进行纠错,得到第二校正文本,包括:
对所述待纠错文本进行分词操作;
将所述待纠错文本包括的分词与第一常用词列表中的常用词进行匹配,若匹配到所述第一常用词列表中的常用词,则通过匹配到的常用词对所述待纠错文本进行更新;
判断所述待纠错文本的困惑度与更新后的待纠错文本的困惑度的差值是否大于等于第一纠错阈值,若是,则将更新后的待纠错文本作为第一常用词纠错文本;若否,则将所述待纠错文本作为第一常用词纠错文本;
将所述第一常用词纠错文本包括的分词与第二常用词列表中的常用词进行匹配,若匹配到所述第二常用词列表中的常用词,则通过匹配到的常用词对所述第一常用词纠错文本进行更新;
判断所述第一常用词纠错文本的困惑度与更新后的第一常用词纠错文本的困惑度的差值是否大于等于第二纠错阈值,若是,则将更新后的第一常用词纠错文本作为第二常用词纠错文本;若否,则将第一常用词纠错文本作为第二常用词纠错文本;
将所第二常用词纠错文本包括的分词与第三常用词列表中的常用词进行匹配,若匹配到所述第三常用词列表中的常用词,则通过匹配到的常用词对所述第三常用词纠错文本进行更新;
判断所述第二常用词纠错文本的困惑度与更新后的第二常用词纠错文本的困惑度的差值是否大于等于第三纠错阈值,若是,则将更新后的第二常用词纠错文本作为所述第二校正文本;若否,则将所述第二常用词纠错文本作为所述第二校正文本;其中,所述第三纠错阈值大于所述第一纠错阈值,且所述第三纠错阈值大于所述第二纠错阈值。
5.根据权利要求3所述的方法,其特征在于,通过预设实体类别常用词列表对所述待纠错文本进行纠错,得到第二校正文本,包括:
对所述待纠错文本进行分词操作;
将所述待纠错文本包括的分词与所述预设实体类别常用词列表进行匹配,若匹配到所述预设实体类别常用词列表中的常用词,则通过匹配到的常用词对所述待纠错文本进行更新;
判断所述待纠错文本的困惑度与更新后的待纠错文本的困惑度之间的差值是否大于等于第四纠错阈值;若是,则将更新后的待纠错文本作为所述第二校正文本;若否,则将所述待纠错文本作为所述第二校正文本。
6.根据权利要求2所述的方法,其特征在于,所述通过预设形近字列表,按照从所述待纠错文本中的第一个字到最后一个字的顺序,对所述待纠错文本进行正向纠错,包括:
从所述预设形近字列表中,查找所述待纠错文本中的第一个字的形近字;
将所述待纠错文本中的第一个字分别替换为自身对应的各个形近字,得到多个第一级替换文本;
计算所述多个第一级替换文本中的每个第一级替换文本的困惑度,从所述多个第一级替换文本中,按照困惑度从小到大的顺序,选取指定数量个困惑度与所述待纠错文本的困惑度的差值大于等于第五纠错阈值的第一级替换文本;
针对选取的指定数量个第一级替换文本中的每个第一级替换文本,从所述预设形近字列表中,查找该第一级替换文本中的第二个字的形近字,将该第一级替换文本中的第二个字分别替换为自身对应的各个形近字,得到该第一级替换文本对应的多个第二级替换文本,计算所述多个第二级替换文本中的每个第二级替换文本的困惑度;
从所述多个第二级替换文本中,按照困惑度从小到大的顺序,选取所述指定数量个困惑度与所述待纠错文本的困惑度差值大于所述第五纠错阈值的第二级替换文本;
对选取的第二级替换文本以及后续得到的每一级替换文本,按照对所述指定数量个第一级替换文本的处理方式进行处理,直至所述待纠错文本的最后一个字被进行形近词替换后,得到所述指定数量的正向纠错文本;
所述通过所述预设形近字列表,按照从所述待纠错文本中的最后一个字到第一个字的顺序,对所述待纠错文本进行反向纠错,包括:
从所述预设形近字列表中,查找所述待纠错文本中的最后一个字的形近字;
技术研发人员:龚厚瑜,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。