文本纠错方法、装置、设备及存储介质制造方法及图纸

技术编号:25522628 阅读:23 留言:0更新日期:2020-09-04 17:12
本申请实施例提供了一种文本纠错方法、装置、设备及存储介质;所述方法包括:采用预设混淆字库,对待纠错文本中的至少一个混淆字符进行替换,得到第一文本集合;在所述第一文本集合中,确定满足预设条件的候选文本;采用所述预设混淆字库,对所述候选文本中的至少一个混淆字符进行替换,得到第二文本集合;根据所述第二文本集合,遍历存储有与所述待纠错文本所属领域相同的至少两个词语的领域词库,得到与第二文本相匹配的目标文本;这样,通过采用混淆字库和领域词库对待纠错文本进行纠错,能够对领域专有名词进行纠错,从而提高了对文本进行纠错的准确度。

【技术实现步骤摘要】
文本纠错方法、装置、设备及存储介质
本申请涉及文本处理
,尤其涉及文本纠错方法、装置、设备及存储介质。
技术介绍
对文字进行识别的过程中,进行文字纠错的候选集由全量词典生成,查找候选字时,全量检索会造成搜索的空间过大,耗时较长;而且在形近字错误纠错的场景下,不同形近字组成的词的词向量可能会比较接近,无法保证区分的正确率。
技术实现思路
本申请实施例提供一种文本纠错方法、装置、设备及存储介质,通过采用混淆字库和领域词库对待纠错文本进行纠错,能够对领域专有名词进行纠错,从而提高了对文本进行纠错的准确度。本申请实施例的技术方案是这样实现的:第一方面,本申请实施例提供一种文本纠错方法,包括:采用预设混淆字库,对待纠错文本中的至少一个混淆字符进行替换,得到第一文本集合;在所述第一文本集合中,确定满足预设条件的候选文本;采用所述预设混淆字库,对所述候选文本中的至少一个混淆字符进行替换,得到第二文本集合;根据所述第二文本集合,遍历存储有与所述待纠错文本所属领域相同的至少两个词语的领域词库,得到与第二文本相匹配的目标文本。第二方面,本申请实施例提供一种文本纠错装置,所述装置包括:第一替换模块,用于采用预设混淆字库,对待纠错文本中的至少一个混淆字符进行替换,得到第一文本集合;第一确定模块,用于在所述第一文本集合中,确定满足预设条件的候选文本;第二替换模块,用于采用所述预设混淆字库,对所述候选文本中的至少一个混淆字符进行替换,得到第二文本集合;第一遍历模块,用于根据所述第二文本集合,遍历存储有与所述待纠错文本所属领域相同的至少两个词语的领域词库,得到与第二文本相匹配的目标文本。第三方面,本申请实施例提供一种文本纠错的设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现上述文本纠错方法。第四方面,本申请实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的文本纠错方法。本申请实施例具有以下有益效果:对于获取到的待纠错文本,首先利用混淆字库,构造待纠错文本的多个第一文本,然后,从对这多个第一文本进行纠错,从中确定出满足预设条件的候选文本;这样,对待纠错文本进行纠错时,候选字只从混淆集中选取字形上相近的混淆字构成第一文本,可大幅减少对于句子合法性判断的计算量;然后,再采用混淆字库对候选文本中的混淆字进行替换;并且根据第二文本集合,遍历所述领域相同的领域词库,从而得到目标文本;这样,由领域专有名词构建的领域词库来对领域专有名词进行纠错,能够提高相同词在不同领域的区分准确度。附图说明图1是本申请实施例提供的文本纠错系统的一个可选的架构示意图;图2A是本申请实施例提供的文本纠错系统的另一个可选的架构示意图;图2B是本申请实施例提供的文本纠错系统的结构示意图;图3是本申请实施例提供的文本纠错方法的实现流程示意图;图4A本申请实施例提供的文本纠错方法的又一实现流程示意图;图4B本申请实施例提供的文本纠错方法的又一实现流程示意图;图5是本申请实施例提供的文本纠错方法的实现流程示意图;图6是本申请实施例文本纠错方法的应用场景图;图7是本申请实施例文本纠错方法的另一应用场景图;图8是本申请实施例提供的文本纠错方法的另一实现流程示意图;图9A是本申请实施例进行OCR识别的过程的架构示意图;图9B是本申请实施例文本纠错方法的应用场景图;图10是本申请实施例领域词典树的组成结构示意图。具体实施方式为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。1)形近字纠错:对文本中的形近字错误字符进行矫正。2)光学字符识别(OpticalCharacterRecognition,OCR):是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。3)自然语言处理(NaturalLanguageProcessing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。4)混淆集:依据字形相似度从中文语料当中人工或自动整理出的易混形近字集合。5)前缀(Trie)树:是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。6)二元语言模型:对于一段包含3个字符的文本“W1W2W3”,W1,W2,W3的混淆集分别为序列(W11,W12,W13,W14,W15),序列(W21,W22,W23,W24,W25)和序列(W31,W32,W33,W34,W35)。在语言模型当中,基于马尔可夫假设,任意一个词出现的概率只与其前一个或几个词有关,与前n个词相关,则对应语言模型称为n-1元语言模型。这里采用二元语言模型,即任意一个词出现的概率只与其前一个词相关。7)区块链(Blockchain):由区块(Block)形成的加密的、链式的交易的存储结构。8)区块链网络(BlockchainNetwork):通过共识的方式将新区块纳入区块链的一系列的节点的集合。9)云技术(CloudTechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有本文档来自技高网
...

【技术保护点】
1.一种文本纠错方法,其特征在于,所述方法包括:/n采用预设混淆字库,对待纠错文本中的至少一个混淆字符进行替换,得到第一文本集合;/n在所述第一文本集合中,确定满足预设条件的候选文本;/n采用所述预设混淆字库,对所述候选文本中的至少一个混淆字符进行替换,得到第二文本集合;/n根据所述第二文本集合,遍历存储有与所述待纠错文本所属领域相同的至少两个词语的领域词库,得到与第二文本相匹配的目标文本。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,所述方法包括:
采用预设混淆字库,对待纠错文本中的至少一个混淆字符进行替换,得到第一文本集合;
在所述第一文本集合中,确定满足预设条件的候选文本;
采用所述预设混淆字库,对所述候选文本中的至少一个混淆字符进行替换,得到第二文本集合;
根据所述第二文本集合,遍历存储有与所述待纠错文本所属领域相同的至少两个词语的领域词库,得到与第二文本相匹配的目标文本。


2.根据权利要求1所述的方法,其特征在于,所述采用预设混淆字库,对所述待纠错文本中的至少一个混淆字符进行替换,得到第一文本集合,包括:
在所述预设混淆字库中,确定字形与所述待纠错文本中字符的字形之间的相似度大于等于第一预设相似度阈值的第一混淆字集合;
采用所述第一混淆字集合中的至少一个混淆字,对所述待纠错文本中对应的字符进行替换,得到所述第一文本集合。


3.根据权利要求1所述的方法,其特征在于,所述在所述第一文本集合中,确定满足预设条件的候选文本,包括:
确定所述第一文本集合中第一文本的每一字符出现的第一概率;
根据所述每一字符出现的第一概率,确定所述每一字符所属第一文本出现的第二概率;
将第二概率大于等于预设概率阈值的第一文本确定为所述候选文本。


4.根据权利要求1所述的方法,其特征在于,所述采用所述预设混淆字库,对所述候选文本中的至少一个混淆字符进行替换,得到第二文本集合,包括:
在所述预设混淆字库中,确定字形与所述候选文本中字符的字形之间的相似度,大于等于第二预设相似度阈值的第二混淆字集合;
采用所述第二混淆字集合中的至少一个混淆字,对所述候选文本中对应的字符进行替换,得到所述第二文本集合。


5.根据权利要求1至4任一项所述的方法,其特征在于,在所述采用预设混淆字库,对所述待纠错文本中相对应的至少一个混淆字符进行替换,得到第一文本集合之前,所述方法还包括:
获取至少...

【专利技术属性】
技术研发人员:洪科元李斌章秦苏晨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1