本发明专利技术公开了一种文本的校验方法、装置、存储介质以及处理器。其中,该方法包括:获取公开文本的样本字典编码;构建模型进行训练,其中,模型为使用多组数据通过机器学习训练得出的,多组数据中的每组数据均包括:不同的样本字典编码和样本字典编码对应的序列标注标签和任务编码标签;获取待检测文本的字典编码;将字典编码输入模型,得到待检测文本的序列标注标签和任务编码标签。本发明专利技术解决了现有技术中无法有效校验文本的技术问题。
Verification method, device, storage medium and processor of text
【技术实现步骤摘要】
文本的校验方法、装置、存储介质以及处理器
本专利技术涉及文本校验领域,具体而言,涉及一种文本的校验方法、装置、存储介质以及处理器。
技术介绍
现代社会已经进入信息化数字化时代,人们每天获取和处理的文本信息几乎都是电子文本,比如生活中的聊天软件娱乐软件,工作学习中阅读或书写各类文档等等。用户在使用拼音输入法打字时,经常会有各种“笔误”,导致句子不通顺,尤其是大篇幅的文档校验会花费大量的时间。输入法导致的句子不通顺问题总结为“同音近音”问题,是由于误输入同音或近音字原因造成的。比如,“你们今天想去那里吃饭呢?”,这句中“那里”应为“哪里”。语言模型的困惑度(ppl)可以一定程度上作为整体句子是否通顺的参考,但是准确率非常低不能作为句子是否通顺的评判指标。另外,语言模型ppl值只能从句子整体角度出发评估整个句子出现的概率,ppl只是相对量而非绝对量(即,ppl低的句子不一定有问题,ppl高的不一定没有问题,ppl只能用来比较两个句子哪个更可能出现)。另外,ppl可以评估句子是否有问题,但是无法指出问题出现在哪个词上,更不能给出修改方案。还有一些文档校验方法,只是简单的搜索句子中没有见过的字词搭配,并标注出来,上面的例子中,所有字词间都是可以搭配的,所以这种校验方法无法解决上面例子中“哪里”-“那里”的问题。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种文本的校验方法、装置、存储介质以及处理器,以至少解决现有技术中无法有效校验文本的技术问题。根据本专利技术实施例的一个方面,提供了一种文本的校验方法,包括:获取公开文本的样本字典编码;构建模型进行训练,其中,所述模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:不同的样本字典编码和所述样本字典编码对应的序列标注标签和任务编码标签;获取待检测文本的字典编码;将所述字典编码输入所述模型,得到所述待检测文本的序列标注标签和任务编码标签。可选地,所述公开文本为正样本,获取公开文本的样本字典编码包括:收集公开文本;对所述公开文本进行分词处理,得到分词结果;根据所述分词结果生成样本字典编码。可选地,在对所述公开文本进行分词处理,得到分词结果之后,还包括:根据所述分词结果,构建所述公开文本的字词数据库,其中,所述字词数据库包括以下至少之一:编号、词频、拼音;将所述分词结果的多音字拆解成多个拼音,构建所述公开文本的拼音数据库;确定每个拼音的近似拼音,构建所述公开文本的近似拼音数据库。可选地,在将所述分词结果的多音字拆解成多个拼音,构建所述公开文本的拼音数据库之后,还包括:构建拼音数据库中的拼音与字词序列的映射关系。可选地,所述公开文本为负样本,获取公开文本的样本字典编码包括:获取待替换字词;基于所述字词数据库确定所述待替换字词的拼音;基于所述近似拼音数据库确定所述待替换字词的近似拼音;基于映射关系确定所述待替换字词的拼音对应的同音字词,以及所述待替换字词的近似拼音对应的近似字词。按照所述同音字词和所述近似字词的词频对应的概率,得到替换字词,其中,所述替换字词用于替换所述待替换字词,生成负样本。根据本专利技术实施例的另一方面,还提供了一种文本的校验装置,包括:第一获取模块,用于获取公开文本的样本字典编码;训练模块,用于构建模型进行训练,其中,所述模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:不同的样本字典编码和所述样本字典编码对应的序列标注标签和任务编码标签;第二获取模块,用于获取待检测文本的字典编码;得到模块,用于将所述字典编码输入所述模型,得到所述待检测文本的序列标注标签和任务编码标签。可选地,所述公开文本为正样本,第一获取模块包括:收集单元,用于收集公开文本;分词单元,用于对所述公开文本进行分词处理,得到分词结果;生成单元,用于根据所述分词结果生成样本字典编码。可选地,在对所述公开文本进行分词处理,得到分词结果之后,还包括:第一构建单元,用于根据所述分词结果,构建所述公开文本的字词数据库,其中,所述字词数据库包括以下至少之一:编号、词频、拼音;第二构建单元,用于将所述分词结果的多音字拆解成多个拼音,构建所述公开文本的拼音数据库;第三构建单元,用于确定每个拼音的近似拼音,构建所述公开文本的近似拼音数据库。根据本专利技术实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的文本的校验方法。根据本专利技术实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的文本的校验方法。在本专利技术实施例中,采用获取公开文本的样本字典编码;构建模型进行训练,其中,所述模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:不同的样本字典编码和所述样本字典编码对应的序列标注标签和任务编码标签;获取待检测文本的字典编码;将所述字典编码输入所述模型,得到所述待检测文本的序列标注标签和任务编码标签的方式,通过训练得到的模型用于待检测文本的字典编码,识别出该待检测文本的序列标注标签和任务编码标签,达到了同时识别句子错误位置,并生成正确句子作为修改方案的目的,从而实现了更加准确、高效校验文本的技术效果,进而解决了现有技术中无法有效校验文本的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的文本的校验方法的流程图;图2是根据本专利技术实施例的文本的校验装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种文本的校验方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行本文档来自技高网...
【技术保护点】
1.一种文本的校验方法,其特征在于,包括:/n获取公开文本的样本字典编码;/n构建模型进行训练,其中,所述模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:不同的样本字典编码和所述样本字典编码对应的序列标注标签和任务编码标签;/n获取待检测文本的字典编码;/n将所述字典编码输入所述模型,得到所述待检测文本的序列标注标签和任务编码标签。/n
【技术特征摘要】
1.一种文本的校验方法,其特征在于,包括:
获取公开文本的样本字典编码;
构建模型进行训练,其中,所述模型为使用多组数据通过机器学习训练得出的,所述多组数据中的每组数据均包括:不同的样本字典编码和所述样本字典编码对应的序列标注标签和任务编码标签;
获取待检测文本的字典编码;
将所述字典编码输入所述模型,得到所述待检测文本的序列标注标签和任务编码标签。
2.根据权利要求1所述的方法,其特征在于,所述公开文本为正样本,获取公开文本的样本字典编码包括:
收集公开文本;
对所述公开文本进行分词处理,得到分词结果;
根据所述分词结果生成样本字典编码。
3.根据权利要求2所述的方法,其特征在于,在对所述公开文本进行分词处理,得到分词结果之后,还包括:
根据所述分词结果,构建所述公开文本的字词数据库,其中,所述字词数据库包括以下至少之一:编号、词频、拼音;
将所述分词结果的多音字拆解成多个拼音,构建所述公开文本的拼音数据库;
确定每个拼音的近似拼音,构建所述公开文本的近似拼音数据库。
4.根据权利要求3所述的方法,其特征在于,在将所述分词结果的多音字拆解成多个拼音,构建所述公开文本的拼音数据库之后,还包括:
构建拼音数据库中的拼音与字词序列的映射关系。
5.根据权利要求4中所述的方法,其特征在于,所述公开文本为负样本,获取公开文本的样本字典编码包括:
获取待替换字词;
基于所述字词数据库确定所述待替换字词的拼音;
基于所述近似拼音数据库确定所述待替换字词的近似拼音;
基于映射关系确定所述待替换字词的拼音对应的同音字词,以及所述待替换字词的近似拼音对应的近似字词;
按照所述同音字词和所...
【专利技术属性】
技术研发人员:彭翔,贠瑞峰,张炎红,刘粉香,
申请(专利权)人:智慧神州北京科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。