一种文本检测方法、装置、设备及存储介质制造方法及图纸

技术编号:28942859 阅读:12 留言:0更新日期:2021-06-18 21:50
本公开提供了文本检测方法、装置、设备、存储介质以及产品,涉及计算机技术领域,尤其涉及人工智能技术及自然语言处理技术领域。具体实现方案为:获取待测文本;对待测文本进行预设错误类型的信息检测,得到第一检测结果;对待测文本进行预设实体类型的实体命名检测,得到第二检测结果;根据第一检测结果和第二检测结果确定待测文本的检测结果。根据本公开的技术方案,能提高文本检测结果的准确性。

【技术实现步骤摘要】
一种文本检测方法、装置、设备及存储介质
本公开涉及计算机
,尤其涉及人工智能技术及自然语言处理

技术介绍
优质的语言文字描述,使信息表达更清楚,人们理解起来更轻松。低质不通顺的语言文字描述,使信息传输存在不完整,有歧义,难理解等问题。相关文本检测方法中,对文本是否通顺的检测准确率低,因此,如何提升检测准确率成为亟待解决的问题。
技术实现思路
本公开提供了一种文本检测方法、装置、设备、存储介质以及产品。根据本公开的一方面,提供了一种文本检测方法,包括:获取待测文本;对该待测文本进行预设错误类型的信息检测,得到第一检测结果;对该待测文本进行预设实体类型的实体命名检测,得到第二检测结果;根据该第一检测结果和该第二检测结果确定该待测文本的检测结果。根据本公开的另一方面,提供了一种文本检测装置,包括:第一获取单元,用于获取待测文本;第一检测单元,用于对该待测文本进行预设错误类型的信息检测,得到第一检测结果;第二检测单元,用于对该待测文本进行预设实体类型的实体命名检测,得到第二检测结果;确定单元,用于根据该第一检测结果和该第二检测结果确定该待测文本的检测结果。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与该至少一个处理器通信连接的存储器;其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例中的方法。根据本公开的技术方案,能提高文本检测结果的准确性。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是根据本公开实施例的文本检测方法的流程示意图一;图2是根据本公开实施例的文本检测方法的流程示意图二;图3是根据本公开实施例的文本检测方法的流程示意图三;图4是根据本公开实施例的由正常文本构造第一训练样本的示意图;图5是根据本公开实施例的文本检测方法的流程示意图四;图6是根据本公开实施例的产品线调整示意图;图7是根据本公开实施例的文本检测方法的流程示意图五;图8是根据本公开实施例的进行文本检测的示意图;图9是根据本公开实施例的文本检测装置的组成结构示意图一;图10是根据本公开实施例的文本检测装置的组成结构示意图二;图11是用来实现本公开实施例的文本检测方法的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本公开的说明书实施例和权利要求书及上述附图中的术语"第一"、"第二"、和"第三"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语"包括"和"具有"以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本公开提供一种文本检测方法,该方法可以应用于电子设备,该电子设备包括但不限于固定设备和/或移动设备。例如,固定设备包括但不限于服务器,服务器可以是云服务器或普通服务器。例如,移动设备包括但不限于手机或平板电脑中的一项或是多项。如图1所示,该方法包括:步骤S101,获取待测文本;步骤S102,对该待测文本进行预设错误类型的信息检测,得到第一检测结果;步骤S103,对该待测文本进行预设实体类型的实体命名检测,得到第二检测结果;步骤S104,根据该第一检测结果和该第二检测结果确定该待测文本的检测结果。其中,该待测文本是待检测的文本。例如,该待测文本可以是一句话。又例如,该待测文本可以是一段话。再例如,该待测文本可以是一篇文章。其中,本公开不对该待测文本的获取方式进行限定。示例性地,电子设备通过对外接口接收该待测文本。又示例性地,电子设备接收其他设备转发的该待测文本。本公开不对该待测文本的来源进行限定。比如,该待测文本可以由人工编辑生成,或者由机器翻译得到。其中,预设错误类型包括下述中的一种或几种错误类型:少字,多字,错别字,乱排列。其中,错别字包括但不限于下述子类型:同形错别字,同音错别字,随机错别字。示例性地,今天星期五->令天星五,“星五”属于少字错误类型。示例性地,今天星期五->令天你星期五,“你”属于多字错误类型。示例性地,今天->令天,“令”属于同形错别字错误类型。示例性地,天气->天汽,“汽”属于同音错别字错误类型。示例性地,你很美->你很啊美,“啊”属于随机错别字错误类型。示例性地,天气好->天好气,“好气”属于乱排列错误类型。其中,本公开不对少字情况下具体少的字的数量进行限定。其中,本公开不对多字情况下具体多出的字的数量进行限定。其中,本公开不对乱排列情况下具体排列顺序进行限定。其中,本公开不对预设错误类型的种类和数量进行限定。预设错误类型的种类和数量可根据设计需求或用户需求进行设定或调整。其中,预设实体类型包括下述中的一种或几种实体类型:人名,地名,汽车名,品牌,缩略词,网络热词。其中,缩略词是指有的缩略形式形成了紧密结构,凝固成为一个能自由运用的语言单位,叫做缩略词。示例性,肌肤问题的缩略词为“肌题”。其中,网络热词是流传于网络的被赋予特定时代和语言环境意义的使用频率较高的词汇。示例性地,“耗子尾汁”是2021年流行的一个网络热词。其中,第一检测结果是指对该待测文本是否包括符合预设错误类型的信息的检测结果。示例性地,该第一检测结果包括该待测文本是否包括符合预设错误类型的第一类信息的检测结果,以及在包括第一类信息的情况下第一类信息的标签及位置。其中,第一类信息是符合预设错误类型的信息。示例性地,第一类信息的标签是其所属的预设错误类型的标签。第一类信息的位置是指该第一类信息在该待测文本中出现的位置。其中,不同预设错误类型的信息,对应的标签不同。示例性地,少字错误类型对应标签1,多字错误类型对应标签2,错本文档来自技高网...

【技术保护点】
1.一种文本检测方法,包括:/n获取待测文本;/n对所述待测文本进行预设错误类型的信息检测,得到第一检测结果;/n对所述待测文本进行预设实体类型的实体命名检测,得到第二检测结果;/n根据所述第一检测结果和所述第二检测结果确定所述待测文本的检测结果。/n

【技术特征摘要】
1.一种文本检测方法,包括:
获取待测文本;
对所述待测文本进行预设错误类型的信息检测,得到第一检测结果;
对所述待测文本进行预设实体类型的实体命名检测,得到第二检测结果;
根据所述第一检测结果和所述第二检测结果确定所述待测文本的检测结果。


2.根据权利要求1所述的方法,其中,所述方法还包括:
获取第一识别模型,其中,所述第一识别模型是基于第一训练样本对第一预设模型进行训练后所得到的,用于进行所述预设错误类型的信息检测;
其中,所述对所述待测文本进行预设错误类型的信息检测,得到第一检测结果,包括:
将所述待测文本输入所述第一识别模型,得到所述第一识别模型输出的所述第一检测结果,所述第一检测结果包括所述待测文本中是否存在属于所述预设错误类型的第一类信息以及在存在所述第一类信息的情况下所述第一类信息对应的第一类标签及其位置。


3.根据权利要求2所述的方法,其中,所述方法还包括:
获取正常样本文本;
基于所述正常样本文本构造数据,得到第一训练样本;
其中,所述基于所述正常样本文本构造数据,包括下述至少之一:
基于所述正常样本文本构造少字数据;
基于所述正常样本文本构造多字数据;
基于所述正常样本文本构造同音或同形或随机错别字数据;
基于所述正常样本文本构造乱排列数据。


4.根据权利要求2所述的方法,其中,所述方法还包括:
获取所述第一识别模型上线后的运行日志;
基于所述运行日志确定第二训练样本;
基于所述第二训练样本训练所述第一识别模型。


5.根据权利要求1所述的方法,其中,所述方法还包括:
获取第二识别模型,其中,所述第二识别模型是基于第三训练样本对第二预设模型进行训练后所得到的,用于进行所述预设实体类型的实体命名检测;
其中,所述对所述待测文本进行预设实体类型的实体命名检测,得到第二检测结果,包括:
将所述待测文本输入所述第二识别模型,得到所述第二识别模型输出的所述第二检测结果,所述第二检测结果包括所述待测文本中是否存在属于所述预设实体类型的实体命名以及在存在所述实体命名的情况下所述实体命名对应的第二类标签及其位置。


6.根据权利要求1所述的方法,其中,所述检测结果包括所述待测文本是否为正常文本;所述根据所述第一检测结果和所述第二检测结果确定所述待测文本的检测结果,包括:
在所述第一检测结果表征所述待测文本不包括第一类信息的情况下,确定所述待测文本属于正常文本;
在所述第一检测结果表征所述待测文本包括所述第一类信息的情况下,结合所述第二检测结果确定所述待测文本的检测结果。


7.根据权利要求6所述的方法,其中,所述在所述第一检测结果表征所述待测文本包括所述第一类信息的情况下,结合所述第二检测结果确定所述待测文本的检测结果,包括:
在所述第一检测结果表征所述待测文本包括所述第一类信息,且在所述第二检测结果表征所述待测文本中所述第一类信息的位置涉及所述实体命名的情况下,确定所述待测文本属于正常文本;
在所述第一检测结果表征所述待测文本包括所述第一类信息,且在所述第二检测结果表征所述待测文本中所述第一类信息的位置不涉及所述实体命名的情况下,确定所述待测文本属于非正常文本。


8.根据权利要求1所述的方法,其中,所述第一检测结果包括第一预测准确率;所述第二检测结果包括第二预测准确率;所述检测结果包括所述待测文本是否为正常文本;所述根据所述第一检测结果和所述第二检测结果确定所述待测文本的检测结果,包括:
在所述第一检测结果的所述第一预测准确率小于第一阈值的情况下,确定所述待测文本属于正常文本;
在所述第一检测结果的所述第一预测准确率大于或等于所述第一阈值,且所述第二检测结果的所述第二预测准确率小于第二阈值的情况下,确定所述待测文本属于非正常文本;
在所述第一检测结果的所述第一预测准确率大于或等于所述第一阈值,且所述第二检测结果的所述第二预测准确率大于或等于所述第二阈值的情况下,若所述第二检测结果中所述实体命名对应的位置包含第一类信息的位置,则确定所述待测文本属于正常文本;若所述第二检测结果中所述实体命名对应的位置不包含所述第一类信息的位置,则确定所述待测文本属于非正常文本。


9.一种文本检测装置,包括:
第一获取单元,用于获取待测文本;
第一检测单元,用于对所述待测文本进行预设错误类型的信息检测,得到第一检测结果;
第二检测单元,用于对所述待...

【专利技术属性】
技术研发人员:刘兴旺
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1