一种文本审核的方法、训练文本审核模型的方法及装置制造方法及图纸

技术编号:34961453 阅读:28 留言:0更新日期:2022-09-17 12:41
本申请提供一种文本审核的方法、训练文本审核模型的方法及装置,该方法包括,将目标领域中的待审核文本输入文本审核模型中,得到待审核文本对应的模型审核结果;根据模型审核结果,确定待审核文本的语句流畅度审核结果。通过该方法可以达到准确的对文本进行语句流畅度审核的效果。度审核的效果。度审核的效果。

【技术实现步骤摘要】
一种文本审核的方法、训练文本审核模型的方法及装置


[0001]本申请涉及文本审核的领域,具体而言,涉及一种文本审核的方法、训练文本审核模型的方法及装置。

技术介绍

[0002]目前,随着人工智能技术的大力发展,特别是随着自然语言处理技术的不断发展,文档的审核和纠错准确度越来越高,智能化的文档审核机器人的需求也越来越大。
[0003]现有的文档审核机器人大都单一的处理文档格式、字体等表面问题,对设计错别字或者深入语义理解部分处理能力相对薄弱,导致文本审核的结果不全面、不准确。
[0004]因此,如何准确的对文本进行语句流畅度审核,是一个需要解决的技术问题。

技术实现思路

[0005]本申请实施例的目的在于提供一种文本审核的方法和训练文本审核模型的方法,通过本申请的实施例的技术方案可以达到准确的对文本进行语句流畅度审核的效果。
[0006]第一方面,本申请实施例提供了一种文本审核的方法,包括,将目标领域中的待审核文本输入文本审核模型中,得到待审核文本对应的模型审核结果,其中,文本审核模型是通过目标领域中待审核文本对应的细粒度领域的非监督标准文本数据对基础文本审核模型进行训练得到的,基础文本审核模型是通过目标领域的非监督文本数据和通用领域的非监督文本数据共同对基础模型进行训练得到的,基础模型是通过数据库中的非监督标准文本数据对初始模型进行训练得到的;根据模型审核结果,确定待审核文本的语句流畅度审核结果。
[0007]在上述过程中,通过目标领域中的文本数据对基础模型进行训练得到基础文本审核模型和目标领域中待审核文本所属的更细粒度的领域中的文本数据对基础文本审核模型进行训练得到文本审核模型,可以实现更细粒度的领域模型的快速训练,并且可以针对不同细粒度的领域中对待审核文本进行审核时,可以达到准确的对文本进行语句流畅度审核的效果。
[0008]一种实施例中,根据模型审核结果,确定待审核文本的语句流畅度审核结果,包括:
[0009]基于模型审核结果,确定语句流畅度审核结果;
[0010]或者
[0011]利用斯坦福句法分析器将待审核文本和标准文本进行对比,得到待审核文本对应的句法分析结果;
[0012]基于句法分析结果和模型审核结果,确定语句流畅度审核结果。
[0013]在上述过程中,通过对句法分析器对待审核文本进行审核得到的审核结果和模型对待审核我呢本进行审核得到的审核结果进行处理,使最终得到的语句流畅度审核结果更具说服力。
[0014]一种实施例中,所述方法还包括对待审核文本执行以下审核动作中的至少一种:
[0015]对待审核文本的格式进行审核、对待审核文本的关键信息进行审核和对待审核文本进行错别字审核。
[0016]在上述过程中,除了对待审核文本进行语句流畅度审核之外,还可以对待审核文本进行格式的审核、关键信息的审核和错别字的审核,可以达到对待审核文本进行全方面的审核。
[0017]一种实施例中,对待审核文本的格式进行审核,包括:
[0018]确定是否需要自动修正待审核文本的格式;
[0019]将待审核文本中的格式和目标格式进行对比,得到对比结果;
[0020]在需要自动修正待审核文本的格式的情况下,基于对比结果,对待审核文本的格式进行修正。
[0021]在上述过程中,通过设定的目标格式和待审核文本的格式进行对比,可以准确的识别出待审核文本的错误格式,并在需要自动修正的情况下,完成对待审核文本的错误格式进行自动修正。
[0022]一种实施例中,对待审核文本的关键信息进行审核,包括:
[0023]将待审核文本的待审核关键信息和关键信息库中的关键信息进行对比,得到第二对比结果;
[0024]或者
[0025]基于预设的抽取模板,抽取待审核文本中的关键信息,并对关键信息进行审核。
[0026]在上述过程中,可以通过关键信息库中的关键信息完成对待审核文本的关键信息审核,也可以设定抽取模板对待审核文本抽取模板中的关键信息并完成关键信息的审核。上述方法可以对用户需求的内容进行针对性的审核,并且可以达到准确审核的效果。
[0027]一种实施例中,对待审核文本进行错别字审核,包括:
[0028]使用目标领域的文本样本和通用领域的文本样本对现有的错别字审核模型进行训练,得到领域错别字审核模型;
[0029]将待审核文本输入领域错别字审核文本,得到错别字审核结果。
[0030]在上述过程中,通过领域中的一些文本数据对现有的错别字审核模型进行训练,可以使模型在审核不同领域中的待审核文本时得到的审核结果更准确。
[0031]第二方面,本申请实施例提供了一种训练文本审核模型的方法,包括,通过数据库中的非监督标准文本数据对初始模型进行训练,得到基础模型;通过目标领域的非监督文本数据和通用领域的非监督文本数据共同对基础模型进行训练,得到基础文本审核模型;通过目标领域中待审核文本对应的细粒度领域的非监督标准文本数据对基础文本审核模型进行训练,得到文本审核模型。
[0032]在上述过程中,通过目标领域中的文本数据对基础模型进行训练得到基础文本审核模型和目标领域中待审核文本所属的更细粒度的领域中的文本数据对基础文本审核模型进行训练得到文本审核模型,可以实现更细粒度的领域模型的快速训练,并且可以针对不同细粒度的领域中对待审核文本进行审核时,可以达到准确的对待审核文本进行审核的效果。
[0033]第三方面,本申请实施例提供了一种文本审核的装置,包括:
[0034]审核模块,用于将目标领域中的待审核文本输入文本审核模型中,得到待审核文本对应的模型审核结果,其中,文本审核模型是通过目标领域中待审核文本对应的细粒度领域的非监督标准文本数据对基础文本审核模型进行训练得到的,基础文本审核模型是通过目标领域的非监督文本数据和通用领域的非监督文本数据共同对基础模型进行训练得到的,基础模型是通过数据库中的非监督标准文本数据对初始模型进行训练得到的;
[0035]确定模块,用于根据模型审核结果,确定待审核文本的语句流畅度审核结果。
[0036]可选的,确定模块具体用于:
[0037]基于模型审核结果,确定语句流畅度审核结果;
[0038]或者
[0039]利用斯坦福句法分析器将待审核文本和标准文本进行对比,得到待审核文本对应的句法分析结果;
[0040]基于句法分析结果和模型审核结果,确定语句流畅度审核结果。
[0041]可选的,所述装置还包括以下审核模块中的至少一种:
[0042]格式审核模块,用于对待审核文本的格式进行审核、关键信息审核模块,用于对待审核文本的关键信息进行审核和错别字审核模块,用于对待审核文本进行错别字审核。
[0043]可选的,所述格式审核模块具体用于:
[0044]确定是否需要自动修正待审核文本的格式;
[0045]将待审核文本中的格式和目标格式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本审核的方法,其特征在于,包括:将目标领域中的待审核文本输入文本审核模型中,得到所述待审核文本对应的模型审核结果,其中,所述文本审核模型是通过所述目标领域中所述待审核文本对应的细粒度领域的非监督标准文本数据对基础文本审核模型进行训练得到的,所述基础文本审核模型是通过所述目标领域的非监督文本数据和通用领域的非监督文本数据共同对基础模型进行训练得到的,所述基础模型是通过数据库中的非监督标准文本数据对初始模型进行训练得到的;根据所述模型审核结果,确定所述待审核文本的语句流畅度审核结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述模型审核结果,确定所述待审核文本的语句流畅度审核结果,包括:基于所述模型审核结果,确定所述语句流畅度审核结果;或者利用斯坦福句法分析器将所述待审核文本和标准文本进行对比,得到所述待审核文本对应的句法分析结果;基于所述句法分析结果和所述模型审核结果,确定所述语句流畅度审核结果。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括对所述待审核文本执行以下审核动作中的至少一种:对所述待审核文本的格式进行审核、对所述待审核文本的关键信息进行审核和对所述待审核文本进行错别字审核。4.根据权利要求1或2所述的方法,其特征在于,所述对所述待审核文本的格式进行审核,包括:确定是否需要自动修正所述待审核文本的格式;将所述待审核文本中的格式和目标格式进行对比,得到对比结果;在需要自动修正所述待审核文本的格式的情况下,基于所述对比结果,对所述待审核文本的格式进行修正。5.根据权利要求1或2所述的方法,其特征在于,所述对所述待审核文本的关键信息进行审核,包括:将待审核文本的待审核关键信息和关键信息库中的关键信息进行对比,得到第二对比结果;或者基于预设的抽取模板,抽取所述待审核文本中的关键信息,并对所述关键信息进行审核。6.根据权利要求1或2所述的方法,其特征在于,所述对所述待审核文本进行错别字审核,...

【专利技术属性】
技术研发人员:蔡岩松杜新凯邓钊牛国扬李亚楠
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1