文本审核方法、装置、设备及存储介质制造方法及图纸

技术编号:28142843 阅读:13 留言:0更新日期:2021-04-21 19:22
本发明专利技术涉及人工智能技术领域,公开了一种文本审核方法、装置、计算机设备及计算机可读存储介质,该方法包括:通过将获取到的待审核文本,输入到文本审核模型中;基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;基于所述长短期记忆网络,得到各个所述字词的的上下文语义特征向量信息;通过预置全连接层,得到各个所述字词的多个标签信息;基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;基于各个所述字词的审核标签信息,确定所述待审核文本是否违规,实现对于文本不同语义结合上下文语境判断文本,提高文本审核的准确率。境判断文本,提高文本审核的准确率。境判断文本,提高文本审核的准确率。

【技术实现步骤摘要】
文本审核方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种文本审核方法、装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]文本审核就是审核文本中的违规信息,包括政治敏感、色情、辱骂等。目前常见的做法是通过深度学习网络模型对文本进行审核,但通过深度学习网络模型无法审核出不同文本中相同的字词在不同上下文语境中不同语义的问题,且审核的准确率较低。

技术实现思路

[0003]本申请的主要目的在于提供一种文本审核方法、装置、计算机设备及计算机可读存储介质,旨在解决现有深度学习网络模型无法审核出不同文本中相同的字词在不同上下文语境中不同语义的问题,且审核的准确率较低的技术问题。
[0004]第一方面,本申请提供一种文本审核方法,所述文本审核方法包括以下步骤:
[0005]获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;
[0006]基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;
[0007]基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;
[0008]通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;
[0009]基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息
[0010]基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。
[0011]第二方面,本申请还提供一种文本审核装置,所述文本审核装置包括:
[0012]第一获取模块,用于获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;
[0013]第二获取模块,用于基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;
[0014]第三获取模块,用于基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;
[0015]第四获取模块,用于通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;
[0016]第五获取模块,用于基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;
[0017]确定模块,用于基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。
[0018]第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的文本审核方法的步骤。
[0019]第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的文本审核方法的步骤。
[0020]本申请提供一种文本审核方法、装置、计算机设备及计算机可读存储介质,通过获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;基于各个所述字词的审核标签信息,确定所述待审核文本是否违规,实现对于文本不同语义结合上下文语境判断文本,提高文本审核的准确率。
附图说明
[0021]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本申请实施例提供的一种文本审核方法的流程示意图;
[0023]图2为图1中的文本审核方法的子步骤流程示意图;
[0024]图3为图1中的文本审核方法的子步骤流程示意图;
[0025]图4为本申请实施例提供的另一种文本审核方法的流程示意图;
[0026]图5为本申请实施例提供的一种文本审核装置的示意性框图;
[0027]图6为本申请一实施例涉及的计算机设备的结构示意框图。
[0028]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0031]本申请实施例提供一种文本审核方法、装置、计算机设备及计算机可读存储介质。其中,该文本审核方法可应用于计算机设备中,该计算机设备可以是笔记本电脑、台式电脑等电子设备。
[0032]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0033]请参照图1,图1为本申请的实施例提供的一种文本审核方法的流程示意图。
[0034]如图1所示,该文本审核方法包括步骤S101至步骤S106。
[0035]步骤S101、获取待审核文本,并将所述待审核文本输入到文本审核模型中。
[0036]示范性的,获取待审核文本,该待审核文本包括短句或短文本等。在获取到该待审核文本时,将该待审核文本输入到预置文本审核模型中,该文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场。
[0037]步骤S102、基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息。
[0038]示范性的,在得到待审核文本时,将待审核文本中每个字词用预训练的字词特征向量信息转换,得到对应各个字词的第一字词向量信息,其中第一字词向量信息包括待审核文本中每个字词的语义向量信息、位置向量信息、分段表示的加和向量信息。示范性的,该预训练的单词特征向量信息转换为将待审核文本表示成一系列能够表达字词语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本审核方法,其特征在于,包括:获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。2.如权利要求1所述的文本审核方法,其特征在于,所述预训练语言模型包括字典文件和自注意力网络机制;所述基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息,还包括:通过所述字典对所述待审核文本对进行字词切分,得到所述待审核文本中各个字词;将各个所述字词进行特征向量转换,得到各个所述字词对应的字词向量信息;将各个所述字词向量信息输入所述自注意力网络机制,得到各个所述字词向量信息的各个语义空间的字词语义向量信息;通过所述各个语义空间的字词语义向量信息,获取所述自注意力网络模型输出的各个所述字词的字词语义特征向量信息。3.如权利要求1所述的文本审核方法,其特征在于,所述长短期记忆网络包括输入门、遗忘门和输出门;所述基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息,包括:基于所述输入门和各个所述字词的字词语义特征向量信息,得到对应的第一向量信息和第一单元状态信息;基于所述遗忘门和各个所述字词的字词语义特征向量信息,得到对应的第二向量信息;通过第一预置单元状态信息、所述第一向量信息、第一单元状态信息和所述第二向量信息,得到第二单元状态信息;基于所述输出门、各个所述字词的字词语义特征向量信息以及所述第二单元状态信息,得到各个所述字词的上下文语义特征向量信息。4.如权利要求1所述的文本审核方法,其特征在于,所述基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息,包括:通过所述条件随机场中的关联学习机制,获取各个所述字词的各个标签信息的概率;基于各个所述标签信息的概率,确定各个所述字词的审核标签信息。...

【专利技术属性】
技术研发人员:刘建立
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1