敏感内容识别模型的训练方法、文本识别方法及相关装置制造方法及图纸

技术编号:29673533 阅读:10 留言:0更新日期:2021-08-13 21:55
本发明专利技术提供了一种敏感内容识别模型的训练方法,包括:获取多个用户文本以及多个用户账号;基于所述多个用户账号以及各个用户账号之间的关联关系,构建知识图谱,所述知识图谱包括多个节点;根据所述多个节点获取多个账号特征向量;提取所述多个用户文本的多个文本特征向量;将每个用户账号特征向量和对应的一个或多个文本特征向量拼接,以得到多个融合特征向量;及将所述多个融合特征向量作为多组训练样本,将每组训练样本分别输入待训练的分类模型中,对所述待训练的分类模型进行训练,以得到所述敏感内容识别模型。本发明专利技术将用户文本和用户账号进行特征融合,通过融合后的特征训练和使用敏感内容的识别,提高了识别准确率和训练效率。

【技术实现步骤摘要】
敏感内容识别模型的训练方法、文本识别方法及相关装置
本专利技术涉及人工智能领域,尤其涉及敏感内容识别模型的训练方法、文本识别方法及相关装置。
技术介绍
现有的敏感内容识别模型通常采用有监督的机器学习方案,比如基于CNN模型的文本分类器;而文本分类器对敏感内容的识别能力取决于标注样本的信息量;只是依赖于内容本身的信息量并不足以训练出好的文本分类器,导致现有的文本分类器并不能正确识别没有在标注样本中出现的敏感信息文本类别。现有的训练模型如ELMO(EmbeddingsLanguageModels,嵌入语言模型)尺寸巨大,巨大的模型尺寸使得应用预训练模型进行文本处理的方法需要大量的时间,难以应用于实际场景,因此,找到一种准确高效且便于应用的文本训练方法十分重要。
技术实现思路
本专利技术的目的是提供一种敏感内容识别模型的训练方法、文本识别方法、计算机设备及计算机可读存储介质,用于解决以下问题:现有技术不能正确识别没有在标注样本中出现的敏感信息文本类别。本专利技术实施例的第一方面提供了敏感内容识别模型的训练方法,包括:获取多个用户文本以及多个用户账号;每个用户文本为敏感内容文本或非敏感内容文本,每个所述用户文本分别关联一个所述用户账号;基于所述多个用户账号以及各个用户账号之间的关联关系,构建知识图谱;所述知识图谱包括多个节点,每个节点对应于所述多个用户账号中的一个用户账号;根据所述多个节点获取多个账号特征向量,每个账号特征向量对应于所述多个节点中的一个节点;提取所述多个用户文本的多个文本特征向量,每个所述文本特征向量对应于一个用户文本;将每个用户账号特征向量和对应的一个或多个文本特征向量拼接,以得到多个融合特征向量;及将所述多个融合特征向量作为多组训练样本,将每组训练样本分别输入待训练的分类模型中,以对所述待训练的分类模型进行训练,以得到所述敏感内容识别模型。可选地,所述基于所述多个用户账号以及各个用户账号之间的关联关系,构建知识图谱的步骤,包括:获取所述多个用户账号中的各个用户账号的账号信息,以得到多个用户账号信息;基于所述多个用户账号信息获取多组关联账号;其中所述用户账号信息包括相应用户账号的注册登录信息,每组关联账号包括具有相同的至少一个用户账号信息的两个用户账号;及根据多组关联账号构建知识图谱;每个用户账号分别对应所述知识图谱中的一个节点,每组关联账号的两个用户账号之间的相同用户账号信息用于构建相应的两个节点之间的边。可选地,所述根据所述多个节点获取多个账号特征向量的步骤,包括:将所述知识图谱上的多组关联账号相应的多个节点和多条边嵌入到目标函数中,通过所述目标函数计算出与所述多个节点对应的多个账号特征向量,其中所述目标函数为:其中,Eij表示边的权值;φ(ui)、φ(uj)分别表示第i个节点vi,第j个节点vj;φ'(uj)表示节点vj的相邻节点,ui、uj分别表示节点vi、节点vj的账号特征向量表示。可选地,所述提取所述多个用户文本的多个文本特征向量,每个所述文本特征向量对应于一个用户文本的步骤,包括:对所述多个用户文本预处理,获取多个向量矩阵;将所述多个向量矩阵输入到卷积神经网络,以得到对应于所述多个向量矩阵的多个文本特征向量,所述每个向量矩阵对应于所述多个文本特征向量中的一个文本特征向量。可选地,所述对所述多个用户文本预处理,获取多个向量矩阵的步骤,包括:对多个用户文本中的每个句子进行分词处理,以得到各个用户文本的分词集合;对每个分词集合内的各个词编码,以将所述每个分词集合内的各个词转化为对应的词向量;以每个用户文本的句子为单位,获取每个句子的向量矩阵;该向量矩阵根据相应句子的多个词对应的多个词向量构建而成,所述向量矩阵的每一行对应于一个词向量。本专利技术实施例的一个方面又提供了一种文本识别方法,包括:确定待处理的目标用户文本;根据所述目标用户文本,提取所述目标用户文本的文本特征向量;搜索与所述目标用户文本关联的目标用户账号;根据所述目标用户账号,获取对应于所述目标用户账号的账号特征向量;将所述账号特征向量和所述文本特征向量拼接,以得到融合特征向量;将所述融合特征向量输入到训练好的敏感内容识别模型中,以通过所述敏感内容识别模型输出所述目标用户文本的文本类型,所述文本类型为敏感内容文本或非敏感内容文本,所述敏感内容识别模型为通过上述敏感内容识别模型的训练方法训练得到的模型。可选地,所述敏感内容识别模型包括多个分类器,所述将所述融合特征向量输入到训练好的敏感内容识别模型中,以通过所述敏感内容识别模型输出所述目标用户文本的目标文本类型的步骤,包括:将所述融合特征向量输入到所述多个分类器中的各个分类器中,以得到多个文本类型;其中,所述多个文本类型一一对应所述多个分类器的多个输出结果;根据所述多个文本类型,将数量占比大于预设阈值的文本类型确定为所述目标文本类型。本专利技术实施例的一个方面又提供了一种敏感内容识别模型的训练系统,包括:获取模块,用于获取多个用户文本以及多个用户账号;每个用户文本为敏感内容文本或非敏感内容文本,每个所述用户文本分别关联一个所述用户账号;图谱构建模块,用于基于所述多个用户账号以及各个用户账号之间的关联关系,构建知识图谱;其中,所述知识图谱包括多个节点,每个节点对应于所述多个用户账号中的一个用户账号;转换模块,用于根据所述多个节点获取多个账号特征向量,每个账号特征向量对应于所述多个节点中的一个节点;提取模块,用于提取所述多个用户文本的多个文本特征向量,每个所述文本特征向量对应于一个用户文本;向量拼接模块,用于将每个用户账号特征向量和对应的一个或多个文本特征向量拼接,以得到多个融合特征向量;训练模块,用于将所述多个融合特征向量作为多组训练样本,将每组训练样本分别输入待训练的分类模型中,对所述待训练的分类模型进行训练,以得到所述敏感内容识别模型。本专利技术实施例的一个方面又提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的敏感内容识别模型的训练方法或文本识别方法的步骤。本专利技术实施例的一个方面又提供了一种计算机可读存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的敏感内容识别模型的训练方法或文本识别方法的步骤。本专利技术实施例提供敏感内容识别模型的训练方法、文本识别方法,通过分析账号与文本的关联性,以此确定本实施例的训练样本,发布敏感内容文本的用户通常会注册多个账号,用户通过其中一个账号发布的敏感信息被限制行为后;通常会在同一台设备或/和同一个网关或/和同一个IP地址或/和同一个时间段,通过其他账号再次发送敏感内容文本,通过这一特性本实施例结合了用户文本以及关联账号两种不同类型的特征通过向量融合后对分类器进行训练,相比于只通过文本信息对分类器进行训练,本实施例的分类器训练时增加了一种关联标签(即用户文本对应的用户账号),本文档来自技高网...

【技术保护点】
1.一种敏感内容识别模型的训练方法,其特征在于,所述训练方法包括:/n获取多个用户文本以及多个用户账号;每个用户文本为敏感内容文本或非敏感内容文本每个所述用户文本分别关联一个所述用户账号;/n基于所述多个用户账号以及各个用户账号之间的关联关系,构建知识图谱;其中,所述知识图谱包括多个节点,每个节点对应于所述多个用户账号中的一个用户账号;/n根据所述多个节点获取多个账号特征向量,每个账号特征向量对应于所述多个节点中的一个节点;/n提取所述多个用户文本的多个文本特征向量,每个所述文本特征向量对应于一个用户文本;/n将每个用户账号特征向量和对应的一个或多个文本特征向量拼接,以得到多个融合特征向量;及/n将所述多个融合特征向量作为多组训练样本,将每组训练样本分别输入待训练的分类模型中,对所述待训练的分类模型进行训练,以得到所述敏感内容识别模型。/n

【技术特征摘要】
1.一种敏感内容识别模型的训练方法,其特征在于,所述训练方法包括:
获取多个用户文本以及多个用户账号;每个用户文本为敏感内容文本或非敏感内容文本每个所述用户文本分别关联一个所述用户账号;
基于所述多个用户账号以及各个用户账号之间的关联关系,构建知识图谱;其中,所述知识图谱包括多个节点,每个节点对应于所述多个用户账号中的一个用户账号;
根据所述多个节点获取多个账号特征向量,每个账号特征向量对应于所述多个节点中的一个节点;
提取所述多个用户文本的多个文本特征向量,每个所述文本特征向量对应于一个用户文本;
将每个用户账号特征向量和对应的一个或多个文本特征向量拼接,以得到多个融合特征向量;及
将所述多个融合特征向量作为多组训练样本,将每组训练样本分别输入待训练的分类模型中,对所述待训练的分类模型进行训练,以得到所述敏感内容识别模型。


2.根据权利要求1所述的敏感内容识别模型的训练方法,其特征在于,所述基于所述多个用户账号以及各个用户账号之间的关联关系,构建知识图谱的步骤,包括:
获取所述多个用户账号中的各个用户账号的账号信息,以得到多个用户账号信息;
基于所述多个用户账号信息获取多组关联账号;其中所述用户账号信息包括相应用户账号的注册登录信息,每组关联账号包括具有相同的至少一个用户账号信息的两个用户账号;及
根据多组关联账号构建知识图谱;每个用户账号分别对应所述知识图谱中的一个节点,每组关联账号的两个用户账号之间的相同用户账号信息用于构建相应的两个节点之间的边。


3.根据权利要求1所述的敏感内容识别模型的训练方法,其特征在于,所述根据所述多个节点获取多个账号特征向量的步骤,包括:
将所述知识图谱上的多组关联账号相应的多个节点和多条边嵌入到目标函数中,通过所述目标函数计算出与所述多个节点对应的多个账号特征向量,其中所述目标函数为:



其中,Eij表示边的权值;φ(ui)、φ(uj)分别表示第i个节点vi,第j个节点vj;φ'(uj)表示节点vj的相邻节点,ui、uj分别表示节点vi、节点vj的账号特征向量表示。


4.根据权利要求1所述的敏感内容识别模型的训练方法,其特征在于,所述提取所述多个用户文本的多个文本特征向量,每个文本特征向量对应于一个用户文本的步骤,包括,
对所述多个用户文本预处理,获取多个向量矩阵;
将所述多个向量矩阵输入到卷积神经网络,以得到对应于所述多个向量矩阵的多个文本特征向量,所述每个向量矩阵对应于所述多个文本特征向量中的一个文本特征向量。


5.根据权利要求4所述的敏感内容识别模型的训练方法,其特征在于,所述对所述多个用户文本预处理,获取多个向量矩阵的步骤,包括:
对多个用户文本中的每个句子进行分词处理,以得到各个用户文本的分词集合;
对每个分词集合内的各个词编码,以将所述每个分词集合内的各个词转化为对应的词向量;
以每个用户文本的句子...

【专利技术属性】
技术研发人员:成杰峰彭奕
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1