敏感内容识别模型的训练方法、文本识别方法及相关装置制造方法及图纸

技术编号：29673533 阅读：10 留言：0更新日期：2021-08-13 21:55

本发明专利技术提供了一种敏感内容识别模型的训练方法，包括：获取多个用户文本以及多个用户账号；基于所述多个用户账号以及各个用户账号之间的关联关系，构建知识图谱，所述知识图谱包括多个节点；根据所述多个节点获取多个账号特征向量；提取所述多个用户文本的多个文本特征向量；将每个用户账号特征向量和对应的一个或多个文本特征向量拼接，以得到多个融合特征向量；及将所述多个融合特征向量作为多组训练样本，将每组训练样本分别输入待训练的分类模型中，对所述待训练的分类模型进行训练，以得到所述敏感内容识别模型。本发明专利技术将用户文本和用户账号进行特征融合，通过融合后的特征训练和使用敏感内容的识别，提高了识别准确率和训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
敏感内容识别模型的训练方法、文本识别方法及相关装置
本专利技术涉及人工智能领域，尤其涉及敏感内容识别模型的训练方法、文本识别方法及相关装置。
技术介绍
现有的敏感内容识别模型通常采用有监督的机器学习方案，比如基于CNN模型的文本分类器；而文本分类器对敏感内容的识别能力取决于标注样本的信息量；只是依赖于内容本身的信息量并不足以训练出好的文本分类器，导致现有的文本分类器并不能正确识别没有在标注样本中出现的敏感信息文本类别。现有的训练模型如ELMO(EmbeddingsLanguageModels，嵌入语言模型)尺寸巨大，巨大的模型尺寸使得应用预训练模型进行文本处理的方法需要大量的时间，难以应用于实际场景，因此，找到一种准确高效且便于应用的文本训练方法十分重要。
技术实现思路
本专利技术的目的是提供一种敏感内容识别模型的训练方法、文本识别方法、计算机设备及计算机可读存储介质，用于解决以下问题：现有技术不能正确识别没有在标注样本中出现的敏感信息文本类别。本专利技术实施例的第一方面提供了敏感内容识别模型的训练方法，包括：获取多个用户文本以及多个用户账号；每个用户文本为敏感内容文本或非敏感内容文本，每个所述用户文本分别关联一个所述用户账号；基于所述多个用户账号以及各个用户账号之间的关联关系，构建知识图谱；所述知识图谱包括多个节点，每个节点对应于所述多个用户账号中的一个用户账号；根据所述多个节点获取多个账号特征向量，每个账号特征向量对应于所述多个节点中的一个节点；提取所述多个用户文本的多...

【技术保护点】
1.一种敏感内容识别模型的训练方法，其特征在于，所述训练方法包括：/n获取多个用户文本以及多个用户账号；每个用户文本为敏感内容文本或非敏感内容文本每个所述用户文本分别关联一个所述用户账号；/n基于所述多个用户账号以及各个用户账号之间的关联关系，构建知识图谱；其中，所述知识图谱包括多个节点，每个节点对应于所述多个用户账号中的一个用户账号；/n根据所述多个节点获取多个账号特征向量，每个账号特征向量对应于所述多个节点中的一个节点；/n提取所述多个用户文本的多个文本特征向量，每个所述文本特征向量对应于一个用户文本；/n将每个用户账号特征向量和对应的一个或多个文本特征向量拼接，以得到多个融合特征向量；及/n将所述多个融合特征向量作为多组训练样本，将每组训练样本分别输入待训练的分类模型中，对所述待训练的分类模型进行训练，以得到所述敏感内容识别模型。/n

【技术特征摘要】
1.一种敏感内容识别模型的训练方法，其特征在于，所述训练方法包括：
获取多个用户文本以及多个用户账号；每个用户文本为敏感内容文本或非敏感内容文本每个所述用户文本分别关联一个所述用户账号；
基于所述多个用户账号以及各个用户账号之间的关联关系，构建知识图谱；其中，所述知识图谱包括多个节点，每个节点对应于所述多个用户账号中的一个用户账号；
根据所述多个节点获取多个账号特征向量，每个账号特征向量对应于所述多个节点中的一个节点；
提取所述多个用户文本的多个文本特征向量，每个所述文本特征向量对应于一个用户文本；
将每个用户账号特征向量和对应的一个或多个文本特征向量拼接，以得到多个融合特征向量；及
将所述多个融合特征向量作为多组训练样本，将每组训练样本分别输入待训练的分类模型中，对所述待训练的分类模型进行训练，以得到所述敏感内容识别模型。

2.根据权利要求1所述的敏感内容识别模型的训练方法，其特征在于，所述基于所述多个用户账号以及各个用户账号之间的关联关系，构建知识图谱的步骤，包括：
获取所述多个用户账号中的各个用户账号的账号信息，以得到多个用户账号信息；
基于所述多个用户账号信息获取多组关联账号；其中所述用户账号信息包括相应用户账号的注册登录信息，每组关联账号包括具有相同的至少一个用户账号信息的两个用户账号；及
根据多组关联账号构建知识图谱；每个用户账号分别对应所述知识图谱中的一个节点，每组关联账号的两个用户账号之间的相同用户账号信息用于构建相应的两个节点之间的边。

3.根据权利要求1所述的敏感内容识别模型的训练方法，其特征在于，所述根据所述多个节点获取多个账号特征向量的步骤，包括：
将所述知识图谱上的多组关联账号相应的多个节点和多条边嵌入到目标函数中，通过所述目标函数计算出与所述多个节点对应的多个账号特征向量，其中所述目标函数为：

其中，Eij表示边的权值；φ(ui)、φ(uj)分别表示第i个节点vi，第j个节点vj；φ'(uj)表示节点vj的相邻节点，ui、uj分别表示节点vi、节点vj的账号特征向量表示。

4.根据权利要求1所述的敏感内容识别模型的训练方法，其特征在于，所述提取所述多个用户文本的多个文本特征向量，每个文本特征向量对应于一个用户文本的步骤，包括，
对所述多个用户文本预处理，获取多个向量矩阵；
将所述多个向量矩阵输入到卷积神经网络，以得到对应于所述多个向量矩阵的多个文本特征向量，所述每个向量矩阵对应于所述多个文本特征向量中的一个文本特征向量。

5.根据权利要求4所述的敏感内容识别模型的训练方法，其特征在于，所述对所述多个用户文本预处理，获取多个向量矩阵的步骤，包括：
对多个用户文本中的每个句子进行分词处理，以得到各个用户文本的分词集合；
对每个分词集合内的各个词编码，以将所述每个分词集合内的各个词转化为对应的词向量；
以每个用户文本的句子...

【专利技术属性】
技术研发人员：成杰峰，彭奕，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人