一种识别敏感信息的方法及装置制造方法及图纸

技术编号：27806477 阅读：15 留言：0更新日期：2021-03-30 09:21

本申请是关于一种识别敏感信息的方法及装置，属于信息处理领域。所述方法包括：获取待识别的文本信息中包括的m个词语的词向量，第一词语的词向量是所述第一词语的语义表示，所述第一词语是所述m个词语中的一个，m为大于1的整数；基于所述第一词语的词向量和第二词语的词向量生成所述第一词语的隐层向量，所述第二词语是与所述第一词语前后相邻的词语，所述第一词语的隐层向量是所述第一词语的语义表示和上下文信息的语义表示；根据所述m个词语的隐层向量识别所述文本信息是否为敏感信息。本申请能够提高识别敏感信息的精度。本申请能够提高识别敏感信息的精度。本申请能够提高识别敏感信息的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别敏感信息的方法及装置

[0001]本申请涉及信息处理领域，特别涉及一种识别敏感信息的方法及装置。

技术介绍

[0002]在信息化高度发达的今天，互联网已经成为人们获取信息的重要媒介之一，给人们工作生活带来了很大的便利。对话服务机器人作为互联网新时代技术的产物，以背后强大的知识库和计算能力为人类提供问答服务和智能操作，受到学术界和工业界的广泛关注。虽然目前对话服务机器人的各项技术研究取得了一定的进展，但由于开放性、即时性的特点，对话内容也往往成为不法分子传播低俗污秽等敏感信息的重要途径。
[0003]为了阻止敏感信息的传播，目前可以对敏感信息进行识别。事先设置敏感词典，该敏感词典中包括大量的敏感词。检测待识别的文本信息中是否包括该敏感词典中的敏感词，如果检测出包括敏感词，则识别该文本信息为敏感信息，该文本信息可以是由多词语组成的一句文字信息或多句文字信息。
[0004]专利技术人在实现本申请的过程中，发现上述方式至少存在如下缺陷：
[0005]目前在识别敏感信息时依赖敏感词典进行识别，当文本信息中出现不在敏感词典中的新敏感词时，就无法识别出该文本信息是否为敏感信息，降低识别敏感信息的精度。

技术实现思路

[0006]本申请实施例提供了一种识别敏感信息的方法及装置，以提高识别敏感信息的精度。所述技术方案如下：
[0007]一方面，提供了一种识别敏感信息的方法，所述方法包括：
[0008]获取待识别的文本信息中包括的m个词语的词向量，第一词语的词向量是所述第一...

【技术保护点】

【技术特征摘要】
1.一种识别敏感信息的方法，其特征在于，所述方法包括：获取待识别的文本信息中包括的m个词语的词向量，第一词语的词向量是所述第一词语的语义表示，所述第一词语是所述m个词语中的一个，m为大于1的整数；基于所述第一词语的词向量和第二词语的词向量生成所述第一词语的隐层向量，所述第二词语是与所述第一词语前后相邻的词语，所述第一词语的隐层向量是所述第一词语的语义表示和上下文信息的语义表示；根据所述m个词语的隐层向量识别所述文本信息是否为敏感信息。2.如权利要求1所述的方法，其特征在于，所述基于所述第一词语的词向量和第二词语的词向量生成所述第一词语的隐层向量，包括：将所述m个词语中的每个词语的词向量，按所述每个词语在所述文本信息中的顺序输入到上下文信息分类模型，所述上下文信息分类模型用于基于所述第一词语的词向量和第二词语的词向量产生所述第一词语的隐层向量；获取所述上下文分类模型输出的所述每个词语的隐层向量。3.如权利要求1所述的方法，其特征在于，所述根据所述m个词语的隐层向量识别所述文本信息是否为敏感信息，包括：根据所述m个词语的隐层向量设置所述m个词语中的每个词语的第一权重，词语的第一权重用于表示所述词语对所述文本信息为敏感信息的贡献；根据所述每个词语的第一权重和所述每个词语的隐层向量获取所述文本信息的信息矩阵；根据所述文本信息的信息矩阵确定所述文本信息是否为敏感信息。4.如权利要求3所述的方法，其特征在于，所述根据所述m个词语的隐层向量设置所述m个词语中的每个词语的第一权重，包括：将所述m个词语的隐层向量输入到权重分配模型，所述权重分配模型用于基于所述m个词语的隐层向量设置所述m个词语中的每个词语的第一权重；获取所述权重分配模型输出的所述每个词语的第一权重。5.如权利要求3所述的方法，其特征在于，所述根据所述文本信息的信息矩阵确定所述文本信息是否为敏感信息，包括：将所述文本信息的信息矩阵输入到降维模型，所述降维模型用于对所述文本信息的信息矩阵进行降维处理得到所述文本信...

【专利技术属性】
技术研发人员：赵妍妍，罗观柱，秦兵，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人