识别敏感信息的方法、装置、设备及存储介质制造方法及图纸

技术编号：26342652 阅读：31 留言：0更新日期：2020-11-13 20:36

本申请公开了一种识别敏感信息的方法、装置、设备及存储介质，属于互联网技术领域。所述方法包括：获取多媒体数据的评论信息；将所述评论信息输入预先训练的敏感信息识别模型，得到敏感判定结果，其中，所述敏感判定结果用于指示所述评论信息对应的多媒体数据是否具有敏感信息；获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据，向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息。本申请可以通过对多媒体数据的评论信息进行识别，能够挖掘出更多存在敏感信息的多媒体数据。

Method, device, equipment and storage medium for identifying sensitive information

全部详细技术资料下载

【技术实现步骤摘要】
识别敏感信息的方法、装置、设备及存储介质
本申请涉及互联网
，特别涉及一种识别敏感信息的方法、装置、设备及存储介质。
技术介绍
随着互联网技术的发展，人们可以在各种网络平台中上传各种各样的多媒体数据，即上传各种作品，例如歌曲作品、短视频作品等。其中，有些作品中可能会包含一些敏感信息，所以一般网络平台会设置审核环节，对平台中的各种作品进行识别，若识别到作品中包含敏感信息时，可以对相应的作品进行处理，例如，将歌词中包含敏感信息的歌曲进行下架处理。网络平台中设置的审核技术一般是直接获取作品的内容数据，例如，获取歌曲中的歌词文本、获取视频中的视频帧，然后检测相应的内容数据中是否包含敏感信息，例如，检测歌曲中的歌词文本中是否包含敏感词汇，然后根据检测结果，判别作品是否包含敏感信息。在实现本申请的过程中，专利技术人发现现有技术至少存在以下问题：现有的审核技术只能检测到包含敏感词汇的作品，对于有些不包括敏感词汇，但是表达的内容仍然属于敏感信息的作品，现有审核技术无法准确识别。
技术实现思路
>本申请实施例提供了本文档来自技高网...

【技术保护点】
1.一种识别敏感信息的方法，其特征在于，所述方法包括：/n获取多媒体数据的评论信息；/n将所述评论信息输入预先训练的敏感信息识别模型，得到敏感判定结果，其中，所述敏感判定结果用于指示所述评论信息对应的多媒体数据是否具有敏感信息；/n获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据，向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息。/n

【技术特征摘要】
1.一种识别敏感信息的方法，其特征在于，所述方法包括：
获取多媒体数据的评论信息；
将所述评论信息输入预先训练的敏感信息识别模型，得到敏感判定结果，其中，所述敏感判定结果用于指示所述评论信息对应的多媒体数据是否具有敏感信息；
获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据，向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息。

2.根据权利要求1所述的方法，其特征在于，所述预先训练的敏感信息识别模型包括输入层、嵌入层、双向长短时记忆网络层、注意力层和输出层。

3.根据权利要求2所述的方法，其特征在于，所述将所述评论信息输入预先训练的敏感信息识别模型，得到敏感判定结果，包括：
将所述评论信息进行分词处理，得到所述评论信息对应的至少一个词组；
将所述至少一个词组输入到所述输入层，得到所述至少一个词组对应的词组标识；
将所述至少一个词组对应的词组标识输入到所述嵌入层，得到所述至少一个词组对应的词组向量；
将所述至少一个词组对应的词组向量输入到所述双向长短时记忆网络层，得到所述至少一个词组对应的特征向量；
将所述至少一个词组对应的特征向量输入到所述注意力层，得到所述评论信息对应的特征向量；
将所述评论信息对应的特征向量输入到所述输出层，得到所述评论信息对应的敏感判定结果。

4.根据权利要求1所述的方法，其特征在于，所述获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据之后，所述方法还包括：
确定每个目标多媒体数据对应的目标评论信息的数目；
基于每个目标多媒体数据对应的数目，按照数目由多至少的顺序，对目标多媒体数据进行排名，得到每个目标多媒体数据的排名信息；
向所述审核终端发送每个目标多媒体数据的排名信息。

5.根据权利要求1所述的方法，其特征在于，所述向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息，包括：
确定每个目标多媒体数据对应的目标评论信息的数目；
向审核终端发送对应的目标评论信息的数目超过数目阈值的目标多媒体数据的标识信息和目标评论信息。

6.根据权利要求1所述的方法，其特征在于，获得敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据，包括：
每当达到预设的周期时长时，确定当前的周期时长内对应的敏感判定结果为具有敏感信息的目标评论信息以及所述目标评论信息所属的目标多媒体数据。

7.根据权利要求1所述的方法，其特征在于，所述向审核终端发送所述目标多媒体数据的标识信息和所述目标评论信息之后，所述方法还包括：
接收所述审核终端发送的数据获取请求，其中，...

【专利技术属性】
技术研发人员：张亮，江钊，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人