风险内容识别方法、装置、设备、介质和计算机程序产品制造方法及图纸

技术编号:28741671 阅读:20 留言:0更新日期:2021-06-06 16:05
本公开提供了一种风险内容识别方法、装置、设备、介质和计算机程序产品,涉及人工智能技术领域,尤其涉及大数据和自然语言处理技术领域。实现方案为:每间隔第一周期执行如下操作:获取待识别内容在当前周期内的用户负反馈;对于每条用户负反馈,确定该用户负反馈的反馈类型和用户可信度;至少部分地基于在当前周期内的用户负反馈的反馈类型和用户可信度,计算待识别内容的当前周期的周期评分;基于待识别内容在至少一个第一周期内的周期评分和对应周期衰减系数,计算待识别内容的内容评分;以及响应于确定待识别内容的内容评分大于评分阈值,识别待识别内容为风险内容。识别待识别内容为风险内容。识别待识别内容为风险内容。

【技术实现步骤摘要】
风险内容识别方法、装置、设备、介质和计算机程序产品


[0001]本公开涉及人工智能
,尤其涉及大数据和自然语言处理技术领 域。具体地,本公开提供了一种风险内容识别方法、装置、电子设备、计算 机可读存储介质和计算机程序产品。

技术介绍

[0002]随着互联网技术的发展,互联网平台所提供的内容越来越多,用户也可 以越来越方便地访问这些内容。因此,需要及时识别存在风险的内容,并进 行相应的处理,以避免存在风险的内容扩散而带来不良后果。
[0003]目前主要采用以下两种方法来识别风险内容:
[0004]1)人工审核:随机抽取内容,供审核员进行审核,以判断内容的质量, 但是,由于人工审核的速度较慢,人工审核效率较低;
[0005]2)词表匹配:对内容的标题或正文进行切词,并且判断该内容是否含有 风险词表中的词汇,但是,由于同一词汇在不同语境中具有不同的含义,使 用词表匹配的误判率较高。
[0006]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另 有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被 认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认 为在任何现有技术中已被公认。

技术实现思路

[0007]本公开提供了一种风险内容识别方法、装置、电子设备、计算机可读存 储介质和计算机程序产品。
[0008]根据本公开的一方面,提供了一种计算机实施的风险内容识别方法,包 括:每间隔第一周期执行如下操作:获取待识别内容在当前周期内的用户负 反馈;对于每条用户负反馈,确定该用户负反馈的反馈类型和用户可信度; 至少部分地基于在当前周期内的用户负反馈的反馈类型和用户可信度,计算 待识别内容的当前周期的周期评分;基于待识别内容在在至少一个第一周期 内的周期评分和对应周期衰减系数,计算待识别内容的内容评分;以及响应 于确定待识别内容的内容评分大于评分阈值,识别待识别内容为风险内容。
[0009]根据本公开的另一方面,提供了一种风险内容识别装置,包括:获取模 块,被配置为:每间隔第一周期,获取待识别内容在当前周期内的用户负反 馈;负反馈信息确定模块,被配置为:对于每条用户负反馈,确定该用户负 反馈的反馈类型和用户可信度;评分计算模块,被配置为:至少部分地基于 在当前周期内的用户负反馈的反馈类型和用户可信度,计算待识别内容的当 前周期的周期评分;以及基于待识别内容在至少一个第一周期内的周期评分 和对应周期衰减系数,计算待识别内容的内容评分;以及风险内容核查模块, 被配置为:响应于确定待识别内容的内容评分大于评分阈值,识别待识别内 容为风险内容。
[0010]根据本公开的又一方面,提供了一种计算机设备,包括:存储器、处理 器以及存储
在存储器上的计算机程序,其中,处理器被配置为执行计算机程 序以实现如本公开中所述的方法的步骤。
[0011]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机 可读存储介质,其中,计算机指令用于使计算机执行如本公开中所述的方法。
[0012]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序, 其中,计算机程序被处理器执行时实现如本公开中所述的方法的步骤。
[0013]根据本公开的一个或多个实施例,可以及时有效地识别风险内容,避免 风险内容造成不良影响。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或 重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说 明书而变得容易理解。
附图说明
[0015]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字 描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的 目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似 但不一定相同的要素。
[0016]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法 的示例性系统的示意图;
[0017]图2示出了根据本公开的实施例的风险内容识别方法的流程图;
[0018]图3A

3C示出了根据本公开的实施例的在用户提交反馈的过程中在客 户端处显示的用户界面的示意图;
[0019]图4示出了根据本公开的实施例的风险内容识别方法的流程图;
[0020]图5示出了根据本公开的实施例的在图4的过程中计算待识别内容的当 前周期的周期评分的示例操作的流程图;
[0021]图6示出了根据本公开的实施例的按IP地址来过滤已识别为风险内容 的内容的过程的流程图;
[0022]图7示出了根据本公开的实施例的风险内容识别装置的结构框图;
[0023]图8示出了能够用于实现本公开的实施例的示例性电子设备的结构框 图。
具体实施方式
[0024]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施 例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域 普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改, 而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对 公知功能和结构的描述。
[0025]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各 种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语 只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要 素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们 也可以指代不同实例。
[0026]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定 示例的目
的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特 意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所 使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方 式。
[0027]为了解决现有技术中的上述问题,本公开基于自然语言处理技术中的语 义分析,对用户所提交的反馈进行分析,并且基于大数据技术中的用户画像 技术,判断用户负反馈的可信度,使得可以基于用户所提交的负反馈识别某 一内容是否为风险内容,从而提供了以下风险内容识别的技术方案。
[0028]如本文所使用的,术语“风险内容”是指不符合法律法规的内容或给用 户带来不好的观看感受的内容(例如,存在页面无法打开、内容质量差、错 别字多等问题的内容)。
[0029]下面将结合附图详细描述本公开的实施例。
[0030]图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其 中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个 客户端设备101、102、103、104、105和106、服务器120以及将一个或多 个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、 102、103、104、105和106可以被配置为执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实施的风险内容识别方法,包括:每间隔第一周期执行如下操作:获取待识别内容在当前周期内的用户负反馈;对于每条用户负反馈,确定该用户负反馈的反馈类型和用户可信度;至少部分地基于所述在当前周期内的用户负反馈的反馈类型和用户可信度,计算所述待识别内容的当前周期的周期评分;基于所述待识别内容在至少一个第一周期内的周期评分和对应周期衰减系数,计算所述待识别内容的内容评分;以及响应于确定所述待识别内容的内容评分大于评分阈值,识别所述待识别内容为风险内容。2.如权利要求1所述的风险内容识别方法,其中,所述至少部分地基于所述在当前周期内的用户负反馈的反馈类型和用户可信度,计算所述待识别内容的当前周期的周期评分包括:对于每条用户负反馈,将所述反馈类型所对应的权重乘以所述用户可信度,得到该条用户负反馈的部分周期评分;将多条用户负反馈的部分周期评分相加,得到所述待识别内容的当前周期的周期评分。3.如权利要求2所述的风险内容识别方法,还包括:使用已校准的风险内容识别结果,调整所述反馈类型所对应的权重。4.如权利要求1所述的风险内容识别方法,还包括:对所述待识别内容进行内容理解,得到所述待识别内容的内容理解类型和内容理解评分;对所述待识别内容进行切词分析,得到所述待识别内容的切词分析类型和切词分析评分;其中,所述至少部分地基于所述在当前周期内的用户负反馈的反馈类型和用户可信度,计算所述待识别内容的当前周期的周期评分包括:基于所述在当前周期内的用户负反馈的反馈类型和用户可信度、所述内容理解类型、所述内容理解评分、所述切词分析类型和所述切词分析评分,计算所述待识别内容的当前周期的周期评分。5.如权利要求4所述的风险内容识别方法,其中,所述基于所述在当前周期内的用户负反馈的反馈类型和用户可信度、内容理解评分、切词分析类型和切词分析评分,计算所述待识别内容的当前周期的周期评分包括:对于每条用户负反馈,将所述反馈类型所对应的权重乘以所述用户可信度,得到该条用户负反馈的部分周期评分;将所述内容理解评分乘以所述内容理解类型所对应的权重,得到所述内容理解的部分周期评分;将所述切词分析评分乘以所述切词分析类型所对应的权重,得到所述切词分析的部分周期评分;将多条用户负反馈的部分周期评分、所述内容理解的部分周期评分和所述切词分析的
部分周期分析相加,得到所述待识别内容的当前周期的周期评分。6.如权利要求5所述的风险内容识别方法,还包括:使用已校准的风险内容识别结果,调整所述反馈类型、所述内容理解类型和所述切词分析类型所对应的权重。7.如权利要求4所述的风险内容识别方法,在所述至少部分地基于所述在当前周期内的用户负反馈的反馈类型和用户可信度,计算所述待识别内容的当前周期的周期评分之前,还包括:响应于确定所述待识别内容的切词分析评分大于所述切词评分阈值且所述待识别内容的作者属于白名单成员,降低所述待识别内容的切词分析评分。8.如权利要求1

7中任一项所述的风险内容识别方法,其中,所述获取待识别内容在当前周期内的用户负反馈包括:获取所述待识别内容在该当前周期内的用户显式负反馈和用户隐式负反馈;其中,所述用户显式反馈包括用户举报和用户负面评论,所述用户隐式反馈包括用户屏蔽反馈。9.如权利要求1

7中任一项所述的风险内容识别方法,其中,所述基于所述待识别内容在至少一个第一周期内的周期评分和对应...

【专利技术属性】
技术研发人员:杨松艳陈妍佳王宇婷
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1