基于词频统计的互联网社区产品贴评过滤方法及系统技术方案

技术编号：33462921 阅读：9 留言：0更新日期：2022-05-19 00:43

本发明专利技术公开了一种基于词频统计的互联网社区产品贴评过滤方法及系统，其首先基于社区语料库建立社区语料分词词表；然后根据分词词表对社区语料库进行分词，计算得到每个分词在社区语料库中的IDF值；并根据分词词表分别对每一条贴评进行分词，根据每一条贴评中的分词平均IDF值及分词最大IDF值计算得到每一条贴评的IDF值；将贴评的IDF值与设定阈值进行比较，判断是否为水贴。本发明专利技术基于社区本身的语料库来筛选固定词表，得到的分词词表最贴合社区生态，同时将分词平均IDF值及分词最大IDF值应用到互联网社区产品贴评去水中，能高效的识别低质量无意义贴评，且算法简单，迭代速度快，且成本低。且成本低。且成本低。

全部详细技术资料下载

【技术实现步骤摘要】
基于词频统计的互联网社区产品贴评过滤方法及系统

[0001]本专利技术涉及网络内容筛选
，尤其是涉及一种基于词频统计的互联网社区产品贴评过滤方法及系统。

技术介绍

[0002]互联网社区产品的核心在于贴评互动，然而低质量的帖评会占据版面，使用户看不到优质贴评，从而影响用户体验，大量低质量无意义的贴评更会影响用户的留存，因此如何对低质量无意义的贴评进行过滤，对于社区产品的生态至关重要。
[0003]如今大部分互联网社区产品并不会对低质量无意义的贴评做筛选和处理，而是将主要精力用于筛选高质量的贴评，将高质量的贴评排在低质量贴评的前面，降低用户刷到低质量贴评的概率，从而达到去水的目的。
[0004]在帖子维度，很多互联网社区产品会将帖子内部最新一条评论的发出时间作为索引对帖子进行倒序排列，将有最新评论的帖子排在前面，从而淘汰掉没有用户互动的低质量无意义帖子，例如豆瓣小组，百度贴吧，天涯等等。
[0005]在评论维度，很多互联网社区产品会基于帖子内评论的互动数对帖子内部评论做一个排序，将互动数多的评论排在前面，从而将互动数低的低质量无意义评论排在后面，例如最右，豆瓣小组等等。
[0006]少部分互联网社区产品会对低质量贴评做筛选处理，应用的技术方法大多也是基于Bert的预训练结合微调的文本分类方法。
[0007]大部分互联网社区产品的技术方案只有在用户活跃度高的时候有效，并不能真正的解决问题。一旦用户活跃度降低，或者到了流量低峰的时间，低质量无意义的贴评就难以被高质量贴评覆盖，仍...

【技术保护点】

【技术特征摘要】
1.一种基于词频统计的互联网社区产品贴评过滤方法，其特征在于，包括如下步骤：基于社区语料库建立社区语料分词词表；根据分词词表对社区语料库进行分词，计算得到每个分词在社区语料库中的IDF值；根据分词词表分别对每一条贴评进行分词，根据每一条贴评中的分词平均IDF值及分词最大IDF值计算得到每一条贴评的IDF值；将贴评的IDF值与设定阈值进行比较，判断是否为水贴。2.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法，其特征在于，每个分词在社区语料库中的IDF值的计算公式如下：3.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法，其特征在于，每一条贴评的IDF值的计算公式如下：4.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法，其特征在于，根据分词词表对社区语料库进行分词，具体包括：向互联网社区产品系统中载入分词词表，并根据分词词表对社区语料库进行分词。5.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法，其特征在于，基于社区语料库建立社区语料分词...

【专利技术属性】
技术研发人员：刘堡萱，文成明，
申请(专利权)人：深圳市百川数安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人