基于词频统计的互联网社区产品贴评过滤方法及系统技术方案

技术编号:33462921 阅读:9 留言:0更新日期:2022-05-19 00:43
本发明专利技术公开了一种基于词频统计的互联网社区产品贴评过滤方法及系统,其首先基于社区语料库建立社区语料分词词表;然后根据分词词表对社区语料库进行分词,计算得到每个分词在社区语料库中的IDF值;并根据分词词表分别对每一条贴评进行分词,根据每一条贴评中的分词平均IDF值及分词最大IDF值计算得到每一条贴评的IDF值;将贴评的IDF值与设定阈值进行比较,判断是否为水贴。本发明专利技术基于社区本身的语料库来筛选固定词表,得到的分词词表最贴合社区生态,同时将分词平均IDF值及分词最大IDF值应用到互联网社区产品贴评去水中,能高效的识别低质量无意义贴评,且算法简单,迭代速度快,且成本低。且成本低。且成本低。

【技术实现步骤摘要】
基于词频统计的互联网社区产品贴评过滤方法及系统


[0001]本专利技术涉及网络内容筛选
,尤其是涉及一种基于词频统计的互联网社区产品贴评过滤方法及系统。

技术介绍

[0002]互联网社区产品的核心在于贴评互动,然而低质量的帖评会占据版面,使用户看不到优质贴评,从而影响用户体验,大量低质量无意义的贴评更会影响用户的留存,因此如何对低质量无意义的贴评进行过滤,对于社区产品的生态至关重要。
[0003]如今大部分互联网社区产品并不会对低质量无意义的贴评做筛选和处理,而是将主要精力用于筛选高质量的贴评,将高质量的贴评排在低质量贴评的前面,降低用户刷到低质量贴评的概率,从而达到去水的目的。
[0004]在帖子维度,很多互联网社区产品会将帖子内部最新一条评论的发出时间作为索引对帖子进行倒序排列,将有最新评论的帖子排在前面,从而淘汰掉没有用户互动的低质量无意义帖子,例如豆瓣小组,百度贴吧,天涯等等。
[0005]在评论维度,很多互联网社区产品会基于帖子内评论的互动数对帖子内部评论做一个排序,将互动数多的评论排在前面,从而将互动数低的低质量无意义评论排在后面,例如最右,豆瓣小组等等。
[0006]少部分互联网社区产品会对低质量贴评做筛选处理,应用的技术方法大多也是基于Bert的预训练结合微调的文本分类方法。
[0007]大部分互联网社区产品的技术方案只有在用户活跃度高的时候有效,并不能真正的解决问题。一旦用户活跃度降低,或者到了流量低峰的时间,低质量无意义的贴评就难以被高质量贴评覆盖,仍然会占据版面较长的时间。因此如何主动的筛选出低质量无意义的贴评至关重要。
[0008]在帖子维度,使用最近评论回复时间进行排序固然可以解决一部分问题,但是并不能解决根源问题。如果帖子内的新评论是毫无意义的顶帖评论,仍然能够达到将帖子刷新到首页的目的,但是使用现有的方案并不能将这类回复识别并加以处理。
[0009]少部分互联网社区产品的技术方案则是受限于模型的复杂度和标注数据的要求,往往需要非常高的机器成本用于模型推理,以及每次迭代都需要非常高的人力成本用于标注数据和至少一周以上的时间成本。但是网络语言具有变化更新快的特点,使用这种技术方案往往难以跟上网络语言的更新速度。

技术实现思路

[0010]本专利技术提出一种基于词频统计的互联网社区产品贴评过滤方法及系统,以解决上述问题。
[0011]为达到上述技术目的,本专利技术的技术方案第一方面提供一种基于词频统计的互联网社区产品贴评过滤方法,其包括如下步骤:
[0012]基于社区语料库建立社区语料分词词表;
[0013]根据分词词表对社区语料库进行分词,计算得到每个分词在社区语料库中的IDF值;
[0014]根据分词词表分别对每一条贴评进行分词,根据每一条贴评中的分词平均IDF值及分词最大IDF值计算得到每一条贴评的IDF值;
[0015]将贴评的IDF值与设定阈值进行比较,判断是否为水贴。
[0016]本专利技术第二方面提供一种基于词频统计的互联网社区产品贴评过滤系统,其包括如下功能模块:
[0017]词表建立模块,用于基于社区语料库建立社区语料分词词表;
[0018]分词计算模块,用于根据分词词表对社区语料库进行分词,计算得到每个分词在社区语料库中的IDF值;
[0019]贴评计算模块,用于根据分词词表分别对每一条贴评进行分词,根据每一条贴评中的分词平均IDF值及分词最大IDF值计算得到每一条贴评的IDF值;
[0020]贴评判断模块,用于将贴评的IDF值与设定阈值进行比较,判断是否为水贴。
[0021]本专利技术第三方面提供一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于词频统计的互联网社区产品贴评过滤方法的步骤。
[0022]本专利技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于词频统计的互联网社区产品贴评过滤方法的步骤。
[0023]与现有技术相比,本专利技术基于社区本身的语料库来筛选固定词表,得到的分词词表最贴合社区生态,也更符合社区的交流环境,同时将分词平均IDF值及分词最大IDF值应用到互联网社区产品贴评去水中,能高效的识别低质量无意义贴评,对比现在其他互联网社区产品用高质量贴评覆盖低质量贴评的方式,更为主动;且本专利技术所述一种基于词频统计的互联网社区产品贴评过滤方法,其算法简单,迭代速度快,且成本低。
附图说明
[0024]图1是本专利技术实施例所述的基于词频统计的互联网社区产品贴评过滤方法的流程框图;
[0025]图2是本专利技术实施例所述的基于词频统计的互联网社区产品贴评过滤系统的模块框图。
具体实施方式
[0026]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0027]基于上述内容,本专利技术实施例提供一种基于词频统计的互联网社区产品贴评过滤方法,如图1所示,其包括如下步骤:
[0028]S1、基于社区语料库建立社区语料分词词表。
[0029]即,自社区语料库提取出的固定词表,所述固定词表包括但不限于一些人名,地名,歌曲名,游戏名,影视剧名,社区内部词语的一些固定搭配,互联网流行的网络语言等等;将提取出来的固定词表集合建立社区语料分词词表。
[0030]同时,基于社区内交流方式、交流语境的不同,还定期提取社区语料库中的固定词表至社区语料分词词表中,对社区语料分词词表进行优化,使社区语料分词词表的自适应性更好。
[0031]S2、根据分词词表对社区语料库进行分词,计算得到每个分词在社区语料库中的IDF值。
[0032]即,向互联网社区产品系统中载入分词词表,并根据分词词表对社区语料库进行分词,计算得到每个分词在社区语料库中的IDF值,所述分词在社区语料库中的IDF值的计算公式如下:
[0033][0034]所述分词在社区语料库中的IDF值越小代表该分词越常见。
[0035]S3、根据分词词表分别对每一条贴评进行分词,根据每个分词的IDF值计算得到每一条贴评的IDF值。
[0036]即,根据每个分词的IDF值计算得到每一条贴评的IDF值,即包括根据每一条贴评中的分词平均IDF值及分词最大IDF值计算得到每一条贴评的IDF值。其中,所述分词平均IDF值为该条贴评中所有分词的IDF值的平均值,所述分词最大IDF值为该条贴评所有分词中IDF值的最大值。
[0037]每一条贴评的IDF值的计算公式如下:
[0038][0039]将分词平均IDF值及分词最大IDF值应用到互联网社区产品贴评去水中,能高效的识别低质量无意义贴评。
[0040]S4、将贴评的IDF值与设定阈本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词频统计的互联网社区产品贴评过滤方法,其特征在于,包括如下步骤:基于社区语料库建立社区语料分词词表;根据分词词表对社区语料库进行分词,计算得到每个分词在社区语料库中的IDF值;根据分词词表分别对每一条贴评进行分词,根据每一条贴评中的分词平均IDF值及分词最大IDF值计算得到每一条贴评的IDF值;将贴评的IDF值与设定阈值进行比较,判断是否为水贴。2.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法,其特征在于,每个分词在社区语料库中的IDF值的计算公式如下:3.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法,其特征在于,每一条贴评的IDF值的计算公式如下:4.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法,其特征在于,根据分词词表对社区语料库进行分词,具体包括:向互联网社区产品系统中载入分词词表,并根据分词词表对社区语料库进行分词。5.根据权利要求1所述一种基于词频统计的互联网社区产品贴评过滤方法,其特征在于,基于社区语料库建立社区语料分词...

【专利技术属性】
技术研发人员:刘堡萱文成明
申请(专利权)人:深圳市百川数安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1