当前位置: 首页 > 专利查询>刘付荣专利>正文

一种基于大数据分析的网络文本关联处理方法及系统技术方案

技术编号:25757636 阅读:27 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开一种基于大数据分析的网络文本关联处理方法及系统,方法包括步骤:对网络文本进行分词,获取网络文本中的所有词汇;获取预设时间段内的用户评论,提取用户评论中的主旨词汇;比对用户评论中的主旨词汇与网络文本中的词汇,将比对成功的主旨词汇作为网络文本的摘要词汇;确定网络文本中的摘要词汇的相似度,若摘要词汇的相似度超过预设阈值,则确定网络文本存在关联。通过本方案,用户评论多为精简而且与网络文的核心本内容关联的内容,通过用户评论监测网络文本,能够有效监测网络文本之间的关联性。

【技术实现步骤摘要】
一种基于大数据分析的网络文本关联处理方法及系统
本专利技术涉及网络文本处理
,尤其涉及一种基于大数据分析的网络文本关联处理方法及系统。
技术介绍
随着网络的不断发展,可以通过在网络上发布文本来获取流量,从而获取商业收益。因此,网络文本的真实性,是否被不法商家转载等,成为突出问题。但是,目前仍未有有效的手段,能够监测网络文本之间的关联性。
技术实现思路
本专利技术公开一种基于大数据分析的网络文本关联处理方法及系统,用于解决现有技术中,未有有效手段监测网络文本之间关联性的问题。为了解决上述问题,本专利技术采用下述技术方案:提供一种基于大数据分析的网络文本关联处理方法,包括步骤:对网络文本进行分词,获取网络文本中的所有词汇;获取预设时间段内的用户评论,提取用户评论中的主旨词汇;比对用户评论中的主旨词汇与网络文本中的词汇,将比对成功的主旨词汇作为网络文本的摘要词汇;确定网络文本中的摘要词汇的相似度,若摘要词汇的相似度超过预设阈值,则确定网络文本存在关联。可选的,获取预设时间段内的用户评论,提取用户评论中的主旨词汇,具体包括步骤:确定用户评论的总条数;获取各条用户评论的点赞量;根据用户评论的总条数和各条用户评论的点赞量,提取用户评论中的主旨词汇。可选的,根据用户评论的总条数和各条用户评论的点赞量,提取用户评论中的主旨词汇,具体包括步骤:确定用户评论的总条数是否超过预定条数;若超过,则根据点赞量在预设排名内的用户评论,提取用户评论中的主旨词汇;若未超过,则根据所有的用户评论,提取用户评论中的主旨词汇。可选的,根据点赞量在预设排名内的用户评论,提取用户评论中的主旨词汇,之后还包括步骤:将出现在同一条用户评论中的主旨词汇组成一个词汇组;比对各词汇组中的主旨词汇,将主旨词汇的比对成功率超过设定阈值的词汇组合并为一个词汇组。可选的,比对用户评论中的主旨词汇与网络文本中的词汇,将比对成功的主旨词汇作为网络文本的摘要词汇,具体包括步骤:分别比对各词汇组中的主旨词汇与网络文本中的词汇;判断各词汇组中比对成功的主旨词汇在网络文本中出现的段落;若至少一组词汇组中的所有主旨词汇,从始至终在网络文本中所包含的段落数未超过预设阈值,则将位于不同词汇组中的摘要词汇归类在不同组;若所有词汇组中的至少一个主旨词汇,从始至终在网络文本中所包含的段落数超过预设阈值,则将位于不同词汇组中的摘要词汇归类成一组。可选的,确定网络文本中的摘要词汇的相似度,若摘要词汇的相似度超过预设阈值,则确定网络文本存在关联,具体包括步骤:确定网络文本中的各组摘要词汇的相似度,若有一组摘要词汇的相似度超过预设阈值,则确定网络文本存在关联。可选的,对网络文本进行分词,获取网络文本中的所有词汇,之前还包括步骤:获取网络文本的发布日期,建立发布日期、网络文本和作者之间的映射关系;则确定网络文本存在关联之后,则在发布日期靠后的网络文本中以链接方式显示发布日期靠前的网络文本。可选的,主旨词汇为不包括人称代词和结构助词的词汇。还提供一种基于大数据分析的网络文本关联处理系统,包括:分词模块,用于对网络文本进行分词,获取网络文本中的所有词汇;提取模块,用于获取预设时间段内的用户评论,提取用户评论中的主旨词汇;比对模块,用于比对用户评论中的主旨词汇与网络文本中的词汇,将比对成功的主旨词汇作为网络文本的摘要词汇;相似度确定模块,用于确定网络文本中的摘要词汇的相似度,若摘要词汇的相似度超过预设阈值,则确定网络文本存在关联。本专利技术采用的技术方案能够达到以下有益效果:用户评论多为精简而且与网络文的核心本内容关联的内容,通过用户评论监测网络文本,能够有效监测网络文本之间的关联性,为保护网络作者的合法权益提供可能,为网络文本的规范化提供可能;当网络文本的作者通过增加不相关内容,以试图弱化与原创网络文本的关联性时,通过本专利技术方法,也可以有效监测网络文本之间的关联性;当有恶意的用户评论(例如作者通过增加用户评论以弱化用户评论的有效性)时,可以通过点赞量筛出恶意的用户评论,进一步有效监测网络文本之间的关联性;而且在转载的网络文本或稍作修改的网络文本中,可以以链接方式显示出原创的网络文本,为网络文本的规范化提供可能性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,构成本专利技术的一部分,本专利技术的示意性实施例及其说明解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例公开的基于大数据分析的网络文本关联处理方法的流程图;图2为本专利技术实施例公开的基于大数据分析的网络文本关联处理方法的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的基于大数据分析的网络文本关联处理方法,如图1所示,包括以下步骤。步骤S1,对网络文本进行分词,获取网络文本中的所有词汇。在该步骤中,可以基于词典分词算法(即字符串匹配分词算法)进行分词。该算法是按照一定的策略将待匹配的字符串和一个已建立好的词典中的词进行匹配。若匹配成功,则识别该词,直至获取网络文本中的所有词汇。网络文本中的词汇可以包括人称代词、名称、动词、形容词和结构助词等,以便于获取词汇。步骤S2,获取预设时间段内的用户评论,提取用户评论中的主旨词汇。在该步骤中,预设时间段可以为预先设定的时间段,例如10天、一个月或用户评论数量达到设定值(例如一千条)时所用的时间等。用户评论是指,阅读网络文本的读者写出的评论、感想,通常位于网络文本的尾部,在读者点击评论按键后,则可以进行评论。主旨词汇是指不包括人称代词和结构代词的词汇,人称代词为例如我、你、他、她、它、我们、你们或他们等,结构助词为例如的、地或得等。主旨词汇包括的词汇可以为名词、动词和形容词等,名词可以为例如爸爸、妈妈、爷爷、叔叔或婶子等,动词可以包括打、跑、画、扑、改、闻、吃、吹、迎、拦、看、写、穿、喜欢、笑、想或上等,形容词可以为例如认真、生动、简单、复杂、精明、可爱、冰凉、初级或高级等。在该步骤中,具体又可以包括步骤:确定用户评论的总条数;获取各条用户评论的点赞量;根据用户评论的总条数和各条用户评论的点赞量,提取用户评论中的主旨词汇。根据用户评论的总条数和各条用户评论的点赞量,提取用户评论中的主旨词汇,具体包括步骤:确定用户评论的总条数是否超过预定条数;若超过,则根据点赞量在预设排名内的用户评论,提取用户评论中的主旨词汇;若未超过,则根据所有的用本文档来自技高网...

【技术保护点】
1.一种基于大数据分析的网络文本关联处理方法,其特征在于,包括步骤:/n对网络文本进行分词,获取网络文本中的所有词汇;/n获取预设时间段内的用户评论,提取用户评论中的主旨词汇;/n比对用户评论中的主旨词汇与网络文本中的词汇,将比对成功的主旨词汇作为网络文本的摘要词汇;/n确定网络文本中的摘要词汇的相似度,若摘要词汇的相似度超过预设阈值,则确定网络文本存在关联。/n

【技术特征摘要】
1.一种基于大数据分析的网络文本关联处理方法,其特征在于,包括步骤:
对网络文本进行分词,获取网络文本中的所有词汇;
获取预设时间段内的用户评论,提取用户评论中的主旨词汇;
比对用户评论中的主旨词汇与网络文本中的词汇,将比对成功的主旨词汇作为网络文本的摘要词汇;
确定网络文本中的摘要词汇的相似度,若摘要词汇的相似度超过预设阈值,则确定网络文本存在关联。


2.根据权利要求1所述的基于大数据分析的网络文本关联处理方法,其特征在于,获取预设时间段内的用户评论,提取用户评论中的主旨词汇,具体包括步骤:
确定用户评论的总条数;
获取各条用户评论的点赞量;
根据用户评论的总条数和各条用户评论的点赞量,提取用户评论中的主旨词汇。


3.根据权利要求2所述的基于大数据分析的网络文本关联处理方法,其特征在于,根据用户评论的总条数和各条用户评论的点赞量,提取用户评论中的主旨词汇,具体包括步骤:
确定用户评论的总条数是否超过预定条数;
若超过,则根据点赞量在预设排名内的用户评论,提取用户评论中的主旨词汇;
若未超过,则根据所有的用户评论,提取用户评论中的主旨词汇。


4.根据权利要求3所述的基于大数据分析的网络文本关联处理方法,其特征在于,根据点赞量在预设排名内的用户评论,提取用户评论中的主旨词汇,之后还包括步骤:
将出现在同一条用户评论中的主旨词汇组成一个词汇组;
比对各词汇组中的主旨词汇,将主旨词汇的比对成功率超过设定阈值的词汇组合并为一个词汇组。


5.根据权利要求4所述的基于大数据分析的网络文本关联处理方法,其特征在于,比对用户评论中的主旨词汇与网络文本中的词汇,将比对成功的主旨词汇作为网络文本的摘要词汇,具体包括步骤:
分别比对各词汇...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:刘付荣
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1