IT社群的关注信息的分析方法、装置、设备和介质制造方法及图纸

技术编号:38362160 阅读:8 留言:0更新日期:2023-08-05 17:30
本发明专利技术提供了一种IT社群的关注信息的分析方法、装置、设备和介质,涉及数据分析领域,其中,该方法包括以下步骤:获取IT社群的发表数据的文本数据并进行语句分割,得到多个包含IT技术词汇的关键词语句;通过语法过滤器,从关键词语句中获取顶点词汇;确定顶点词汇的权重,并根据权重数值的大小选择预设数量的顶点词汇,将选择的顶点词汇作为关键词;根据关键词与感情色彩信息的预存对应关系,确定关键词的感情色彩信息;计算关键词的好发频率,好发频率表示关键词的发表频率;根据关键词的感情色彩信息和好发频率,分析IT社群中对不同IT技术的关注度。由于该方案通过提取IT社群的关键词,达到了分析IT技术关注度的目的。达到了分析IT技术关注度的目的。达到了分析IT技术关注度的目的。

【技术实现步骤摘要】
IT社群的关注信息的分析方法、装置、设备和介质


[0001]本专利技术涉及数据分析
,特别涉及一种IT社群的关注信息的分析方法、装置、设备和介质。

技术介绍

[0002]随着互联网以及信息技术的高速发展,互联网的信息量获得了前所未有的增长,越来越多的机构以及个人可以在社交媒体上以各种方式发表自己对于最新IT技术的讨论及态度,如新闻网站、微博、社群论坛其他社交网站等,因此,了解IT社群的关注动态成为研究热门技术问题、掌握行业动态的重要方法。
[0003]目前,文本分析应用于IT社群的方法还较少,原因多在于:评测IT社群的关注信息需要考虑大量的数据,数据规模、数据质量和数据的处理方法等都是需要面临的问题;同时,技术IT技术用语多具有时效性,对IT社群关注的信息需要及时、快速的评判;IT社群的关注信息通常使用的词语特殊,且相对其他词汇与传统情感用词建立正确的联系较为困难。社群关注信息的自动化正负面评判需要进行文本情感分析,因此,如何快速、准确地将传统情感分析转换成实时社群关注分析是一个重要的问题。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种IT社群的关注信息的分析方法,以解决现有技术中对IT社群中IT技术关注度信息分析困难的技术问题。该方法包括:获取IT社群的发表数据的文本数据,对文本数据进行语句分割,得到多个包含IT技术词汇的关键词语句;通过语法过滤器,从关键词语句中获取IT技术相关词汇,将IT技术相关词汇称为顶点词汇;确定顶点词汇的权重,并根据权重数值的大小选择预设数量的顶点词汇,将选择的顶点词汇作为关键词,其中,权重的数值大小与关注度成正比;根据关键词与感情色彩信息的预存对应关系,确定关键词的感情色彩信息;计算关键词的好发频率,好发频率表示关键词的发表频率;根据关键词的感情色彩信息和好发频率,分析IT社群中对不同IT技术的关注度。
[0005]本专利技术实施例还提供了一种IT社群的关注信息的分析装置,以解决现有技术中对IT社群中IT技术关注度信息分析困难的技术问题。该装置包括:数据预处理模块,用于获取IT社群的发表数据的文本数据,对文本数据进行语句分割,得到多个包含IT技术词汇的关键词语句;顶点词汇生成模块,用于通过语法过滤器,从关键词语句中获取IT技术相关词汇,将IT技术相关词汇称为顶点词汇;权重计算模块,用于确定顶点词汇的权重,并根据权重数值的大小选择预设数量的顶点词汇,将选择的顶点词汇作为关键词,其中,权重的数值大小与关注度成正比;
情感赋值模块,用于根据关键词与感情色彩信息的预存对应关系,确定关键词的感情色彩信息;好发频率计算模块,用于计算关键词的好发频率,好发频率表示关键词的发表频率;关注度分析模块,用于根据关键词的感情色彩信息和好发频率,分析IT社群中对不同IT技术的关注度。
[0006]本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的IT社群的关注信息的分析方法,以解决现有技术中对IT社群中IT技术关注度信息分析困难的技术问题。
[0007]本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的IT社群的关注信息的分析方法的计算机程序,以解决现有技术中对IT社群中IT技术关注度信息分析困难的技术问题。
[0008]与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:提取IT社群发表数据的文本数据,通过分割和过滤,得到IT技术相关的词汇,实现准确的从社群信息中提取了IT技术相关的信息;通过对每个顶点词汇计算权重,根据权重可以选择出关注度较高的关键词,进而能够有效的计算关键词的好发频率,并提高好发频率计算的准确性;将关键词和感情色彩信息对比,可以标注每个IT社群的关键词的情感色彩(例如,正面或负面情感),从而可以确定社群关注信息的感情色彩,进而根据关键词的感情色彩信息和好发频率,即可快速、准确地分析出IT社群中对不同IT技术的关注度(例如。哪些IT信息是热门关注信息),实现了可以有效、便捷地分析出IT社群的关注动态、关注信息。
附图说明
[0009]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0010]图1是本专利技术实施例提供的一种IT社群的关注信息的分析方法的流程图;图2是本专利技术实施例提供的一种计算机设备的结构框图;图3是本专利技术实施例提供的一种IT社群的关注信息的分析装置的结构框图。
具体实施方式
[0011]下面结合附图对本申请实施例进行详细描述。
[0012]以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可
以相互组合。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0013]在本专利技术实施例中,提供了一种IT社群的关注信息的分析方法,如图1所示,该方法包括:步骤S101:获取IT社群的发表数据的文本数据,对文本数据进行语句分割,得到多个包含IT技术词汇的关键词语句;步骤S102:通过语法过滤器,从关键词语句中获取IT技术相关词汇,将IT技术相关词汇称为顶点词汇;步骤S103:确定顶点词汇的权重,并根据权重数值的大小选择预设数量的顶点词汇,将选择的顶点词汇作为关键词,其中,权重的数值大小与关注度成正比;步骤S104:根据关键词与感情色彩信息的预存对应关系,确定关键词的感情色彩信息;步骤S105:计算关键词的好发频率,好发频率表示关键词的发表频率;步骤S106:根据关键词的感情色彩信息和好发频率,分析IT社群中对不同IT技术的关注度。
[0014]具体的,IT社群可以是包括网络新闻、博客、论坛和SNS等各种可以发表言论的平台。为了提高IT社群的关注信息的分析准确度,获取IT社群的发表数据的文本数据后,首先可以对文本数据进行数据清洗后,再进行语句分割,还可以建立词库等。其中,语句分割是将文本按照一定的规则划分为单独的语句,其中,包含有IT技术词汇的语句为关键词语句,可以建立词库将分句后的结果存储到一个数据库或文件中,方便后续继续处理。数据清洗主要是去除HTML标签、特殊符号、换行符、标点符号等。
[0015]具体的,得到关键词语句后,可以利用语法过滤器对所述关键词语句中的单词进行过滤,例如,保留所述关键词语句中与IT技术词汇相关的名词和动词,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种IT社群的关注信息的分析方法,其特征在于,包括:获取IT社群的发表数据的文本数据,对所述文本数据进行语句分割,得到多个包含IT技术词汇的关键词语句;通过语法过滤器,从所述关键词语句中获取IT技术相关词汇,将所述IT技术相关词汇称为顶点词汇;确定所述顶点词汇的权重,并根据权重数值的大小选择预设数量的所述顶点词汇,将选择的所述顶点词汇作为关键词,其中,所述权重的数值大小与关注度成正比;根据关键词与感情色彩信息的预存对应关系,确定所述关键词的感情色彩信息;计算所述关键词的好发频率,所述好发频率表示所述关键词的发表频率;根据所述关键词的所述感情色彩信息和所述好发频率,分析IT社群中对不同IT技术的关注度。2.如权利要求1所述的IT社群的关注信息的分析方法,其特征在于,确定所述顶点词汇的权重,包括:根据所述顶点词汇构建无向图,所述无向图中的每个节点对应一个所述顶点词汇;根据所述无向图中各个节点的关联性确定不同所述顶点词汇之间的关联性;根据不同所述顶点词汇之间的关联性,计算每个所述顶点词汇的权重。3.如权利要求2所述的IT社群的关注信息的分析方法,其特征在于,根据不同所述顶点词汇之间的关联性,计算每个所述顶点词汇的权重,包括:通过以下公式计算每个节点的权重,将每个节点的权重确定为该节点对应的所述顶点词汇的权重:,其中,d为阻尼系数,表示所有指向节点的节点的集合,表示所有从节点出发的边所连接的节点的集合,表示节点和节点之间的权重,表示节点的权重,表示节点的权重。4.如权利要求1所述的IT社群的关注信息的分析方法,其特征在于,确定所述顶点词汇的权重,包括:根据所述顶点词汇构建无向图,并根据所述无向图中各个节点的关联性确定不同所述顶点词汇之间的关联性,根据不同所述顶点词汇之间的关联性,计算每个所述顶点词汇的第一权重;确定预存的IT技术词汇的权重,该权重称为第二权重;将所述顶点词汇与所述预存的IT技术词汇进行一致性匹配,针对匹配成功的所述顶点词汇,则将所述第一权重和所述第二权重按照各自的比例系数进行叠加,将叠加结果作为匹配成功的所述顶点词汇的最终权重;针对匹配失败的所述顶点词汇,则将所述第一权重作为所述顶点词汇的最终权重。5.如权利要求4所述的IT社群的关注信息的分析方法,其特征在于,确定预存的IT技术词汇的权重,包括:
根据所述预存的IT技术词汇进行主题建模,得到所述预...

【专利技术属性】
技术研发人员:董方金宏伟闫锋常星
申请(专利权)人:金锐同创北京科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1