一种舆论制造群体识别方法、装置、设备及存储介质制造方法及图纸

技术编号:35025449 阅读:23 留言:0更新日期:2022-09-24 22:56
本发明专利技术公开一种舆论制造群体识别方法、装置、设备及存储介质,该方法包括:基于社交网络平台获取待识别组织内每个组织成员之间的社交网络关系,并构建社交网络关系图谱;获取每个组织成员之间的互动数据,预处理后获得舆论互动数据,然后进行特征提取,获得舆论互动数据特征向量;基于社交网络关系图谱和舆论互动数据确定若干个舆论起始成员,以之为起点进行广度优先搜索,获得搜索成员集合;利用余弦相似度算法对该集合进行舆论制造成员初次识别,确定初始舆论制造成员集合;基于组织成员的特征信息,通过朴素贝叶斯模型对初始舆论制造成员集合进行舆论制造成员再次识别,确定舆论制造群体。本发明专利技术能够准确地识别组织内部的舆论制造群体。制造群体。制造群体。

【技术实现步骤摘要】
一种舆论制造群体识别方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其是涉及一种舆论制造群体识别方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着互联网时代的发展,网络已成为人们传播信息的重要媒介,然而在繁杂的网络信息中难免存在负面的舆论,因此亟需一种能够对舆论制造群体进行识别的方法,以及时对舆论制造群体进行监控,避免舆论继续在网络上散播。
[0003]目前,舆论制造群体通常先在其所处的组织内部进行负面舆论的散播,然而现有的舆论制造群体识别方法难以准确地对组织内部的舆论制造群体进行识别,从而难以及时对组织内部的舆论制造群体进行监控。

技术实现思路

[0004]本专利技术提供一种舆论制造群体识别方法、装置、设备及存储介质,以解决现有的舆论制造群体识别方法针对组织内部的舆论制造群体的识别准确率不高的技术问题,能够基于组织内部成员的社交网络关系图谱,首先利用余弦相似度算法进行舆论制造成员初次识别,确定初始舆论制造成员集合,然后针对初始舆论制造成员集合中的组织成员,基于每个组织成员的特征信息,利用朴素贝叶斯模型进行舆论制造成员再次识别,确定组织内的舆论制造群体,在舆论制造群体识别的过程中,充分考虑了每个组织成员的特征信息,从而能够准确地对组织内部的舆论制造群体进行识别,有助于及时对组织内部的舆论制造群体进行监控。
[0005]为了解决上述技术问题,本专利技术实施例第一方面提供一种舆论制造群体识别方法,包括如下步骤:
[0006]基于社交网络平台,获取待识别组织内每个组织成员之间的社交网络关系,并根据所述社交网络关系,构建所述待识别组织的社交网络关系图谱;
[0007]基于所述社交网络平台,获取每个组织成员之间的互动数据,并对所述互动数据进行预处理,获得舆论互动数据;
[0008]对所述舆论互动数据进行特征提取,获得舆论互动数据特征向量;
[0009]基于所述社交网络关系图谱和每个组织成员之间的舆论互动数据,确定若干个舆论起始成员,以所述若干个舆论起始成员为起点进行广度优先搜索,确定若干个参与舆论互动的组织成员,并根据所述若干个舆论起始成员和所述若干个参与舆论互动的组织成员,构建搜索成员集合;
[0010]利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合;其中,所述初始舆论互动数据特征向量为所述搜索成员集合中任意一个舆论起
始成员、与之进行舆论互动的组织成员之间的舆论互动数据特征向量;
[0011]基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,确定所述待识别组织内的舆论制造群体。
[0012]作为优选方案,所述利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合,具体包括如下步骤:
[0013]利用所述余弦相似度算法,通过如下表达式获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度:
[0014][0015]其中,cosθ表示舆论互动数据特征向量B与初始舆论互动数据特征向量A的相似度,n表示一个舆论互动数据特征向量中所包含的舆论互动数据特征的数量,A
i
表示初始舆论互动数据特征向量A中的第i个舆论互动数据特征值,B
i
表示舆论互动数据特征向量B中的第i个舆论互动数据特征值;
[0016]根据所述相似度大于所述预设相似度阈值的舆论互动数据特征向量所对应的组织成员,确定所述初始舆论制造成员集合。
[0017]作为优选方案,所述基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,具体包括如下步骤:
[0018]基于所述初始舆论制造成员集合中每个组织成员之间的舆论互动数据,确定所述初始舆论制造成员集合中最后接收舆论的组织成员;
[0019]基于所述待识别组织内每个组织成员的特征信息,通过所述朴素贝叶斯模型,采用如下表达式获取任意一个所述最后接收舆论的组织成员为舆论制造成员的概率:
[0020][0021]其中,P(x1,x2,...,x
m
|c)表示当前最后接收舆论的组织成员为舆论制造成员的概率,c表示预设条件,x
i
表示当前最后接收舆论的组织成员的第i个特征信息,m表示特征信息的数量,P(x
i
|c)表示具备特征信息x
i
的最后接收舆论的组织成员为舆论制造成员的概率;
[0022]将所述概率大于预设概率阈值的最后接收舆论的组织成员识别为所述舆论制造成员。
[0023]作为优选方案,所述互动数据至少包括时间戳、发送方、接收方、文本数据和图片数据;
[0024]则,所述对所述互动数据进行预处理,获得舆论互动数据,具体包括如下步骤:
[0025]通过OCR方法对所述图片数据中的文本数据进行提取,获得提取文本数据;
[0026]基于预设的词库,利用结巴分词法分别对所述文本数据和所述提取文本数据进行分词,获得第一分词结果和第二分词结果;
[0027]分别对所述第一分词结果和所述第二分词结果进行清洗处理;
[0028]分别对进行清洗处理后的第一分词结果和进行清洗处理后的第二分词结果进行标准化处理,获得所述文本数据的第一关键词和所述提取文本数据的第二关键词,并将所述时间戳、所述发送方、所述接收方、所述第一关键词和所述第二关键词作为所述舆论互动数据。
[0029]作为优选方案,所述基于所述社交网络平台,获取每个组织成员之间的互动数据,具体包括如下步骤:
[0030]在获得预设的授权许可信息的情况下,基于所述社交网络平台,获取每个组织成员之间的互动数据。
[0031]作为优选方案,所述方法还包括如下步骤:
[0032]基于确定的所述舆论制造群体,将所述舆论制造群体内的舆论制造成员在所述社交网络关系图谱上进行标记。
[0033]作为优选方案,所述待识别组织内每个组织成员的特征信息至少包括性别、年龄、职位、岗位类别、职等、司龄、技术等级、奖惩记录、教育程度和社交活跃度。
[0034]本专利技术实施例第二方面提供一种舆论制造群体识别装置,包括:
[0035]社交网络关系图谱构建模块,用于基于社交网络平台,获取待识别组织内每个组织成员之间的社交网络关系,并根据所述社交网络关系,构建所述待识别组织的社交网络关系图谱;...

【技术保护点】

【技术特征摘要】
1.一种舆论制造群体识别方法,其特征在于,包括如下步骤:基于社交网络平台,获取待识别组织内每个组织成员之间的社交网络关系,并根据所述社交网络关系,构建所述待识别组织的社交网络关系图谱;基于所述社交网络平台,获取每个组织成员之间的互动数据,并对所述互动数据进行预处理,获得舆论互动数据;对所述舆论互动数据进行特征提取,获得舆论互动数据特征向量;基于所述社交网络关系图谱和每个组织成员之间的舆论互动数据,确定若干个舆论起始成员,以所述若干个舆论起始成员为起点进行广度优先搜索,确定若干个参与舆论互动的组织成员,并根据所述若干个舆论起始成员和所述若干个参与舆论互动的组织成员,构建搜索成员集合;利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合;其中,所述初始舆论互动数据特征向量为所述搜索成员集合中任意一个舆论起始成员、与之进行舆论互动的组织成员之间的舆论互动数据特征向量;基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,确定所述待识别组织内的舆论制造群体。2.如权利要求1所述的舆论制造群体识别方法,其特征在于,所述利用余弦相似度算法获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度,以所述相似度和预设相似度阈值的比较结果对所述搜索成员集合中的组织成员进行舆论制造成员初次识别,确定初始舆论制造成员集合,具体包括如下步骤:利用所述余弦相似度算法,通过如下表达式获得所述搜索成员集合中每个组织成员之间的舆论互动数据特征向量与初始舆论互动数据特征向量的相似度:其中,cosθ表示舆论互动数据特征向量B与初始舆论互动数据特征向量A的相似度,n表示一个舆论互动数据特征向量中所包含的舆论互动数据特征的数量,A
i
表示初始舆论互动数据特征向量A中的第i个舆论互动数据特征值,B
i
表示舆论互动数据特征向量B中的第i个舆论互动数据特征值;根据所述相似度大于所述预设相似度阈值的舆论互动数据特征向量所对应的组织成员,确定所述初始舆论制造成员集合。3.如权利要求2所述的舆论制造群体识别方法,其特征在于,所述基于预设的所述待识别组织内每个组织成员的特征信息,通过预设的朴素贝叶斯模型对所述初始舆论制造成员集合中的组织成员进行舆论制造成员再次识别,具体包括如下步骤:基于所述初始舆论制造成员集合中每个组织成员之间的舆论互动数据,确定所述初始舆论制造成员集合中最后接收舆论的组织成员;基于所述待识别组织内每个组织成员的特征信息,通过所述朴素贝叶斯模型,采用如
下表达式获取任意一个所述最后接收舆论的组织成员为舆论制造成员的概率:其中,P(x1,x2,...,x
m
|c)表示当前最后接收舆论的组织成员为舆论制造成员的概率,c表示预设条件,x
i
表示当前最后接收舆论的组织成员的第i个特征信息,m表示特征信息的数量,P(x
i
|c)表示具备特征信息x
i
的最后接收舆论的组织成员为舆论制造成员的概率;将所述概率大于预设概率阈值的最后接收舆论的组织成员识别为所述舆论制造成员。4....

【专利技术属性】
技术研发人员:罗霞吴海林王超君
申请(专利权)人:中电科普天科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1