The invention relates to the field of Internet technology, in particular to a method for identifying social network information, a processing method and a device. By dividing the target text, the two adjacent words are used as a phrase, and the correlation values of the two words in each phrase are calculated, and the correlation values of the two words corresponding to the false information base and the real information base are compared, and the information of each phrase in the target text is determined according to the degree of proximity. Type, and then to determine the information type of the target text by the information type of all words in the target text, and realize the fast recognition of the false information of the network through a relatively simple algorithm. It can provide an important basis for the network manager to respond quickly and facilitate the network managers to deal with the false information in time and reduce the network false information in time. The negative effects of false information dissemination.
【技术实现步骤摘要】
社交网络信息识别方法、处理方法及装置
本专利技术涉及互联网
,尤其涉及一种社交网络信息识别方法、处理方法及装置。
技术介绍
社交网络的流行和普及,使得社交网络中的信息数量呈现爆炸式地增长,然而信息质量却没有得到相应的提升,各种垃圾信息尤其是谣言等虚假信息充斥着整个社交网络,谣言的传播与扩散给人们的生活和社会的发展带来了极大的危害和负面影响。谣言是指没有相应事实基础,却被捏造出来并通过一定手段推动传播的言论,在受众未被明确或暗示虚构的前提下,被捏造及传播的与事实不同甚至相反的言论即是谣言。由于普通用户的知识和信息量有限,无法识别出所有谣言,从而使谣言在社交网络中广泛传播。如果能够及时准确地识别出社交网络当中的谣言消息,不仅有助于营造良好的互联网环境,帮助人们更好地识别信息的真伪,及时杜绝恶意谣言带来的严重危害,还能在舆情监测、信息引导等方面发挥积极的作用。目前已有的谣言识别方法主要可以分为两类,一类是基于人工的方法,其机制主要是通过对已发布的消息进行人工检举和判定,这类方法无法在谣言产生的初期遏制其传播与扩散,及时性差,并且需要大量的劳力和财力,成本性高;另一 ...
【技术保护点】
一种社交网络信息识别方法,其特征在于,包括:对目标文本进行分词处理,得到目标文本的分词;按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;对目标文本中所有词组的信息类型进行统计,得到统计结果;根据统计结果确定所述目标文本的信息类型。
【技术特征摘要】
1.一种社交网络信息识别方法,其特征在于,包括:对目标文本进行分词处理,得到目标文本的分词;按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;对目标文本中所有词组的信息类型进行统计,得到统计结果;根据统计结果确定所述目标文本的信息类型。2.根据权利要求1所述的方法,其特征在于,所述对目标文本进行分词处理,得到目标文本的分词,包括:获取目标文本;对所述目标文本进行预处理,去除目标文本中的停用词;采用字典分词法对所述目标文本进行分词处理,得到目标文本的分词。3.根据权利要求1所述的方法,其特征在于,所述根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,包括:计算每个词组中两个分词的关联值;提取虚假信息库中对应的所述两个分词的关联值,作为第一关联值;提取真实信息库中对应的所述两个分词的关联值,作为第二关联值;根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型。4.根据权利要求3所述的方法,其特征在于,所述根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型,包括:计算所述关联值与第一关联值的差值,得到第一差值;计算所述关联值与第二关联值的差值,得到第二差值;比较所述第一差值的绝对值和第二差值的绝对值的大小,若第一差值的绝对值大于第二差值的绝对值,则确定该词组的信息类型为真实信息,若第一差值的绝对值小于第二差值的绝对值,则确定该词组的信息类型为虚假信息,若第一差值的绝对值与第二差值的绝对值相等,则确定该词组的信息类型为无偏向信息。5.根据权利要求3所述的方法,其特征在于,所述计算每个词组中两个分词的关联值,包括:根据公式X(W12)=C(W2)*C(W12)/C(W1)计算得到词组中两个分词的关联值;其中,X(W12)表示所述词组中两个分词的关联值,C(W1)表示所述词组中的第一个分词在目标文本中出现的频次,C(W2)表示所述词组中的第二个分词在目标文本中出现的频次,C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次,所述第一个分词在目标文本中的出现顺序早于第二个分词。6.根据权利要求1所述的方法,其特征在于,所述对目标文本中所有词组的信息类型进行统计,得到统计结果,包括:获取目标文本中所有词组的信息类型;统计各个信息类型的出现频次,得到统计结果。7.根据权利要求6所述的方法,其特征在于,所述根据统计结果确定所述目标文本的信息类型,包括:比较虚假信息和真实信息的出现频次,将出现频次较高的信息类型确定为所述目标文本的信息类型,如果虚假信息的出现频次和真实信息的出现频次相同,则确定所述目标文本的信息类型为无偏向信息。8.根据权利要求1所述的方法,其特征在于,所述对目标文本进行分词处理,得到目标文本的分词之前,还包括:对虚假信息库中的虚假信息样本进行分词处理,得到虚假信息样本的分词,按照各分词在该虚假信息样本中的出现顺序,计算得到相邻两个分词的关联值;对真实信息库中的真实信息样本进行分词处理,得到真实信息样本的分词,按照各分词在该真实信息样本中的出现顺序,计算得到相邻两个分词的关联值。9.一种社交网络信息处理方法,其特征在于,包括:对目标文本进行分词处理,得到目标文本的分词;按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;对目标文本中所有词组的信息类型进行统计,得到统计结果;根据统计结果确定所述目标文本的信息类型;根据目标文本的信息类型对所述目标文本进行处理。10.根据权利要求9所述的方法,其特征在于,所述根据目标文本的信息类型对所述目标文本进行处理,包括:若所述目标文本的信息类型为虚假信息,则删除社交网络中的所述目标文本。11.一种社交网...
【专利技术属性】
技术研发人员:刘杰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。