一种在线问答社区中检测欺诈性问答的方法技术

技术编号:35597172 阅读:26 留言:0更新日期:2022-11-16 15:16
本发明专利技术公开了一种在线问答社区中检测欺诈性问答的方法。首先,根据问题和答案内容中的词共现关系提取欺诈模式,并根据欺诈模式提取问答群组;其次,将问答社区中的各类实体,包括问题、答案、问答发布者、问答群组,及其相互关系建模为异构信息网络;然后,计算筛选一系列属性特征和关联关系,并根据关联关系定义异构信息网络中的元路径;最后,根据节点属性和元路径,利用集体分类算法检测欺诈性问题和答案。本发明专利技术能够更加准确、全面的检测出在线问答社区中检测欺诈性问答。答社区中检测欺诈性问答。答社区中检测欺诈性问答。

【技术实现步骤摘要】
一种在线问答社区中检测欺诈性问答的方法


[0001]本专利技术涉及一种在线问答社区中检测欺诈性问答的方法,属于数据挖掘与网络空间安全领域。
技术背景
[0002]随着信息通信技术的飞速发展与Web 2.0的普及,由此支撑的新型在线信息交互平台层出不穷。在此背景下,众多极具影响力的在线问答社区相继涌现,已成为公众利用互联网获取、传播、分享以及创造知识的重要平台。然而,随着在线问答社区规模及影响力的不断扩大,其也不可避免地成为网络水军的关注对象和活动场所,大量欺诈性的问答内容被发布到社区中,用以引导阅读者的价值判断并影响其决策行为,从而达成水军推销或抹黑特定商品与服务的目的,更有甚者通过散播谣言,操控和煽动舆情,引发网络暴力以及群体事件。在线问答社区中的欺诈信息已严重危害到平台的公信力及互联网中的经营、竞争秩序,甚至是社会稳定与国家安全。
[0003]因此,检测在线问答社区中的欺诈内容,包括欺诈性的问题和答案,已成为净化社区环境,维护平台公信力及网络空间安全亟待解决的重要问题。研究者们提出了一些关于问答社区欺诈检测的方法。Chen等人从提问者、回答者以及问答文本角度定义了描述欺诈程度的特征,并利用逻辑回归的方法检测欺诈问答,如文献“The best answers?think twice:online detection of commercial campaigns in the cqa forums”;同样基于逻辑回归方法,Li等人定义了提问者的接受率、经验值、信誉点、问答熵等统计指标,与问题的文本信息、发布时间、情感分值等共同构建特征空间识别欺诈问题,如文献“Deceptive answer prediction withuser preference graph”。随着众包任务被引入到问答社区,群体性欺诈逐渐占据主流,很多研究工作也开始探索综合使用多种异质数据检测具有协作关系的虚假问答及其发布者,其中一类思路是分别定义文本、行为、关系等类型的特征,然后共同构建特征空间并输入分类器进行检测,如文献“Revealing,characterizing,and detecting crowdsourcing spammers:A case study in community Q&A”和“面向问答社区的众包网络水军检测研究”,另一类是基于关系数据构建概率描述模型并推理得到优化目标函数,再利用环路信念传播等算法训练参数获得检测器如文献“Detecting collusive spamming activities in community question answering”。然而,目前还没有同时利用问答社区不同实体属性,及实体间多种关联关系检测欺诈问答的方法。

技术实现思路

[0004]为解决上述问题,本专利技术提出了一种在线问答社区中检测欺诈性问答的方法,识别问答群组的前提下,同时利用多种实体属性和关联关系识别群体欺诈性问题和答案。本专利技术所要解决的技术问题在于众包任务驱动下的协同欺诈行为中,问答间不再独立,不应单独判定问答个体的欺诈性,而应充分考虑协作导致的关联关系,对相互关联的问答同时识别其是否欺诈,采用集体分类的方法,克服当前识别方法需要假设问答彼此独立的不足,
在问答存在关联关系的现实环境中,检测欺诈性问题和答案。
[0005]一种在线问答社区中检测欺诈性问答的方法,针对问答社区中存在关联关系的问答,采用集体分类的方法检测欺诈性问题和答案。本专利技术所述方法的主要步骤包括:
[0006]步骤S1,读取问题和答案的内容,根据欺诈模式提取问答群组;
[0007]步骤S2,构建问答社区实体及其相互关系的异构信息网络,所述异构信息网络的节点代表问答社区实体,并包含属性特征,边代表实体间关系,节点附带属性;
[0008]步骤S3,针对欺诈问答检测,筛选、构建或计算各类实体的具有区分度的属性特征,记录到异构信息网络中对应节点的属性中,并在部分实体间寻找能够描述其同质性的关联关系,据此定义异构信息网络元路径,所述元路径在网络对应着若干条具体路径,所述路径由网络中的多条能够首尾相连的边依次相连组成;
[0009]步骤S4,依据所述异构信息网络中节点的属性及其相关元路径,利用一种集体分类方法检测欺诈性问题和答案。
[0010]优选的,步骤S1中,首先对所有问题和答案进行分词,将每条问答都表示为一组词的集合,再根据所有问答中的词共现关系,利用余弦模式挖掘算法提取若干欺诈模式,然后将包含同一欺诈模式的问题与答案提取为问答群组,所述任一欺诈模式D={W1,W2,

Wn}为一组词的集合,其中W1,W2,

Wn分别表示构成D的n个词,同时满足以下条件:
[0011]SP(D)≥τ
s
[0012][0013]其中,SP(.)表示支持度,0≤τ
s

t
≤1为预设阈值。
[0014]优选的:步骤S2中,用于建立异构信息网络节点的问答社区实体包括:问题、答案、问答发布者以及问答群组,用于建立异构信息网络边的实体间关系包括:问答间的提问、回答关系,问答发布者与问答间的发布关系,问答与其所属群组间的属于关系。
[0015]优选的:步骤S3中,选定的实体属性特征如下:
[0016]问题属性包括:是否包含标签,是否具有详细描述,是否给予回答者奖励,是否有答案,是否只有唯一答案,是否被标记为已解决;
[0017]答案属性包括:是否有评论,是否被标记为最佳答案,是否为对应问题的唯一答案,是否包含联系方式,是否标注关注领域,是否匿名作答;
[0018]群组属性包括:群组中问答对应的发布者既是提问者又是回答者的比例,群组中问题与首个答案间的平均时间间隔,群组中问答发布的突发率。
[0019]问答对应的发布者既是提问者又是回答者的情况包括三种:

发布者在群组中同时发布了问题和答案;

发布者在群组中发布了问题,同时回答了群组中的其它问题,但其发布的答案不在群组中;

发布者在群组中发布了答案,同时是群组中其它某答案所回答的问题的发布者,尽管该问题不在群组中。
[0020]群组中问题与首个答案间的平均时间间隔AvgQAInterval的计算方法如下:
[0021][0022][0023]其中g表示群组G中的成员,T(g)表示其发布的时间,T(g,FA)

T(g)表示当g为问题时与首个答案间的时间间隔,T(g)

T(g,Q)分别表示g为答案时与对应问题的时间间隔,t为预设阈值。
[0024]群组中问答发布的突发率的计算基于核密度估计方法,具体过程为:给定一个问答群组G,包含r个问题{Q1,Q2,

,Q
r
},对应的发布时间为{t1,t2,

,t
r
}。因此,G的持续时间du本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在线问答社区中检测欺诈性问答的方法,其特征在于利用社区中问题、答案以及问答群组的属性特征,结合问答间的关联关系,利用集体分类方法检测其中的欺诈性问题和答案;步骤包括:步骤S1,读取问题和答案的内容,根据欺诈模式提取问答群组;步骤S2,构建问答社区实体及其相互关系的异构信息网络,所述异构信息网络的节点代表问答社区实体,并包含属性特征,边代表实体间关系,节点附带属性;步骤S3,针对欺诈问答检测,筛选、构建或计算各类实体的具有区分度的属性特征,记录到异构信息网络中对应节点的属性中,并在部分实体间寻找能够描述其同质性的关联关系,据此定义异构信息网络元路径,所述元路径在网络对应着若干条具体路径,所述路径由网络中的多条能够首尾相连的边依次相连组成;步骤S4,依据所述异构信息网络中节点的属性及其相关元路径,利用一种集体分类方法检测欺诈性问题和答案。2.根据权利要求1所述的方法,其特征在于,步骤S1中,首先对所有问题和答案进行分词,将每条问答都表示为一组词的集合,再根据所有问答中的词共现关系,利用余弦模式挖掘算法提取若干欺诈模式,然后将包含同一欺诈模式的问题与答案提取为问答群组,任一欺诈模式D={W1,W2,

Wn}为一组词的集合,其中W1,W2,

Wn分别表示构成D的n个词,同时满足以下条件:SP(D)≥τ
s
其中,SP(.)表示支持度,0≤τ
s

t
≤1为预设阈值。3.根据权利要求1所述的方法,其特征在于:步骤S2中,用于建立异构信息网络节点的问答社区实体包括:问题、答案、问答发布者以及问答群组,用于建立异构信息网络边的实体间关系包括:问答间的提问、回答关系,问答发布者与问答间的发布关系,问答与其所属群组间的属于关系。4.根据权利要求1所述的方法,其特征在于:步骤S3中,选定的实体的属性特征如下:问题属性包括:是否包含标签,是否具有详细描述,是否给予回答者奖励,是否有答案,是否只有唯一答案,是否被标记为已解决;答案属性包括:是否有评论,是否被标记为最佳答案,是否为对应问题的唯一答案,是否包含联系方式,是否标注关注领域,是否匿名作答;群组属性包括:群组中问答对应的用户既是提问者又是回答者的比例,群组中问题与首个答案间的平均时间间隔,群组中问答发布的突发率。5.根据权利要求1所述的方法,其特征在于:步骤S3中,选定的关联关系及异构信息网络中用于描述关联关系的元路径如下:问答关系,即问题与答案间简单的提问回答关系,使用元路径:问答关系,即问题与答案间简单的提问回答关系,使用元路径:描述;共同发布用户关系,即问题或答案由同一用户发布,使用元路径:共同发布用户关系,即问题或答案由同一用户发布,使用元路径:描述;
共同群组关系,即问题或答案属于同...

【专利技术属性】
技术研发人员:张璐方昌健伍之昂
申请(专利权)人:南京审计大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1