System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,尤其是指一种适用于同时检测英文恶意评论和虚假新闻的方法。
技术介绍
1、在现代社会中,随着互联网和社交媒体的普及,恶意评论和虚假新闻的问题逐渐凸显出来。恶意评论可能会给个人和社会带来负面影响,而虚假新闻可能会误导公众,破坏信息传播的可信度。因此,针对恶意评论和虚假新闻的准确检测和识别成为了当今信息社会中的重要问题。以往的检测技术通常是通过建立敏感词库,通过模板匹配的方法来检测;近年来,随着人工智能技术的快速发展,已经有人尝试通过人工智能来检测这种恶意评论或是虚假新闻,但现有的检测技术存在以下缺陷:一是所选的模型参数不具有可解释性,不利于模型的持续改进以及一些要求模型检测效果高度可控的场景;二是现有的检测方法往往只针对一种情形有较好的效果,例如采用的某种模型、参数组合在检测恶意评论时准确率较高,但用于检测虚假新闻时,由于虚假新闻相较于恶意评论文本较长、不包括明显的敏感词等特性,导致检测效果不佳,克服这个缺陷的方法通常是对同一文本分别采用适用于恶意评论和虚假新闻的两种不同算法进行两次检测,但这又会导致检测成本过高。
2、因而,如何选择合适的可解释性参数与特定的机器算法模型相结合,使其在检测恶意评论和虚假新闻时,都能获得较好的检测效果,是当前亟待解决的问题。
技术实现思路
1、本专利技术是为了解决上述问题而进行的,目的在于需求一种可解释性参数与机器学习模型的优化组合,使其无论用于恶意评论还是虚假新闻的检测,都能获得较好的检测效果。
3、本专利技术第一方面提供了一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,所述方法包括以下步骤:
4、一、构建现有恶意评论资料集合a和虚假新闻资料集合b
5、对集合a进行二分类,将其中的数据分为伤害数据和无伤害数据;
6、对集合b进行二分类,将其中的数据分为伤害数据和无伤害数据;
7、二、构建混合文本资料集合c
8、从集合a中抽取部分伤害数据和无伤害数据构成集合a1,从集合b中抽取部分伤害数据和无伤害数据构成集合b1,将a1与b1合并构成集合c;
9、三、资料清理
10、对集合c中的数据进行英文断词,过滤标点符号、超链接、停用词,拼写检查;
11、四、待测试特征的提取
12、从集合c中提取出以下7种类别的待测试特征:
13、基础特征类别a,包括文本长度、文本中的全英大写字词出现次数、文本中大写字词出现次数与文本长度的比值、文本中出现数字的数量、文本中出现数字的数量与文本长度的比值、文本中的句子总数6个特征;
14、情感特征类别b,包括情感极性、愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶、信任这9个特征;
15、词向量与段落向量特征类别c,包括由gensim模块提取出的50个word2vec特征和50个doc2vec特征;
16、bert向量特征类别d,包括768个特征;
17、混合特征类别e,e为a,b两种类别的特征集合,包括15个特征;
18、混合特征类别f,f为a,b,c三种类别的特征集合,包括115个特征;
19、混合特征类别g,g为a,b,c,d四种类别的特征集合,包括883个特征;
20、五、构建训练集和测试集
21、将集合c拆分为训练集和测试集两部分,其中测试集由相同数量的伤害数据和无伤害数据组成,训练集则为集合c排除测试集之后剩余的数据集合;
22、六、选择待测试的分类模型
23、选择lr、svm、mlp、xgboot 4种模型作为待测试的分类模型;
24、七、确定最优特征与分类模型的组合
25、基于步骤五的训练集和测试集,将a、b、c、d、e、f、g七组特征分别作为lr、svm、mlp、xgboot四个模型的输入特征进行训练和测试,获得28个评估值组成的评估值集合e={e1,e2,…,e28},其中每个评估值=准确率+精确率+召回率+f1,选取集合e中最大的值对应的特征类别和分类模型作为最优特征与分类模型的组合;
26、八、判断当前文本是否为恶意评论或虚假新闻
27、基于步骤七选取的最优特征与分类模型的组合,提取当前文本中对应的特征并输入对应训练后的分类模型,判断出当前文本是否为恶意评论或虚假新闻。
28、优选的,所述集合a包括以下7种数据:
29、恶意:含有恶意内容的评论;
30、严重恶意:恶意程度更加严重的评论内容;
31、淫秽:含有淫秽用语的评论内容;
32、威胁:含有威胁意图的评论内容;
33、侮辱:对目标有针对性侮辱的内容;
34、身分仇恨:针对目标的种族、身分带有仇恨攻击意图的内容;
35、非恶意:未含恶意或伤害意图的评论;
36、所述集合b包含有虚假新闻和真实新闻两种数据;
37、所述对集合a进行二分类,将其中的数据分为伤害数据和无伤害数据,对集合b进行二分类,将其中的数据分为伤害数据和无伤害数据包括:对集合a进行二分类,其中恶意、严重恶意、淫秽、威胁、侮辱、身份仇恨6种数据对应为伤害数据,非恶意数据对应为无伤害数据;对集合b进行二分类,其中虚假新闻对应为伤害数据,真实新闻对应为无伤害数据。
38、优选的,从集合a中抽取部分伤害数据和无伤害数据构成集合a1,从集合b中抽取部分伤害数据和无伤害数据构成集合b1,将a1与b1合并构成集合c包括:从集合a中抽取出δ笔伤害数据与δ笔无伤害数据构成集合a1,从集合b中抽取出δ笔伤害数据与δ笔无伤害数据构成集合b1,将a1与b1合并构成集合c。
39、优选的,步骤五中,测试集中的数据量为集合c的20%。
40、本专利技术第二方面提供了一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,所述方法包括以下步骤:
41、一、构建现有恶意评论资料集合a和虚假新闻资料集合b
42、对集合a进行二分类,将其中的数据分为伤害数据和无伤害数据;
43、对集合b进行二分类,将其中的数据分为伤害数据和无伤害数据;
44、二、构建混合文本资料集合c
45、从集合a中抽取部分伤害数据和无伤害数据构成集合a1,从集合b中抽取部分伤害数据和无伤害数据构成集合b1,将a1与b1合并构成集合c;
46、三、资料清理
47、对集合c中的数据进行英文断词,过滤标点符号、超链接、停用词,拼写检查;
48、四、文本特征的提取
49、从集合c中提取出以下4种类别的特征:
50、基础特征类别a,包括文本长度、文本中的全本文档来自技高网...
【技术保护点】
1.一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述集合A包括以下7种数据:
3.根据权利要求1所述的方法,其特征在于,从集合A中抽取部分伤害数据和无伤害数据构成集合A1,从集合B中抽取部分伤害数据和无伤害数据构成集合B1,将A1与B1合并构成集合C包括:从集合A中抽取出δ笔伤害数据与δ笔无伤害数据构成集合A1,从集合B中抽取出δ笔伤害数据与δ笔无伤害数据构成集合B1,将A1与B1合并构成集合C,其中δ为大于零的整数。
4.根据权利要求1所述的方法,其特征在于,步骤五中,测试集中的数据量为集合C的20%。
5.一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,所述方法包括以下步骤:
6.根据权利要求5所述的方法,其特征在于,所述集合A包括以下7种数据:
7.根据权利要求5所述的方法,其特征在于,从集合A中抽取部分伤害数据和无伤害
...【技术特征摘要】
1.一种适用于同时检测英文恶意评论和虚假新闻的方法,所述恶意评论为短文本结构,所述虚假新闻为长文本结构,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述集合a包括以下7种数据:
3.根据权利要求1所述的方法,其特征在于,从集合a中抽取部分伤害数据和无伤害数据构成集合a1,从集合b中抽取部分伤害数据和无伤害数据构成集合b1,将a1与b1合并构成集合c包括:从集合a中抽取出δ笔伤害数据与δ笔无伤害数据构成集合a1,从集合b中抽取出δ笔伤害数据与δ笔无伤害数据构成集合b1,将a1与b1合并构成集合c,其中δ为大于零的整数。
4.根据权利要求1所述的方...
【专利技术属性】
技术研发人员:谢成,杨群,周永鹏,杨铁龙,
申请(专利权)人:北京远禾科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。