基于去重样本的社交网络和LSTM模型准确率计算方法技术

技术编号:33468357 阅读:11 留言:0更新日期:2022-05-19 00:46
本发明专利技术公开的基于去重样本的社交网络和LSTM模型准确率计算方法,包括以下步骤:步骤1、集合构建,将原始序列数据集按照给定的类别构建的集合称为原始结果集合;步骤2、LSTM验证,先使用LSTM模型对数据进行分类,然后过滤分类正确的结果;将分类结果中帖子类型为主贴的保持不变,帖子类型为评论的在原始序列数据集中进行搜索,搜索当前评论对应的主贴;步骤3、回溯,拿到所有主贴后按照原始序列数据集构建社交网络;步骤4、衔接,将步骤1中构建的原始结果集合和步骤2LSTM和步骤3社交网络融合产生的结果集合进行融合和衔接。生的结果集合进行融合和衔接。生的结果集合进行融合和衔接。

【技术实现步骤摘要】
基于去重样本的社交网络和LSTM模型准确率计算方法


[0001]本专利技术属于自然语言处理文本分类领域,具体涉及一种基于去重样本的社交网络和LSTM模型准确率计算方法。

技术介绍

[0002]准确率一般被广泛用来评价准确的程度,通常情况下它可以衡量一个方法(例如在答题的时候准确率越高得分也就越高)的优劣。在人工智能领域亦是如此,人们为了更加客观地评价一个算法是否达到了预期的效果,主要使用准确率来衡量。
[0003]算法准确率指的是算法输出的结果与真实的结果比对,与真实结果一致的数量占总体数量的比例,比例越高,则证明该算法在某一方面表现良好。若要验证算法的优劣还需要结合其他指标例如召回率等综合评判。传统准确率的计算与其上述原理一致,是通过与真实值进行比对的方式进行计算的,当数据体量极其庞大的时候,其计算过程就会消耗较多算力。尤其是在复合模型中,例如LSTM和社交网络相结合的融合型的分类模型中,由于融合模型在计算最终的准确率的时候需要综合考虑,也可能会根据模型与模型之间的衔接情况而增加准确率计算的复杂度。故本专利技术基于此提出了一种在不重复样本或者重复率较低样本中在LSTM和社交网络融合分类模型的准确率计算方法。

技术实现思路

[0004]本专利技术的目的是提供一种基于去重样本的社交网络和LSTM模型准确率计算方法,该方法适用于不重复样本或者重复率较低的样本在社交网络和LSTM融合分类模型中的准确率的计算。
[0005]本专利技术所采用的技术方案是,基于去重样本的社交网络和LSTM模型准确率计算方法,包括以下步骤:
[0006]步骤1、集合构建,将原始序列数据集按照给定的类别构建集合,该集合称为原始结果集合;
[0007]步骤2、LSTM验证,先使用LSTM模型对数据进行分类,然后过滤分类正确的结果;将分类结果中帖子类型为主贴的保持不变,帖子类型为评论的在原始序列数据集中进行搜索,搜索当前评论对应的主贴;
[0008]步骤3、回溯,拿到所有主贴后按照原始序列数据集构建社交网络;
[0009]步骤4、衔接,将步骤1中构建的原始结果集合,步骤2LSTM和步骤3社交网络融合产生的结果集合进行融合和衔接。
[0010]本专利技术的特征还在于,
[0011]步骤1的具体实施方式为:构建两个原始结果集合,原始结果集合中的每个元素是以帖子内容为键以帖子的类型为值的字典,其中帖子的类型为主贴与评论,两个原始结果集合具体为C1 Sample Set及C2 Sample Set。
[0012]步骤2的具体实施方式为:
[0013]首先使用LSTM分类器对帖子进行二分类,将分类结果按照类别形成结果集合,并记作γ和θ,其中γ代表LSTM分类后类别显示为C1类的结果,θ代表LSTM分类后类别显示为C2类的结果;
[0014]然后将分类错误的数据暂时搁置,分类正确的数据进行以下操作:判断当前帖子是主贴还是评论,如果查询到帖子是主贴,将直接进入下一环节即构建社交网络,如果查询结果是评论,将进入图一中Search环节与AllpostsBase比对去查询其真正对应的主贴;待查到当前评论对应的主贴以后再进入下一环节即构建社交网络。
[0015]步骤3的具体实施方式为:
[0016]当前已经拿到的都是LSTM分类后分类正确的主贴以及分类正确的评论对应的主贴,拿到所有的主贴以后,将针对每一个主贴返回到AllpostsBase中去搜索,这个过程叫做大搜索,也即图一中Trace所示;它们都返回到AllpostsBase中按照原始序列信息查询结点之间存在的依赖关系,然后形成社交网络结果集;将构建好的所有网络结点拿出来然后分别形成不同类别对应的集合即C1nodeset和C2nodeset,将C1nodeset和C2nodeset分别记为a和b做如下操作:
[0017]α=a∩p(1)
[0018]β=b∩q(2)
[0019]α和β为C1和C2类别对应的社交网络最终的结果集合;公式(1)(2)中的p和q分别指C1SampleSet及C2SampleSet。
[0020]步骤4的具体实施方式为:
[0021]建立LSTM和社交网络模型的衔接,具体为:构建社交网络的结果集合α和β与LSTM结果集合γ和θ,然后进行如下操作:
[0022]s1=α∪γ(3)
[0023]s2=β∪θ(4)
[0024]其中s1和s2对应LSTM和社交网络融合模型所计算出的C1类别和C2类别对应的集合;然后再进行如下(5),(6)操作:
[0025]L1=s1∩p(5)
[0026]L2=s2∩q(6)
[0027]其中L1和L2分别代表两种类别分别被判断对的帖子,p和q分别指C1SampleSet及C2SampleSet;
[0028]最后,使用公式(7)计算得出最终的准确率:
[0029][0030]本专利技术的有益效果是:本专利技术的方法是健壮的,与普通计算准确率的方法不同,本专利技术方法适用于具有社交性质的深度学习与社交网路融合模型准确率的计算。由于社交网站数据的特性,重复数据较少,且具有时序性和社交属性,本专利技术方法能够运用社交数据集本身的特点在融合模型中较快地计算出融合模型的准确率。
附图说明
[0031]图1是本专利技术基于去重样本的社交网络和LSTM模型准确率计算方法的流程图。
具体实施方式
[0032]下面结合附图和具体实施方式对本专利技术进行详细说明。
[0033]本专利技术提供一种基于去重样本的社交网络和LSTM模型准确率计算方法,如图1所示,包括以下步骤:
[0034]步骤1、集合构建,将原始序列数据集按照给定的类别构建的集合称为原始结果集合,一个类别一个集合;
[0035]步骤1的具体实施方式为:构建两个原始结果集合,原始结果集合中是以帖子内容为键以帖子的类型为值的字典,其中帖子的类型为主贴与评论,如下图1所示,两个原始结果集合具体为C1SampleSet及C2SampleSet。
[0036]步骤2、LSTM验证,先使用LSTM模型对数据进行分类,然后过滤分类正确的结果;将分类结果中帖子类型为主贴的保持不变,帖子类型为评论的在原始序列数据集中进行搜索,搜索当前评论对应的主贴;
[0037]步骤2的具体实施方式为:
[0038]首先使用LSTM分类器对帖子进行二分类,将分类结果按照类别形成结果集合,并记作γ和θ,其中γ代表LSTM分类后类别显示为C1类的结果,θ代表LSTM分类后类别显示为C2类的结果;
[0039]然后将分类错误的数据暂时搁置,分类正确的数据进行以下操作:判断当前帖子是主贴还是评论,就是图一中judgePosttype阶段,该部分使用帖子内容为键去查询其对应的值(即帖子类型)从而判断帖子类型是主贴还是评论;这一步的判断需要利用由原始序列数据集AllpostsBase(本实验使用的是其中的一部分,AllpostsBase指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于去重样本的社交网络和LSTM模型准确率计算方法,其特征在于,包括以下步骤:步骤1、集合构建,将原始序列数据集按照给定的类别构建好集合,该集合称为原始结果集合;步骤2、LSTM验证,先使用LSTM模型对数据进行分类,然后过滤分类正确的结果;将分类结果中帖子类型为主贴的保持不变,帖子类型为评论的在原始序列数据集中进行搜索,搜索当前评论对应的主贴;步骤3、回溯,拿到所有主贴后按照原始序列数据集构建社交网络;步骤4、衔接,将步骤1中构建的原始结果集合和步骤2LSTM和步骤3社交网络融合产生的结果集合进行融合和衔接。2.根据权利要求1所述的基于去重样本的社交网络和LSTM模型准确率计算方法,其特征在于,步骤1的具体实施方式为:构建两个原始结果集合,原始结果集合中的每个元素是以帖子内容为键以帖子的类型为值的字典,其中帖子的类型为主贴与评论,两个原始结果集合具体为C1SampleSet及C2SampleSet。3.根据权利要求1所述的基于去重样本的社交网络和LSTM模型准确率计算方法,其特征在于,步骤2的具体实施方式为:首先使用LSTM分类器对帖子进行二分类,将分类结果按照类别形成结果集合,并记作γ和θ,其中γ代表LSTM分类后类别显示为C1类的结果,θ代表LSTM分类后类别显示为C2类的结果;然后将分类错误的数据暂时搁置,分类正确的数据进行以下操作:判断当前帖子是主贴还是评论,如果查询到帖子是主贴,将直接进入下一环节即构建社交网络,如果查询结果是评论,将进入图中Search环节与AllpostsBase比对去查询其真正对应的主贴;待查到当前评论对应的主贴以...

【专利技术属性】
技术研发人员:魏嵬李晓婉张贝贝
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1