基于去重样本的社交网络和LSTM模型准确率计算方法技术

技术编号：33468357 阅读：11 留言：0更新日期：2022-05-19 00:46

本发明专利技术公开的基于去重样本的社交网络和LSTM模型准确率计算方法，包括以下步骤：步骤1、集合构建，将原始序列数据集按照给定的类别构建的集合称为原始结果集合；步骤2、LSTM验证，先使用LSTM模型对数据进行分类，然后过滤分类正确的结果；将分类结果中帖子类型为主贴的保持不变，帖子类型为评论的在原始序列数据集中进行搜索，搜索当前评论对应的主贴；步骤3、回溯，拿到所有主贴后按照原始序列数据集构建社交网络；步骤4、衔接，将步骤1中构建的原始结果集合和步骤2LSTM和步骤3社交网络融合产生的结果集合进行融合和衔接。生的结果集合进行融合和衔接。生的结果集合进行融合和衔接。

全部详细技术资料下载

【技术实现步骤摘要】
基于去重样本的社交网络和LSTM模型准确率计算方法

[0001]本专利技术属于自然语言处理文本分类领域，具体涉及一种基于去重样本的社交网络和LSTM模型准确率计算方法。

技术介绍

[0002]准确率一般被广泛用来评价准确的程度，通常情况下它可以衡量一个方法(例如在答题的时候准确率越高得分也就越高)的优劣。在人工智能领域亦是如此，人们为了更加客观地评价一个算法是否达到了预期的效果，主要使用准确率来衡量。
[0003]算法准确率指的是算法输出的结果与真实的结果比对，与真实结果一致的数量占总体数量的比例，比例越高，则证明该算法在某一方面表现良好。若要验证算法的优劣还需要结合其他指标例如召回率等综合评判。传统准确率的计算与其上述原理一致，是通过与真实值进行比对的方式进行计算的，当数据体量极其庞大的时候，其计算过程就会消耗较多算力。尤其是在复合模型中，例如LSTM和社交网络相结合的融合型的分类模型中，由于融合模型在计算最终的准确率的时候需要综合考虑，也可能会根据模型与模型之间的衔接情况而增加准确率计算的复杂度。故本专利技术基于此提出了一种在不重复样本或者重复率较低样本中在LSTM和社交网络融合分类模型的准确率计算方法。

技术实现思路

[0004]本专利技术的目的是提供一种基于去重样本的社交网络和LSTM模型准确率计算方法，该方法适用于不重复样本或者重复率较低的样本在社交网络和LSTM融合分类模型中的准确率的计算。
[0005]本专利技术所采用的技术方案是，基于去重样本的社交网络和LSTM模型准确...

【技术保护点】

【技术特征摘要】
1.基于去重样本的社交网络和LSTM模型准确率计算方法，其特征在于，包括以下步骤：步骤1、集合构建，将原始序列数据集按照给定的类别构建好集合，该集合称为原始结果集合；步骤2、LSTM验证，先使用LSTM模型对数据进行分类，然后过滤分类正确的结果；将分类结果中帖子类型为主贴的保持不变，帖子类型为评论的在原始序列数据集中进行搜索，搜索当前评论对应的主贴；步骤3、回溯，拿到所有主贴后按照原始序列数据集构建社交网络；步骤4、衔接，将步骤1中构建的原始结果集合和步骤2LSTM和步骤3社交网络融合产生的结果集合进行融合和衔接。2.根据权利要求1所述的基于去重样本的社交网络和LSTM模型准确率计算方法，其特征在于，步骤1的具体实施方式为：构建两个原始结果集合，原始结果集合中的每个元素是以帖子内容为键以帖子的类型为值的字典，其中帖子的类型为主贴与评论，两个原始结果集合具体为C1SampleSet及C2SampleSet。3.根据权利要求1所述的基于去重样本的社交网络和LSTM模型准确率计算方法，其特征在于，步骤2的具体实施方式为：首先使用LSTM分类器对帖子进行二分类，将分类结果按照类别形成结果集合，并记作γ和θ，其中γ代表LSTM分类后类别显示为C1类的结果，θ代表LSTM分类后类别显示为C2类的结果；然后将分类错误的数据暂时搁置，分类正确的数据进行以下操作：判断当前帖子是主贴还是评论，如果查询到帖子是主贴，将直接进入下一环节即构建社交网络，如果查询结果是评论，将进入图中Search环节与AllpostsBase比对去查询其真正对应的主贴；待查到当前评论对应的主贴以...

【专利技术属性】
技术研发人员：魏嵬，李晓婉，张贝贝，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人