【技术实现步骤摘要】
基于模型的预测数据变化频率的方法、装置和计算机设备
本申请涉及人工智能
,具体涉及一种基于模型的预测数据变化频率的方法、装置和计算机设备。
技术介绍
现有的网络数据变化频率的估计方案主要是基于统计学的一个统计假设:网络数据的变化频率服从泊松分布。基于泊松分布假设,X/T即是一个有效的变化频率估计方案(T表示时间间隔,X表示该网络数据在时间间隔T内的变化次数)。但是这个估计方案会存在以下不足:很多网络资源没有提供变化历史,这种情况下只有对比前后两次访问的相同页面的数据是否有变化才能知道是否变化。即便前后两次访问该网络数据不同,依然无法准确获取时间间隔T内该网络资源变化的次数。如果时间间隔T内的变化次数无法准确获取,对应的变化频率的估计也是不准确的。而对于知识库内一些新出现的实体,例如新型冠状病毒肺炎,由于目前缺乏与新出现的实体相关的数据,且新出现的实体的变化历史数据也比较少的,此时如果还是使用基于泊松分布的估计方案来对该新出现的实体的变化频率进行预测,则会导致对于新出现的实体的变化频率的预测准确性较低。专 ...
【技术保护点】
1.一种基于模型的预测数据变化频率的方法,其特征在于,包括:/n从百科网站中获取与指定实体对应的指定词条页面内的初始数据,其中,所述指定实体为预设知识库中的任意一个实体;/n从所述初始数据中提取出与所述指定实体对应的指定特征数据;/n调用预先训练好的预测模型,其中,所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成;/n将所述指定特征数据输入至所述预测模型内,以通过所述预测模型对所述指定特征数据进行预测处理;/n获取所述预设模型输出的与所述指定词条页面对应的输出结果;/n将所述输出结果作为所述指定实体的变化频率预测值。/n
【技术特征摘要】
1.一种基于模型的预测数据变化频率的方法,其特征在于,包括:
从百科网站中获取与指定实体对应的指定词条页面内的初始数据,其中,所述指定实体为预设知识库中的任意一个实体;
从所述初始数据中提取出与所述指定实体对应的指定特征数据;
调用预先训练好的预测模型,其中,所述预测模型基于预先收集的样本标签数据集对预设的回归模型进行训练后生成;
将所述指定特征数据输入至所述预测模型内,以通过所述预测模型对所述指定特征数据进行预测处理;
获取所述预设模型输出的与所述指定词条页面对应的输出结果;
将所述输出结果作为所述指定实体的变化频率预测值。
2.根据权利要求1所述的基于模型的预测数据变化频率的方法,其特征在于,所述从所述初始数据中提取出与所述指定实体对应的指定特征数据的步骤,包括:
获取预设的特征类别信息;
根据所述特征类别信息,从所述初始数据中提取出与所述特征类型信息对应的指定特征数据。
3.根据权利要求1所述的基于模型的预测数据变化频率的方法,其特征在于,所述调用预先训练好的预测模型的步骤之前,包括:
从百科网站中收集第一指定数量的词条页面信息;
按照预设的特征构造规则,使用所述词条页面信息构建样本标签数据集,其中,所述样本标签数据集包括与实体相关的特征数据,以及与实体对应的变化频率标签值;
将所述样本标签数据集划分为训练数据集与测试数据集;
利用所述训练数据集,并采用随机梯度下降法对预设的回归模型进行训练,生成训练好的第一初始模型;
采用所述测试数据集对所述训练好的第一初始模型进行验证,并判断是否验证通过;
若验证通过,则将所述训练好的第一初始模型作为所述预测模型;
将所述预测模型存储至区块链网络。
4.根据权利要求3所述的基于模型的预测数据变化频率的方法,其特征在于,所述采用所述测试数据集对所述训练好的第一初始模型进行验证,并判断是否验证通过的步骤,包括:
将所述测试数据集中的各测试样本输入至所述训练好的第一初始模型内,以得到所述各测试样本的测试结果;
根据所述各测试样本的测试结果,获取所述训练好的第一初始模型的准确率;
判断所述准确率是否大于预设的准确率阈值;
若判断出所述准确率大于预设的准确率阈值,则判定验证通过;
若判断出所述准确率不大于预设的准确率阈值,则判定验证不通过。
...
【专利技术属性】
技术研发人员:张圣,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。