【技术实现步骤摘要】
一种新闻处理方法及装置
[0001]本申请涉及人工智能技术以及区块链技术,尤其涉及一种新闻处理方法及装置。
技术介绍
[0002]人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
[0003]信息推荐是人工智能的重要应用。以当前网络上的新闻信息呈现爆炸式增长趋势,面对海量的新闻信息,个性化的新闻搜索引擎应运而生。新闻搜索引擎需要依赖新闻排序模型对新闻进行恰当的排序以展现给用户。
[0004]即,相关技术中,在开发一个新闻排序模型时,依赖大量人工标注训练数据,成本较高,影响了训练效率和新闻排序结果的时效性。因此,相关技术中缺乏新闻排序模型的有效方案。
技术实现思路
[0005]本申请实施例提供一种新闻处理方法、装置、电子设备及计算机可读存储介质,能够高效训练具有优良的时新性的新闻排序模型。
[0006]本申请实施例的技术方案是这样实现的: ...
【技术保护点】
【技术特征摘要】
1.一种新闻处理方法,其特征在于,所述方法包括:从网页排序模型训练数据中抽取符合时新性要求的部分训练数据,作为新闻排序模型训练数据;基于所述新闻排序模型训练数据的时新性、以及所述新闻排序模型训练数据的相关性标签,确定所述新闻排序模型训练数据的时新性标签;基于所述新闻排序模型训练数据以及对应的时新性标签,训练新闻排序模型;基于训练好的所述新闻排序模型对多个新闻信息进行排序处理。2.根据权利要求1所述的方法,其特征在于,在确定所述新闻排序模型训练数据的时新性标签之前,所述方法还包括:获取所述新闻排序模型训练数据对应的查询串在多个时间段的搜索量;遍历所述多个时间段中任意的两个相邻时间段,对所述任意的两个相邻时间段的搜索量进行检验处理,得到所述查询串对应的两个相邻时间段;将所述查询串对应的两个相邻时间段的后一时间段的结束时刻与当前时刻之间的时间间隔,作为所述新闻排序模型训练数据的时新性。3.根据权利要求2所述的方法,其特征在于,所述对所述任意的两个相邻时间段的搜索量进行检验处理,得到所述查询串对应的两个相邻时间段,包括:对任意的两个相邻时间段执行以下处理:对所述两个相邻时间段的搜索量进行拟合处理,得到检验统计量;基于卡方分布将所述检验统计量映射为可信度;其中,所述可信度表征所述结束时刻与所述两个相邻时间段的搜索量的增量的相关程度;将最大可信度对应的两个相邻时间段作为所述查询串对应的两个相邻时间段。4.根据权利要求1所述的方法,其特征在于,所述基于所述新闻排序模型训练数据的时新性、以及所述新闻排序模型训练数据的相关性标签,确定所述新闻排序模型训练数据的时新性标签,包括:获取所述时新性的权重值和所述相关性标签的权重值;其中,所述时新性的权重值大于所述相关性标签的权重值;根据所述时新性的权重值和所述相关性标签的权重值,对所述时新性和所述相关性标签进行加权求和处理,将加权求和结果作为所述新闻排序模型训练数据的时新性标签。5.根据权利要求1所述的方法,其特征在于,在基于所述新闻排序模型训练数据以及对应的时新性标签,训练所述新闻排序模型之前,所述方法还包括:根据不同的时新性敏感度与所述新闻排序模型的不同的训练数据数量比例之间的对应关系,确定与所述新闻排序模型的时新性敏感度对应的训练数据数量比例;其中,所述时新性敏感度与目标训练数据的数量成正相关,所述目标训练数据为所述时新性标签的目标等级对应的所述新闻排序模型训练数据,所述目标等级包括所述时新性标签的等级降序排序的前二分...
【专利技术属性】
技术研发人员:康战辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。