【技术实现步骤摘要】
基于线索簇的流式新闻线索发现方法
[0001]本专利技术涉及新闻发现,特别涉及基于线索簇的流式新闻线索发现方法。
技术介绍
[0002]一篇新闻报道的生产,往往会经历策划选题、收集素材、撰写修改定稿以及审核发布的一整套流程。随着互联网的发展,网络事件已经成为新闻选题的主要来源,而优秀的线索发现系统则可以在海量的网络信息中,更加快速、准确的找到有用的新闻选题。
[0003]现有的新闻线索发现方法大致可以分为基于传播路径的分析识别和基于事件识别两种方法。前者需要依赖大量的用户实时转赞评数据,对数据的抓取量和抓取的时效性都提出了不切实际的要求。目前只有新浪微博等大型UGC平台拥有满足实现基于传播路径分析的数据。后者则是大部分没有实时数据公司的首选方案。但是事件的识别需要前期大量的人工定义和数据标注,并且对于新颖的事件类型不能及时覆盖,迭代周期较长。
技术实现思路
[0004]本专利技术所解决的技术问题:提供一种基于线索簇的流式新闻线索发现方法,解决现有技术对新闻事件的数据抓取困难,时效性低的问题。
...
【技术保护点】
【技术特征摘要】
1.基于线索簇的流式新闻线索发现方法,其特征在于,包括以下步骤:S01、获取UGC平台的新闻;S02、基于设定的触发词提取新闻的事件类别和论元;S03、如果抽取出事件类别,则判定抽取出的事件类别和论元与线索簇中已存在的线索是否匹配,所述线索包括事件类别和论元,如果匹配,则将所述新闻放入匹配到的线索内,如果不匹配,则将抽取出的事件类别和论元作为新的线索放入线索簇;S04、如果没有抽取出事件类别,则抽取所述新闻的要素,所述新闻的要素包括时间、地点和人物,利用多模态的深度匹配技术得到所述新闻和线索簇中已有的新闻的匹配度,如果人物要素和地点要素相同,时间要素差距在预设值之内,且匹配度大于阈值,则将所述新闻放入匹配到的已有的新闻所在的事件类型内所在的事件内,否则,将新闻的要素作为新的线索放入线索簇,并将所述新闻放入所述新的线索内;S05、利用新闻价值预测模型对线索簇中的线索进行价值预测,获得新闻价值分数,并和UGC平台信任度分数进行加权,得到新闻价值预测分数,并排序,生成实时线索列表。2.根据权利要求1所述的基于线索簇的流式新闻线索发现方法,其特征在于,获取UGC平台的新闻包括以下步骤:S101、梳理各大UGC平台,并对每个UGC平台进行可信度打分;S102、根据可信度动态分配抓取资源,构建实时新闻爬取算法,获得每个UGC平台的新闻;S103、构建基于词典、拼音、异形字和深度学习的敏感检测算法对新闻进行过滤,构建基于规则、知识图谱以及深度学习方法的虚假信息检测算法对新闻再次过滤;S104、对新闻进行字段清洗、标准化和去重处理。3.根据权利要求2所述的基于线索簇的流式新闻线索发现方法,其特征在于,所述敏感检测算法用于过滤掉涉黄、涉爆和广告,所述虚假信息检测算法用于过滤掉虚假信息。4.根据权利要求1
‑
3任意一项所述的基于线索簇的流式新闻线索发现方法,其特征在于,步骤S02中,基于设定的触发词抽取所述新闻的事件类别和论元包括以下步骤:S201、根据预先设定的事件触发词对新闻中的句子进行事件类型分类;S202、利用联合模型DMCNN进行句子级...
【专利技术属性】
技术研发人员:陈涵宇,高登科,徐桢虎,陈功彬,张笑然,
申请(专利权)人:四川封面传媒科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。