新闻素材的采集方法及装置、存储介质、电子装置制造方法及图纸

技术编号:29459572 阅读:19 留言:0更新日期:2021-07-27 17:28
本发明专利技术提供了一种新闻素材的采集方法及装置、存储介质、电子装置,其中,该方法包括:采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据;提取所述第一新闻源数据中的第一关键词集合,并基于所述第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;提取所述第二新闻源数据中的第二关键词集合;根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材。通过本发明专利技术,解决了相关技术采集新闻素材的准确率低的技术问题,同时提高了多源文本数据的采集效率,降低了新闻数据的冗余度。

Collection method and device of news material, storage medium and electronic device

【技术实现步骤摘要】
新闻素材的采集方法及装置、存储介质、电子装置
本专利技术涉及计算机领域,具体而言,涉及一种新闻素材的采集方法及装置、存储介质、电子装置。
技术介绍
相关技术中,随着新闻数字化的兴起,网络新闻信息爆炸式增长。网络上存在着海量的新闻内容,在这些新闻之中,因新闻报道者的不同,新闻内容也会存在着差异,但本质上还是同一个新闻主题。同时,网络上的海量新闻以文章的形式呈现居多,人们想要得到一些新闻消息时需要额外花费不少时间。现代信息技术和存储技术的快速发展以及互联网的迅速蔓延,以网络为载体的网络新闻兴起,网络新闻信息爆炸式增长,其中可能存在一些虚假新闻,而如何辨别筛选出可信度高的新闻是一个关键的问题。同时,现代人们工作生活节奏加快,如何使人们在短时间内快速了解新闻信息是一个重要的问题,面对这两个挑战性问题,只依靠人力来解决不仅低效且难以实现,所以能够对海量数据进行智能化处理的人工智能技术成为现在的研究热点,并在近些年得到快速发展,各种基于人工智能技术的系统层出不穷。利用文本摘要抽取技术,根据这些同一主题但不同描述内容的新闻信息得到简短且有可靠性的新闻摘要,人们能通过新闻摘要快速了解新闻内容。相关技术中,信息技术和存储技术的快速发展以及互联网的迅速蔓延,以网络为载体的网络新闻兴起,网络新闻信息爆炸式增长,其中可能存在一些虚假新闻,而如何辨别筛选出可信度高的新闻是一个关键的问题。同时,现代人们工作生活节奏加快,如何使人们在短时间内快速了解新闻信息是一个重要的问题,面对这两个挑战性问题,只依靠人力来解决不仅低效且难以实现,所以能够对海量数据进行智能化处理的人工智能技术成为现在的研究热点,并在近些年得到快速发展,各种基于人工智能技术的系统层出不穷。相关技术中,人工智能应用系统在数据采集环节采取的爬取策略单一,采集到的数据可能会造成后续机器学习的性能影响,尤其比如像新闻信息数据,若在采集的时候没有针对虚假新闻的处理,能可能会导致虚假新闻也进入到了机器学习过程,进而对最终的应用系统造成不良影响。针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种新闻素材的采集方法及装置、存储介质、电子装置。根据本专利技术的一个实施例,提供了一种新闻素材的采集方法,包括:采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据;提取所述第一新闻源数据中的第一关键词集合,并基于所述第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;提取所述第二新闻源数据中的第二关键词集合;根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材。可选的,根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材包括:对比所述第一关键词集和所述第二关键词集合,提取所述第一关键词集和所述第二关键词集合在第一采集周期的第一共有关键词集合;判断所述第一共有关键词的数量是否小于预设阈值;若所述第一共有关键词的数量小于预设阈值,将所述第一关键词集和所述第二关键词输出所述目标主题的新闻素材;若所述第一共有关键词的数量大于或等于预设阈值,以所述第二关键词集合为起始关键字继续迭代提取关键字集合,直到迭代后的第n采集周期的第n共有关键词集合的数量小于预设阈值,其中,n为大于0的整数。可选的,在第二采集周期,以所述第二关键词集合为起始关键字继续迭代提取关键字集合包括:以所述第二关键词集合为搜索关键字采用限制来源的方式从所述指定数据源采集第三新闻源数据;提取所述第三新闻源数据中的第三关键词集合,并基于所述第三关键词集合采用非限制来源的方式从所述搜索引擎采集第四新闻源数据;提取所述第四新闻源数据中的第四关键词集合。可选的,所述方法还包括:对所述新闻源数据进行分词处理,得到词序列;配置所述词序列的第一标签信息,生成新闻数据集,其中,所述新闻数据集包括词序列和对应的第一标签信息,其中,所述新闻源数据包括所述第一新闻源数据和所述第二新闻源数据;采用目标命名实体识别NER模型识别所述新闻数据集,并输出所述新闻数据集的实体信息,其中,所述实体信息包括有效字符序列;从所述新闻素材中选择与所述实体信息匹配的新闻特征素材。可选的,在采用目标NER模型识别所述新闻数据集之前,所述方法还包括:将所述新闻数据集划分为训练集,验证集,以及测试集;采用所述训练集,所述验证集,以及所述测试集迭代训练初始NER模型,直到最新的目标NER模型满足预设条件。可选的,采用所述训练集,所述验证集,以及所述测试集迭代训练初始NER模型,包括:将所述训练集,所述验证集,以及所述测试集分割成第一字符序列;将所述第一字符序列作为输入数据,提取所述第一字符序列的特征信息,并基于所述特征信息生成特征向量集合;采用双向长期短期记忆BiLSTM网络提取所述特征向量集合的隐状态序列,其中,所述隐状态序列包括字与字之间的关系特征信息;根据所述隐状态序列对所述第一字符序列中的字符进行实体标签检测,得到第二标签信息,并根据所述第一标签信息和所述第二标签信息采用维特比算法生成第三标签信息,得到第二字符序列,其中,所述第二字符序列包括词序列和对应的第三标签信息;将所述第二字符序列作为输入数据,迭代训练所述初始NER模型,直到当前迭代周期的NER模型满足预设条件。可选的,采用BiLSTM网络提取所述特征向量集合的隐状态序列包括:根据所述特征向量集合提取到字的特征信息,将各个字对应的特征向量输入到BiLSTM网络,其中,所述BiLSTM网络包括一个正向LSTM和一个反向LSTM;正向LSTM根据输入的特征向量输出得到正向隐状态序列,反向LSTM根据输入的特征向量输出得到反向隐状态序列;将所述正向隐状态序列和所述反向隐状态序列进行拼接得到完整的所述隐状态序列。根据本专利技术的另一个实施例,提供了一种新闻素材的采集装置,包括:第一采集模块,用于采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据;第二采集模块,用于提取所述第一新闻源数据中的第一关键词集合,并基于所述第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;提取模块,用于提取所述第二新闻源数据中的第二关键词集合;生成模块,用于根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材。可选的,所述生成模块包括:提取单元,用于对比所述第一关键词集和所述第二关键词集合,提取所述第一关键词集和所述第二关键词集合在第一采集周期的第一共有关键词集合;判断单元,用于判断所述第一共有关键词的数量是否小于预设阈值;处理单元,用于若所述第一共有关键词的数量小于预设阈值,将所述第一关键词集和所述第二关键词输出所述目标主题的新闻素材;若所述第一共有关键词的数量大于或等于预设阈值,以所述第二关键词集合为起始关键字继续迭代提取关键字集合,直到迭代后的第n采集周期的第n共有关键词集合的数量小于预设阈值,其中,n为大于0的整数。可选的,在第二采集周期,所述处理单元包括:第一采集子单元,用于以所述第二关键词集合为搜索关键字采用限制来源的方式从所述指定数据源采集第三新闻源本文档来自技高网
...

【技术保护点】
1.一种新闻素材的采集方法,其特征在于,包括:/n采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据;/n提取所述第一新闻源数据中的第一关键词集合,并基于所述第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;/n提取所述第二新闻源数据中的第二关键词集合;/n根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材。/n

【技术特征摘要】
1.一种新闻素材的采集方法,其特征在于,包括:
采用限制来源的方式从指定数据源采集目标主题的第一新闻源数据;
提取所述第一新闻源数据中的第一关键词集合,并基于所述第一关键词集合采用非限制来源的方式从搜索引擎采集第二新闻源数据;
提取所述第二新闻源数据中的第二关键词集合;
根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材。


2.根据权利要求1所述的方法,其特征在于,根据所述第一关键词集和所述第二关键词集合生成所述目标主题的新闻素材包括:
对比所述第一关键词集和所述第二关键词集合,提取所述第一关键词集和所述第二关键词集合在第一采集周期的第一共有关键词集合;
判断所述第一共有关键词的数量是否小于预设阈值;
若所述第一共有关键词的数量小于预设阈值,将所述第一关键词集和所述第二关键词输出所述目标主题的新闻素材;若所述第一共有关键词的数量大于或等于预设阈值,以所述第二关键词集合为起始关键字继续迭代提取关键字集合,直到迭代后的第n采集周期的第n共有关键词集合的数量小于预设阈值,其中,n为大于0的整数。


3.根据权利要求2所述的方法,其特征在于,在第二采集周期,以所述第二关键词集合为起始关键字继续迭代提取关键字集合包括:
以所述第二关键词集合为搜索关键字采用限制来源的方式从所述指定数据源采集第三新闻源数据;
提取所述第三新闻源数据中的第三关键词集合,并基于所述第三关键词集合采用非限制来源的方式从所述搜索引擎采集第四新闻源数据;
提取所述第四新闻源数据中的第四关键词集合。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述新闻源数据进行分词处理,得到词序列;
配置所述词序列的第一标签信息,生成新闻数据集,其中,所述新闻数据集包括词序列和对应的第一标签信息,其中,所述新闻源数据包括所述第一新闻源数据和所述第二新闻源数据;采用目标命名实体识别NER模型识别所述新闻数据集,并输出所述新闻数据集的实体信息,其中,所述实体信息包括有效字符序列;
从所述新闻素材中选择与所述实体信息匹配的新闻特征素材。


5.根据权利要求4所述的方法,其特征在于,在采用目标NER模型识别所述新闻数据集之前,所述方法还包括:
将所述新闻数据集划分为训练集,验证集,以及测试集;
采用所述训练集,所述验证集,以及所述测试集迭代...

【专利技术属性】
技术研发人员:程刚张剑王昕黄仁杰
申请(专利权)人:深圳市北科瑞讯信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1