一种基于深度学习的科技新闻自动写作系统技术方案

技术编号:26172138 阅读:32 留言:0更新日期:2020-10-31 13:48
本发明专利技术公开了一种基于深度学习的科技新闻自动写作系统,涉及新闻写作技术领域,本发明专利技术包括网络爬虫模块;科技新闻预处理模块;科技新闻分类聚类模块;科技新闻深度学习生成训练模块;新闻自动生成模块;生成新闻展示模块,解决实现科技新闻快速生成,并且可以根据不同的网站风格之类,生成出来不同风格的新闻形式。

【技术实现步骤摘要】
一种基于深度学习的科技新闻自动写作系统
本专利技术涉及新闻写作
,用于科技新闻的信息处理和新闻稿编写更具体的是涉及一种基于深度学习的科技新闻自动写作系统。
技术介绍
新闻作品有很多类别,诸如民生、时政、军事等等,这些见诸于报端的各个栏目或版面,互联网的新闻也逐渐的增多,各类新闻网站层出不穷。而科技新闻就是新近发生的有特色的科技事实的报道,由于科技类新闻多为会议新闻,素材多为会议通稿以及相关报道,鲜有专门的采访,因此素材很重要。而针对科技类新闻,对于记者的要求也偏向理科生的理性思维。而随着互联网的发展,科技人物,科技事件的发生,每天科技类的相关报道也约来越多,而相对来说针对科技类的新闻报道也越来越多,导致新闻报道成本越来越高。因此为了降低科技类新闻的报道成本,发现DeepMind的最新研究成果,对广泛使用于语音识别、图像识别、语义理解等领域的深度学习人工网络RNN性能带来显著提升(substantiallybetter)。研究主要在记忆时序生成模型上用了外部记忆来增强,对深度学习领域的研究有一定启发,本专利技术使用生成记忆模本文档来自技高网...

【技术保护点】
1.一种基于深度学习的科技新闻自动写作系统,其特征在于,包括以下几个模块:/n网络爬虫模块:该模块从各个网站采集网站的科技频道,科技新闻,以及采集各个科技网站的相关内容,将采集的数据进行正文提取,存入数据库;/n科技新闻预处理模块:针对采集的新闻,进行分词,命名实体识别,实体关系抽取,句法分析,语义分析;/n科技新闻分类聚类模块:主要针对科技新闻内容,尽心进一步的细化,采用智能分类和聚类技术,针对科技新闻进行详细分类基于深度学习的生成记忆模型针对新闻内容进行训练学习,最终实现一个基于生成记忆模型的新闻生成模型;/n科技新闻深度学习生成训练模块:基于svm和基于深度学习的textrnn的分类系统...

【技术特征摘要】
1.一种基于深度学习的科技新闻自动写作系统,其特征在于,包括以下几个模块:
网络爬虫模块:该模块从各个网站采集网站的科技频道,科技新闻,以及采集各个科技网站的相关内容,将采集的数据进行正文提取,存入数据库;
科技新闻预处理模块:针对采集的新闻,进行分词,命名实体识别,实体关系抽取,句法分析,语义分析;
科技新闻分类聚类模块:主要针对科技新闻内容,尽心进一步的细化,采用智能分类和聚类技术,针对科技新闻进行详细分类基于深度学习的生成记忆模型针对新闻内容进行训练学习,最终实现一个基于生成记忆模型的新闻生成模型;
科技新闻深度学习生成训练模块:基于svm和基于深度学习的textrnn的分类系统,同时针对部分类别属性不明确的新闻,进行了无监督的聚类算法,实现了基于lda的自动聚类算法的针对分类阈值归属较为偏离的内容进行聚类;
新闻自动生成模块:用户只要输入想要写作新闻的关键词,写作风格和时间等要素,新闻生成模型自动搜寻写作生成用户需要的新闻内容展示给用户;
生成新闻展示模块:新闻自动生成模块生成的新闻,按照指定的网络协议,传输发动到指定的论坛,新闻网站,由用户进行打分,进行评估新闻生成质量的好坏,反馈到第四部分,不断的优化改进,最终实现了一版基本可读新闻的内容。


2.根据权利要求1所述的基于深度学习的科技新闻自动写作系统,其特征在于:所述科技新闻预处理模块包括:
新闻内容分词子模块:主要是针对新闻正文和标题进行,格式话进行繁简转化,大小写统一,无效字符删除等,针对处理后的内容进行分词,去除停用词作为候选处理数据集;
新闻命名实体识别模块:主要是识别出新闻的人名,地名,组织机构名,产品名,专业名词和发生时间等;
新闻实体关系抽取模块:主要是针对识别出的各类名词,抽取优化出来各种实体之间的关系实体关系抽取是,基于crf++方式识别出来实体,然后根据hownet和人工组建的实体关系标注知识库,进行实体关...

【专利技术属性】
技术研发人员:刘超刘霖雯
申请(专利权)人:北京北斗天巡科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1