基于智能创作算法的融媒体采编发系统技术方案

技术编号:24708247 阅读:29 留言:0更新日期:2020-07-01 00:00
本发明专利技术公开的一种基于智能创作算法的融媒体采编发系统,包括业务终端、用户终端以及业务处理平台;业务处理平台包括,内容采集与智能处理模块,用于对原始资源进行预处理和语义处理形成语料库,并接收所述业务终端采写的文本序列,从语料库中智能检索与文本序列语义相匹配的文本序列,并输出至业务终端;多渠道整合发布与运营模块,利用爬虫算法提取多种类型的融媒体资源,并在多个用户终端进行认证多渠道融合发布。本发明专利技术能够完整替换新闻出版传媒企业现有的采编发流程,极大程度地提升行业内容产生的效率,同时基于智能创作算法能够实现自动化撰写服务,由此缩短了传统采编流程中素材搜集的时间,在提升创作效率的同时输出多样化的稿件。

【技术实现步骤摘要】
基于智能创作算法的融媒体采编发系统
本专利技术属于信息处理
,涉及一种基于智能创作算法的融媒体采编发系统。
技术介绍
目前,大多数新闻出版传媒机构已经将存量资源数字化为多种类型的数据库产品。但是,在新媒体随着互联网和移动技术发展而崛起的今天,如何使传统媒体和新媒体融合发展,如何能集各种新闻出版传媒机构的优势于一身,整合各家优势资源并为内容创作提供智能化的辅助服务,是当下新闻出版传媒行业智能化转型的突出问题。对于稿件生产过程提供智能化服务必不可少的就是自动语义分析,任何对语言的理解都可以归为语义分析的范畴。一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同,语义分析又可进一步分解为词汇级语义分析、句子级语义分析以及篇章级语义分析。语义分析的目标就是通过建立有效的模型和系统,实现在各个语言单位(包括词汇、句子和篇章等)的自动语义分析,从而实现理解整个文本表达的真实语义。因此,提供一种用于实现自动化智能服务的基于智能创作算法的融媒体采编发系统是本领域技术人员亟待解决的技术问题。
技术实现思路
本专利技术针对上述研究现状和存在的问题,提供了一种基于智能创作算法的融媒体采编发系统。能够完整替换新闻出版传媒企业现有的采编发流程,为从业人员提供更加智能的内容创作、编审以及内容发布和运营支撑服务,极大程度地提升行业内容产生的效率,同时基于自然语言处理的智能文字润色功能能够实现自动化撰写润色服务,由此缩短了传统采编流程中素材搜集的时间,在提升创作效率的同时输出多样化的稿件。为实现上述目的其具体方案如下:一种基于智能创作算法的融媒体采编发系统,包括业务终端、用户终端以及业务处理平台;所述业务处理平台包括,内容采集与智能处理模块,用于对原始资源进行预处理和语义处理形成语料库,并接收所述业务终端采写的文本序列,从语料库中智能检索与文本序列语义相匹配的文本序列,并输出至所述业务终端;多渠道整合发布与运营模块,利用爬虫算法提取多种类型的融媒体资源,并在多个所述用户终端进行认证多渠道融合发布。优选的,还包括统一内容资源管理平台,用于对所有资源内容进行统一管理与调取,所述资源内容包括文本内容、HowNet语料库、图片以及音视频等,以便于用户使用本系统进行创作的时候从后台智能的为用户推荐润色内容以及素材,从而满足全媒体资源统一管理与使用的需求。优选的,还包括运营支撑平台,用于用户管理、产品管理以及集成与接口管理,集成与接口管理包括对所述用户终端和所述业务终端提供认证数据交互接口。优选的,还包括多媒体编辑模块,多媒体编辑模块可以在用户创作稿件的时候提供辅助,包括稿件内容的智能润色、修改痕迹的记录等。智能润色功能在用户需要使用的时候通过选中编辑器中的文本进行调用,调用完成之后在界面呈现润色推荐结果列表;修改痕迹记录功能则在用户修改、保存的过程中自动对标题、副标题、稿件主要内容等区域的内容修改进行核对、保存,在用户需要回溯稿件内容的时候可以将所有修改记录呈现给用户。优选的,所述内容采集与处理模块包括,资源预处理模块,用于对原始资源进行预处理,包括去除干扰信息、资源拆分、分词、元数据补全的处理流程,得到若干词句片段,存储到基础资源库中;语义处理模块,用于根据所述业务终端采写的文本序列提取关键词,并使用基础资源库中存储的HowNet语料库进行语义扩展和关键词概念关联,得到模板文本序列,存储至语料库;查询模块,用于根据所述关键词在所述语料库中采用中文字符串模糊匹配算法进行匹配检索,得到与所述关键词相匹配的模板文本序列,并输出至所述业务终端。优选的,所述资源与处理模块的具体处理过程包括:去除干扰信息,原始资源的文档以XML格式输入,XML标签为原始资源的文本在所属书籍中的位置,每个XML标签对应一个标签权重,采用高通滤波器原理对给定标签权重范围内的XML标签进行筛选;资源拆分,对筛选的文档按段落或按断句拆分为多个文本片段;分词,将文本片段按照词语最大长度匹配法和/或拆分词组最少匹配法和/或最小词方差匹配法进行拆分,得到若干词句片段。优选的,所述资源与处理模块的具体处理过程还包括:元数据补全,将原始资源所述书籍的元数据存储至所述基础资源库中,所述元数据包括中图分类、内容摘要、作者信息。优选的,所述语义处理模块根据所述业务终端采写的文本序列提取关键词具体过程包括:对采写的文本序列采用如下关键词提取算法,其中f(i)代表词语i出现的词频,ni代表词语i在输入文本序列中出现的次数,xi代表词语所在句子的标签权重,V(i)代表词语i的关键词权重值,M代表用一个完整标签包裹的输入文本序列总个数,Mi代表包含词语i的用一个完整标签包裹的文本序列总个数;将关键词按照V(i)从高到低进行排序,然后从高到低进行关键词抽取。优选的,所述查询模块根据所述关键词在所述语料库中采用中文字符串模糊匹配算法进行匹配检索的具体过程包括:匹配度match(M,N)的计算公式如下所示,其中,序列M={mimi+1...mn}代表待匹配文本序列,即关键词序列,其中mi代表序列中的每一个字符;序列N={nini+1...nn}代表语料库中存储的模板文本序列,其中ni代表序列中的每一个字符;Ni,j表示在序列N上与序列M的子序列完全匹配的子序列;匹配度match(M,N)表示在序列N上有多少内容与M是匹配的;如果match(M,N)=1则是完全匹配,算法会依据匹配度从高到低输出匹配的模板文本序列。优选的,所述用户终端包括门户网站、报纸、杂志排版制作平台、自媒体平台以及数字发布平台。本专利技术相较现有技术具有以下有益效果:本专利技术结合大数据与人工智能技术进行整体设计,结合新闻出版传媒领域的工作流程,设计了一套能够为采编人员提供便携化内容采写服务、智能化内容创作以及多渠道一站式发布与运营管理服务的融媒体平台。该平台能够提升稿件采集的效率、增强内容创作的多样性,并减少多渠道重复分发所带来的时间浪费。平台从资源采集管理到人员协作上促进媒体融合发展,这将对整个新闻出版传媒领域的智能化转型有深远的意义,本专利技术能够满足以下三类需求:(1)记者、编审以及相关管理人员进行稿件智能创作、编辑,以及统计数据管理与查看的需求;(2)编辑运营人员在各渠道发布稿件以及管理数字资源的需求;(3)公众用户、专业用户能够阅读通过平台发布的内容的需求。本专利技术还基于智能语言处理算法,利用图书内容资源生成了语料库,这些语料库用于对智能文字筛选进行训练,通过对原始资源进行拆分、补全,去除冗余的处理,将用户输入的待润色文本通过算法处理从语料库中智能检索对应含义的建议语句。其功能主要体现在能够根据作者想要表达的意思智能替换润色后的多种文字表达艺术。作者能够直接使用这些建议语句,或通过这些建议产生创作灵感,拓宽创作思路,从而极大地提升创作的效率。附图说明为了更清楚本文档来自技高网...

【技术保护点】
1.一种基于智能创作算法的融媒体采编发系统,其特征在于,包括业务终端、用户终端以及业务处理平台;所述业务处理平台包括,/n内容采集与智能处理模块,用于对原始资源进行预处理和语义处理形成语料库,并接收所述业务终端采写的文本序列,从语料库中智能检索与文本序列语义相匹配的文本序列,并输出至所述业务终端;/n多渠道整合发布与运营模块,利用爬虫算法提取多种类型的融媒体资源,并在多个所述用户终端进行认证多渠道融合发布。/n

【技术特征摘要】
1.一种基于智能创作算法的融媒体采编发系统,其特征在于,包括业务终端、用户终端以及业务处理平台;所述业务处理平台包括,
内容采集与智能处理模块,用于对原始资源进行预处理和语义处理形成语料库,并接收所述业务终端采写的文本序列,从语料库中智能检索与文本序列语义相匹配的文本序列,并输出至所述业务终端;
多渠道整合发布与运营模块,利用爬虫算法提取多种类型的融媒体资源,并在多个所述用户终端进行认证多渠道融合发布。


2.根据权利要求1所述的一种基于智能创作算法的融媒体采编发系统,其特征在于,还包括统一内容资源管理平台,用于对所有资源内容进行统一管理与调取,所述资源内容包括文本内容、HowNet语料库、图片以及音视频。


3.根据权利要求1所述的一种基于智能创作算法的融媒体采编发系统,其特征在于,还包括运营支撑平台,用于用户管理、产品管理以及集成与接口管理,集成与接口管理包括对所述用户终端和所述业务终端提供认证数据交互接口。


4.根据权利要求1所述的一种基于智能创作算法的融媒体采编发系统,其特征在于,还包括多媒体编辑模块,所述多媒体编辑模块用于稿件内容的智能润色、修改痕迹的记录;其中,通过选中编辑器中的文本进行智能润色,完成之后在界面呈现润色推荐结果列表;修改痕迹记录包括在用户修改、保存的过程中自动对标题、副标题、稿件主要内容的修改进行核对、保存。


5.根据权利要求1所述的一种基于智能创作算法的融媒体采编发系统,其特征在于,所述内容采集与处理模块包括,
资源预处理模块,用于对原始资源进行预处理,包括去除干扰信息、资源拆分、分词、元数据补全的处理流程,得到若干词句片段,存储到基础资源库中;
语义处理模块,用于根据所述业务终端采写的文本序列提取关键词,并使用基础资源库中存储的HowNet语料库进行语义扩展和关键词概念关联,得到模板文本序列,存储至语料库;
查询模块,用于根据所述关键词在所述语料库中采用中文字符串模糊匹配算法进行匹配检索,得到与所述关键词相匹配的模板文本序列,并输出至所述业务终端。


6.根据权利要求5所述的一种基于智能创作算法的融媒体采编发系统,其特征在于,所述资源与处理模块的具体处理过程包括:
去除干扰信息,原始资源的文档以XML格式输入,XML标签为原始资...

【专利技术属性】
技术研发人员:崔岩松陈科良张晓欢任维政黄建明杨泰岳董晓静
申请(专利权)人:北京邮电大学北京欢科科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1