基于数据追踪的新闻稿件画像生成方法和系统技术方案

技术编号:34014447 阅读:26 留言:0更新日期:2022-07-02 15:24
基于数据追踪的新闻稿件画像生成方法,所述生成方法包括以下步骤:服务器启动,基于多种信息源进行新闻从业者和新闻用户数据追踪和与汇入,参照追踪和汇入的数据经过相似度计算,生成一篇新的新闻稿件,进而获取新闻稿件画像和用户画像,所述新闻稿件画像包括新闻稿件作者的写作风格和写作类型,所述用户画像包括用户姓名、用户年龄和用户评论;服务器通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写修改和生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库。时政热点词库。时政热点词库。

【技术实现步骤摘要】
基于数据追踪的新闻稿件画像生成方法和系统


[0001]本专利技术涉及基于数据追踪的新闻稿件画像生成方法和系统。

技术介绍

[0002]新闻稿件是公司/机构/政府/学校等单位发送于传媒的通信渠道,用来公布有新闻价值的消息,通常会用电子邮件、传真、书信形式分发于报章、杂志、电台、电视台、通讯社的编辑;高质量的新闻稿件,能够获得在这些大型新闻网站首页展示的机会,通过为互联网新闻工作者提供新闻素材,使得自己公司的品牌形象传播到互联网的各个角落。
[0003]新闻稿件长期以来被视为官方声明,是企业永久、公开记录的一部分,是品牌内容的重要资产,每一篇新闻稿件都应该具有明确正式的消息来源,每个企业都应该只发布自身为主体或者跟自身直接相关的新闻资讯;在碎片化传播环境下,明确的消息来源有助于建立企业的透明度与可信度,使品牌和企业成为行业内相关话题专业、权威、可信任、可追溯的消息来源。
[0004]在新闻稿件生成过程中,现有常规操作方法为:通过关键词提示和录入写作模板来辅助新闻从业者进行新闻稿件的撰写和生成,由于关键词种类和数量较多,使得撰写生成的新闻稿件适用性较差,词汇使用不够精准,新闻稿件不能准确表述,从而影响新闻稿件的撰写质量;同时,现有的新闻稿件往往需要进行过滤和纠错后才能进行传输,新闻从业者人工修改会消耗较多的撰写时间,导致新闻从业者的工作效率低下,撰写生成完成后的新闻稿件发布和推广实际难度较大。

技术实现思路

[0005]本专利技术实施例提供了基于数据追踪的新闻稿件画像生成方法和系统,方法和结构设计合理,基于多类型功能模块的相互联动作用,配合独有的时政新闻数据库和自定义时政热点词库,添加了自然语言处理技术,融合了中文文本纠错、标点符号纠错、同义词替换、时政专有名词提示以及敏感词汇标记过滤等一系列功能,使得新闻稿件的撰写更加人性化和智能化,实现数据传输和追溯,生成新闻稿件画像和用户画像,从而显著提升新闻从业者编辑撰写新闻稿件的工作效率和新闻稿件的撰写质量,同时将生成的新闻稿件采用特定的通讯器传输到不同的终端设备,方便新闻稿件的推广和发布,解决了现有技术中存在的问题。
[0006]本专利技术为解决上述技术问题所采用的技术方案是:
[0007]基于数据追踪的新闻稿件画像生成方法,所述生成方法包括以下步骤:
[0008]S1,服务器启动,基于多种信息源进行新闻从业者和新闻用户数据追踪和与汇入,参照追踪和汇入的数据经过相似度计算,生成一篇新的新闻稿件,进而获取新闻稿件画像和用户画像,所述新闻稿件画像包括新闻稿件作者的写作风格和写作类型,所述用户画像包括用户姓名、用户年龄和用户评论;服务器通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写修改和生成,所述数据库包括专有新闻语料库、素
材库和自定义时政热点词库;
[0009]S2,基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;
[0010]S3,基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;
[0011]S4,对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;
[0012]S5,对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;
[0013]S6,对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;
[0014]S7,将上述步骤中的修改建议采纳存储在服务器的缓存器内以实时动态扩充历史库并提升服务器的自训练学习能力,同时将修改生成的新闻稿件通过通讯组件传输到终端设备。
[0015]基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议包括以下步骤:
[0016]S3.1,对录入的新闻稿件文字进行中文语言逻辑判定;
[0017]S3.2,对录入的新闻稿件文字进行中文分词,对分词结果进行基于字粒度和词粒度的错误检测,并根据专有的自定义时政热点词库进行深度党政名词错误名词检测;
[0018]S3.3,获取所有疑似错字错词的音似、形似、谐音和混淆音候选字词,并使用候选词对疑似错误进行内容替换,基于语言算法模型进行候选字词替换排序打分,只保留得分最高的最优纠正候选词;
[0019]S3.4,实时动态扩充语料库和词表,并添加到语言算法模型,进而为新闻从业者提供文本修改建议。
[0020]所述传输组件包括扫描器和转换传输器,所述转换传输器的型号为BPC

817S,在转换传输器上设有4个引脚,所述转换传输器的一号引脚与扫描仪的输出端相连,在转换传输器的一号引脚和二号引脚之间设有相并联的第一电阻和第二电阻;在转换传输器的三号引脚通过第三电阻连接有三极管,在三极管的基极和发射极之间设有第五电阻,在三极管的发射极上通过通讯线与服务器相连;在转换传输器的四号引脚上通过相并联的第四电阻和第一二极管连接有电源。
[0021]所述通讯组件包括相配合设置的RS485通讯器、无线收发器和GPRS通讯器,所述无线收发器的型号为ESP8266,在无线收发器上设有8个引脚;所述GPRS通讯器的型号为SIM800C,在GPRS通讯器上设有42个引脚,在GPRS通讯器的二号引脚和六号引脚之间设有相并连的第六电阻和第七电阻;所述GPRS通讯器通过十五号引脚、十六号引脚、十七号引脚和十八号引脚连接有SIM卡,在GPRS通讯器的十五号引脚、十六号引脚和十七号引脚上分别设有第四电容、第五电容和第六电容,在GPRS通讯器的十八号引脚上连接有第七电容;所述RS485通讯器的型号为SP3485,在RS485通讯器上设有8个引脚。
[0022]基于数据追踪的新闻稿件画像生成系统,所述生成系统包括:
[0023]输入模块,所述输入模块用于服务器启动通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库;
[0024]第一文本修改模块,所述第一文本修改模块用于服务器基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;
[0025]第二文本修改模块,所述第二文本修改模块用于服务器基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;
[0026]标点修改模块,所述标点修改模块用于服务器对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;
[0027]过滤修改模块,所述过滤修改模块用于服务器对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;
[0028]替换模块,所述替换模块用于服务器对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于数据追踪的新闻稿件画像生成方法,其特征在于,所述生成方法包括以下步骤:S1,服务器启动,基于多种信息源进行新闻从业者和新闻用户数据追踪和与汇入,参照追踪和汇入的数据经过相似度计算,生成一篇新的新闻稿件,进而获取新闻稿件画像和用户画像,所述新闻稿件画像包括新闻稿件作者的写作风格和写作类型,所述用户画像包括用户姓名、用户年龄和用户评论;服务器通过传输组件进行新闻稿件文字的录入,同时载入数据库来辅助进行新闻稿件的撰写修改和生成,所述数据库包括专有新闻语料库、素材库和自定义时政热点词库;S2,基于新闻语料库对实时录入的新闻稿件文字进行时政专有名词提示,以提升新闻稿件用词的专业性和精准度,并给出文本修改建议;S3,基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议;S4,对实时录入的新闻稿件文字进行标点符号错误检测,并给出标点修改建议;S5,对经过检测甄别修改后的新闻稿件文字进行敏感词汇检测过滤,并给出过滤修改建议;S6,对过滤后的新闻稿件文字进行同义词替换,以使新闻稿件文字更加精炼准确;S7,将上述步骤中的修改建议采纳存储在服务器的缓存器内以实时动态扩充历史库并提升服务器的自训练学习能力,同时将修改生成的新闻稿件通过通讯组件传输到终端设备。2.根据权利要求1所述的基于数据追踪的新闻稿件画像生成方法,其特征在于,基于素材库和自定义时政热点词库对实时录入的新闻稿件文字进行文本语法逻辑错误和字词错误检测,并给出文本修改建议包括以下步骤:S3.1,对录入的新闻稿件文字进行中文语言逻辑判定;S3.2,对录入的新闻稿件文字进行中文分词,对分词结果进行基于字粒度和词粒度的错误检测,并根据专有的自定义时政热点词库进行深度党政名词错误名词检测;S3.3,获取所有疑似错字错词的音似、形似、谐音和混淆音候选字词,并使用候选词对疑似错误进行内容替换,基于语言算法模型进行候选字词替换排序打分,只保留得分最高的最优纠正候选词;S3.4,实时动态扩充语料库和词表,并添加到语言算法模型,进而为新闻从业者提供文本修改建议。3.根据权利要求1所述的基于数据追踪的新闻稿件画像生成方法,其特征在于:所述传输组件包括扫描器和转换传输器,所述转换传输器的型号为BPC

817S,在转换传输器上设有4个引脚,所述转换传输器的一号引脚与扫描仪的输出端相连,在转换传输器的一号引脚和二号引脚之间设有相并联的第一电阻和第二电阻;在转换传输器的三号引脚通过第三电阻连接有三极管,在三极管的基极和发射极之间设有第五电阻,在三极管的发射极上通过通讯线与服务器相连;在转换传输器的四号引脚上通过相并联的第四电阻和第一二极管连接有电源。4.根据权利要求1所述的基于数据追踪的新闻稿件画像生成方法,其...

【专利技术属性】
技术研发人员:矫娟魏传强吕冰郭强宋耀司君波
申请(专利权)人:山东齐鲁壹点传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1