一种基于电力行业的新闻采编系统技术方案

技术编号:19342117 阅读:106 留言:0更新日期:2018-11-07 13:52
本发明专利技术公开了一种基于电力行业的新闻采编系统,主要是针对电力行业,利用语音识别、文本分析和深度学习等技术,实现智能、精准地将讲话音频翻译成文本;对转写后的文本,自动提炼出核心内容,组织成一段或者多段语义清晰的精简内容;根据供电公司的新闻形式,将系统提炼的精简版内容再撰写成一篇新闻稿件,通过机器学习的方式来逐渐优化撰写的新闻稿的合理性。

A news gathering and editing system based on electric power industry

The invention discloses a news acquisition and editing system based on the power industry, mainly for the power industry, which intelligently and accurately translates speech audio into text by using speech recognition, text analysis and in-depth learning technology, and automatically extracts the core content of the transcribed text and organizes it into one or more paragraphs. Clear and concise content; according to the news form of power supply company, the system extracts the concise version of the content and then writes a news release, through machine learning to gradually optimize the rationality of the news release.

【技术实现步骤摘要】
一种基于电力行业的新闻采编系统
本专利技术涉及一种新闻采编系统,具体涉及一种基于电力行业的新闻采编系统,属于新闻采编

技术介绍
近年来随着人工智能领域的兴起,智能媒体、机器人新闻随之出现;这类利用大数据和深度学习作为技术支撑的智能传媒技术是对传统媒体的冲击,同时也是一种变革;利用机器人软件对新闻报道进行自动采编是一种融合多种数据获取、分析技术的产物;其中基于深度学习的语音识别和文本分析是核心;因此充分利用硬件的先进性和人工智能相关技术,对智能媒体和智能采编技术推动具有关键性作用;研究深度学习技术、语音-文本转化技术以文本分析技术,研发新闻稿件的机器人智能采编系统,具有重要的理论意义和应用价值,能够节约成本、提高效率,具有重大的经济效益和社会效益;而现有技术中,还没有好的新闻采编系统。
技术实现思路
为解决上述问题,本专利技术提出了一种基于电力行业的新闻采编系统,提供电力行业的新闻稿件的机器人智能采编系统,从而在一定程度上节约和控制了人力成本。本专利技术的基于电力行业的新闻采编系统,包括构建电力行业语料库,语音转写,文本分析和获得采编新闻稿件。作为优选的实施方案,所述构建电力行业语料库具体如下:首先,进行语音录入,选用电力发电、电网输配电及电能消耗内容作为录音文本进行录音,得到电力音频语料库;接着进行语音语料标注,对电力音频语料库录音内容按语句结构进行切分和标注,采用中文拼音和音素相结合方式对电力行业音频进行标注,得到覆盖电力行业日常用词的电力行业的通用文本语料库;所述电力行业通用文本语料库覆盖发电、输电、配电和用电的电力行业应用表达场景;最后,构建电力行业词典,通过对电力文本语料库根据自然语言进行分词处理,得到覆盖电力行业日常用词的专用词库,同时,将电力文本语料库其余电力行业常用词提取得到电力行业的常用词库,将专用词库和常用词库合并得到电力行业词典。作为优选的实施方案,所述语音转写具体如下:首先,语料库准备,采用的语料库包括普通话开源语音语料库和自行录制的电力行业各个功能部门的语音语料库;接着,进行语料的练习和测试,对语料库音频数据预处理进行特征提取,然后训练基于DNN的声学模型;同时调用文本数据库训练语言模型,构建词语发音词典;最后调用声学模型、语言模型及发音词典将待识别的长音频完成语音转写。作为优选的实施方案,所述文本分析具体如下:采用浅层语义分析技术对电力行业文章进行分析、处理,最终得到新闻稿件的摘要内容;首先对文章进行分词、去停用词的预处理操作;然后对文章进行主题模型训练,提取文章LDA模型;然后根据主题模型,对文章语句进行筛选提取,从而得到文章主干内容。作为优选的实施方案,所述对文章进行主题模型训练具体如下:首先,采用jieba分词,得到分词结果,完成分词后,将停用词和冗余词去除,得到文章语义表达的词汇;其次,文章主题模型训练采用LDA模型,完成浅层语义分析,得到文章主题及主题分布;再次,分析文章语句,在得到主题分布后,对句子和文章主题进行相似度分析,按语句相似度进行排序处理;最后,根据语句相似度对语句进行处理拼接,从而构成文章摘要。作为优选的实施方案,所述语音语料其在标注过程中,保留语气词、叹气、咳声的录音信息。本专利技术与现有技术相比较,本专利技术的基于电力行业的新闻采编系统具有以下优点:第一,电力行业语料库的构建从一定程度上丰富了电力行业音频数据库,为电力行业语音识别的深入研究提供了真实数据;第二,基于电力行业的语音转写大大提高会议录音、新闻采访等电力领域长音频转写的准确率;第三,文本分析与文本核心内容摘要技术有效提高稿件的采编效率。附图说明图1为本专利技术的数据预处理流程图。图2为本专利技术的MFCC特征参数提取示意图。图3为本专利技术的GMM-HMM声学模型示意图。图4为本专利技术的文章预处理分析示意图。图5为本专利技术的文本摘要提取框架示意图。具体实施方式实施例1:为更好地理解本专利技术,下面通过具体实施方式对本专利技术作详细说明;如图1至图5所示的基于电力行业的新闻采编系统,具体如下:构建电力行业语料库:1)电力行业语料库特点:电力行业是国民经济的基础性行业,对国民经济和人民生活影响巨大;电力行业将能源输送到全国各个角落,与其他行业关系密切,其发电厂、变电站、供电所等基础服务单位更是具有鲜明的行业特性;因此,构建电力行业专用语料库以区别与传统语料库,实现科技进步与传统行业的有效结合,对促进电力行业语音识别等技术的推广具有重要的应用价值;电力行业根据电力生产和电能使用分为发电、输电、配电、用电等环节;各个环节因其应用场景和功能的不同具有较大差异;本专利技术根据电力行业各个环节的不同分别分析其语料和用词特点。2)语料库摘要:根据电力行业语音语料现状,设计构建17小时多通道电力音频语料库,录音文本包括电力发电、电网输配电及电能消耗等内容;由12名来自不同口音区域发音人录制,发音人具体信息如表1所示,其中,男性发音人占58%,女性发音人占42%,南方人和北方人各占50%,其具体如下:表1发音人信息特征录制过程中保持安静的室内环境,采用高保真麦克风(44.1kHz,16bit)采集音频。语音语料库设定音频频率为16kHz,16bitwav格式录音,满足音频识别应用主流设置;发音人和麦克风距离保持在30cm左右,保障语音采集清晰、不失真。3)语音语料标注:为保证录音音频的完整性和有效性,采取长文本统一录音,再按语句结构进行切分、标注;采用中文拼音和音素相结合的方式对电力行业音频进行标注;在标注过程中,尽最大程度反应发音人讲话状态,保留语气词、叹气、咳声等多种录音信息。4)电力行业专用词库构建:在构建电力音频语料库的同时,构建与之相对应的电力行业专业用于词典,是提高语音识别率的首要前提,本专利技术通过对17小时电力音频语料库进行切分、标注处理,得到电力行业通用文本语料库;该语料库由17000条语句构成,覆盖发电、输电、配电和用电等电力行业主要应用表达场景;通过对电力文本语料库进行分词等自然语言处理,得到适用与电力行业的专用词库,常用电力词汇约12000个,基本覆盖电力行业日常用词,如表2所示;表2电力行业专业术语词典构建同时本专利技术将130000个常用词,加入电力行业常用词库,如表3所示,进一步丰富其词汇量,提高词库适用性;接着将将专用词库和常用词库合并得到电力行业词典。表3电力行业词库构建语音转写:采用开源语音识别工具Kaldi进行语音特征提取、声学模型训练以及语言模型构建等工作,Kaldi是一款功能强大的开源语音识别系统工具箱由约翰霍普金斯大学Daniel等人开发,目前托管于Github,主要在Linux系统下运行,本系统依托Kaldi,首先对音频数据预处理进行特征提取,然后训练基于DNN的声学模型。同时调用由60k篇文章构成的文本数据库训练语言模型,构建由190k词语构成的发音词典,最后调用声学模型、语言模型及发音词典将待识别的长音频实现语音转写功能,其具体如下:1)数据准备:语音采集质量的高低直接影响到识别的准确率,本系统语料库由近200小时、200k条语句构成,一是由Aishell公开的178小时普通话开源语音语料库,二是自行采集录制的17小时电力行业语音语料库,以上音频均采用16kHz、16bit、wav格式,在静音本文档来自技高网...

【技术保护点】
1.一种基于电力行业的新闻采编系统,其特征在于:包括构建电力行业语料库,语音转写,文本分析和获得采编新闻稿件。

【技术特征摘要】
1.一种基于电力行业的新闻采编系统,其特征在于:包括构建电力行业语料库,语音转写,文本分析和获得采编新闻稿件。2.根据权利1所述的基于电力行业的新闻采编系统,其特征在于,所述构建电力行业语料库具体如下:首先,进行语音录入,选用电力发电、电网输配电及电能消耗内容作为录音文本进行录音,得到电力音频语料库;接着进行语音语料标注,对电力音频语料库录音内容按语句结构进行切分和标注,采用中文拼音和音素相结合方式对电力行业音频进行标注,得到覆盖电力行业日常用词的电力行业的通用文本语料库;所述电力行业通用文本语料库覆盖发电、输电、配电和用电的电力行业应用表达场景;最后,构建电力行业词典,通过对电力文本语料库根据自然语言进行分词处理,得到覆盖电力行业日常用词的专用词库,同时,将电力文本语料库其余电力行业常用词提取得到电力行业的常用词库,将专用词库和常用词库合并得到电力行业词典。3.根据权利1所述的基于电力行业的新闻采编系统,其特征在于,所述语音转写具体如下:首先,语料库准备,采用的语料库包括普通话开源语音语料库和自行录制的电力行业各个功能部门的语音语料库;接着,进行语料的练习和测试,对语料库音频数据预处理进行特征提...

【专利技术属性】
技术研发人员:高玉领于安迎刘中涛项鸿雁高颖仇兴玲倪西迎李钊李诚王建娟卢凤
申请(专利权)人:山东亿云信息技术有限公司国网山东省电力公司枣庄供电公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1