能自动抓取和播报新闻的方法及其机器人装置制造方法及图纸

技术编号:15792034 阅读:191 留言:0更新日期:2017-07-09 23:04
本发明专利技术公开了一种能自动抓取和播报新闻的方法及其机器人装置,其特征在于,至少包括以下步骤:获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;对提取的正文内容进行网页去重;对去重后的网页内容进行中文分词;对分词后的网页进行新闻文本分类;语音播报分类后的新闻。

【技术实现步骤摘要】
能自动抓取和播报新闻的方法及其机器人装置
本专利技术涉及信息检索
,尤其涉及一种能自动抓取和播报新闻的方法及其机器人装置。
技术介绍
在互联网的时代,传统媒体新闻在逐渐退出历史舞台,淡出大众的视野,成为一种小众的读物。在互联网发达的今天,忙碌的年轻人更喜欢通过电子媒体的方式获取最新的资讯和信息。例如今日头条,Facebook,腾讯,网易等等公司的电子新闻都是目前大家喜欢阅读的新闻平台。鉴于传统的媒体新闻无法做到互联网新闻的高时效性,新鲜性,和针对不同的用户群体的精准推荐性。并且基于现有的新闻平台新闻信息互为补充,因此急需一种技术可以对新闻平台中的新闻进行整合后提供给用户。
技术实现思路
本专利技术目的是提供一种能自动抓取和播报新闻的方法及其机器人装置,可以通过网络机器人爬虫爬取网页的方式,采集不同类别的新闻,播报给用户。本专利技术解决技术问题采用如下技术方案:一种能自动抓取和播报新闻的方法,其特征在于,至少包括以下步骤:获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;对提取的正文内容进行网页去重;对去重后的网页内容进行中文分词;对分词后的网页进行新闻文本分类;语音播报分类后的新闻。其中,使用开源工具nutch进行相关网页抓取。其中,使用开源工具BoilerPipe进行网页去噪。其中,采用开源算法Simhash进行网页去重。其中,使用朴素贝叶斯分类算法进行新闻文本分类。本专利技术还提供一种能自动抓取和播报新闻的机器人装置,至少包括:网页抓取单元,用于获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;网页去噪单元,用于采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;网页去重单元,用于对提取的正文内容进行网页去重;中文分词单元,用于对去重后的网页内容进行中文分词;文本分类单元,用于对分词后的网页进行新闻文本分类;语音播报单元,用于语音播报分类后的新闻本专利技术具有如下有益效果:采用本专利技术的技术方案对不同新闻平台中的新闻进行整合并播报给用户,提升了用户新闻浏览的友好感。附图说明图1为本专利技术的能自动抓取和播报新闻的方法的流程简图;图2为本专利技术的能自动抓取和播报新闻的机器人装置的结构框图。具体实施方式下面结合实施例及附图对本专利技术的技术方案作进一步阐述。本专利技术提供一种能自动抓取和播报新闻的方法,至少包括以下步骤:获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;对提取的正文内容进行网页去重;对去重后的网页内容进行中文分词;对分词后的网页进行新闻文本分类;语音播报分类后的新闻。下面结合具体的实施例对本专利技术方法进一步说明,本专利技术的技术是通过从各大门户网站(今日头条,腾讯,网易等新闻网站)采集新闻网页,通过网页过滤(去除噪声部分,去除广告部分,提取正文),网页去重,中文分词,文本分类,使用语音的方式进行语音播报,播报给用户关于不同类别的新闻内容。结合图1所示的本专利技术的方法流程简图以及以下步骤对本方法进行说明:1、采集新闻网页,如sohu,腾讯,网易等网站,指定初始种子链接和抓取深度,如指定当天的热门新闻,使用开源工具nutch进行相关网页抓取;2、使用正则表达式抽取导航栏链接,使用开源工具BoilerPipe进行网页去噪的处理部分,提取出正文内容;基于正则表达式属于现有技术的内容,因此不再赘述;3、抽取出网页的正文后,大量的新闻存在重复冗余,在本专利技术的实施例中可以使用Google的开源算法simhash进行网页去重;4、中文分词,在本专利技术的实施例中可以使用开源的java版的斯坦福大学分词器进行分词,当然也可以采用现有的其他方式进行分词,分词的目的是为了抽取出关键词(名词,形容词),去除冗余的词,为下一步文本分类做准备;5、在本专利技术的实施例中,使用朴素贝叶斯分类算法进行文本分类,把新闻分为科技,体育,娱乐,财经新闻;6、语音播报功能,将分类后的新闻播报给用户,可以采用顺序播报的方式也可以按照用户的喜好设置进行播报。在本专利技术的实施例中,可以使用现有的讯飞平台进行语音播报。另外在本专利技术还提供一种能自动抓取和播报新闻的机器人装置,参考图2所示,至少包括:网页抓取单元,用于获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;网页去噪单元,用于采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;网页去重单元,用于对提取的正文内容进行网页去重;中文分词单元,用于对去重后的网页内容进行中文分词;文本分类单元,用于对分词后的网页进行新闻文本分类;语音播报单元,用于语音播报分类后的新闻。基于本专利技术的机器人装置应用上述方法进行自动抓取和播报新闻,因此在此不再进行赘述。以上实施例的先后顺序仅为便于描述,不代表实施例的优劣。最后应说明的是:以上实施例仅用以说明本专利技术的技术方案,而非对其限制;尽管参照前述实施例对本专利技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本专利技术各实施例技术方案的精神和范围。本文档来自技高网...
能自动抓取和播报新闻的方法及其机器人装置

【技术保护点】
一种能自动抓取和播报新闻的方法,其特征在于,至少包括以下步骤:获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;对提取的正文内容进行网页去重;对去重后的网页内容进行中文分词;对分词后的网页进行新闻文本分类;语音播报分类后的新闻。

【技术特征摘要】
1.一种能自动抓取和播报新闻的方法,其特征在于,至少包括以下步骤:获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;对提取的正文内容进行网页去重;对去重后的网页内容进行中文分词;对分词后的网页进行新闻文本分类;语音播报分类后的新闻。2.根据权利要求1所述的能自动抓取和播报新闻的方法,其特征在于,使用开源工具nutch进行相关网页抓取。3.根据权利要求1所述的能自动抓取和播报新闻的方法,其特征在于,使用开源工具BoilerPipe进行网页去噪。4.根据权利要求1所述的能自动抓取和播报新闻的方法...

【专利技术属性】
技术研发人员:纪江霖吴勇谋
申请(专利权)人:深圳前海勇艺达机器人有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1