一种政务电子文档的内容分析提取系统技术方案

技术编号:24207910 阅读:35 留言:0更新日期:2020-05-20 15:29
本发明专利技术公开了一种政务电子文档的内容分析提取系统,属于文档内容提取技术领域,为了解决现有技术中对于内容抽取的准确性以及效率性能等方面表现参差不齐,提供的渠道单一扩展不便的问题,本发明专利技术通过不同渠道传来的URL或者文件使用内容抽取模块抽取内容,再通过特征与规则手段来判断适合的信息类型并抽取出信息的要素,其中对于页面中有可以解析提取的电子文档,将会继续解析提取里面的内容与字段,最后通过提供并接受多种渠道的文档内容分析提取请求,并提供异步处理方案使系统之间解耦。本发明专利技术使得对于文档内容抽取的准确性以及效率性能等方面的表现较好,并且提供的提取系统渠道多样化、扩展方便,实现异步处理、高可用性及高吞吐量。

A content analysis and extraction system of e-government documents

【技术实现步骤摘要】
一种政务电子文档的内容分析提取系统
本专利技术涉及一种文档内容的提取系统,特别是涉及一种政务电子文档的内容分析提取系统,属于文档提取系统

技术介绍
随着电子政务的发展政府网站越来越多,政府公开的数据也越来越多,这些数据可能是新录入,也有很多很早就存在的电子文档,而电子文档形式的信息向外界公开多数以下载的形式,更多的是通过人工抄录的方式录入到建设的内容管理系统;在政务集约化建设的指导方针下,政府网站采用中台方式集中管理,对于独立建设的站点需要进行合并和迁移,其中有相当多的网站需要用爬虫将页面内容抓取到中台。政务业务需要电子文档内容提取解决方法、网页内容提取解决方法以及精确提取内容中关键要素的解决方法。传统技术可以读取到电子文档内容,页面内容等,但对于内容抽取的准确性以及效率性能等方面表现参差不齐,并且提供的渠道单一扩展不便。
技术实现思路
本专利技术的主要目的是解决现有技术中对于内容抽取的准确性以及效率性能等方面表现参差不齐,并且提供的渠道单一扩展不便的问题,而提供一种政务电子文档的内容分析提取系统。本文档来自技高网...

【技术保护点】
1.一种政务电子文档的内容分析提取系统,其特征在于,可以实现两个目的,分别如下:/n(1)、提供对各种电子文档的内容抽取和html、asp、jsp、php等页面内容提取,同时提供对内容的关键要素进行提取,例如对于政务新闻提取标题、内容、时间、作者;对于政府信息公开除了提取新闻的要素外还提取索引号、文号、信息分类、发布机构,支持按需扩展自定义要素的规则;/n(2)、提供并接受多种渠道的文档内容分析提取请求,并提供异步处理方案使系统之间解耦。/n

【技术特征摘要】
1.一种政务电子文档的内容分析提取系统,其特征在于,可以实现两个目的,分别如下:
(1)、提供对各种电子文档的内容抽取和html、asp、jsp、php等页面内容提取,同时提供对内容的关键要素进行提取,例如对于政务新闻提取标题、内容、时间、作者;对于政府信息公开除了提取新闻的要素外还提取索引号、文号、信息分类、发布机构,支持按需扩展自定义要素的规则;
(2)、提供并接受多种渠道的文档内容分析提取请求,并提供异步处理方案使系统之间解耦。


2.如权利要求1所述的一种政务电子文档的内容分析提取系统,其特征在于,所述目的(1)的技术方案如下:
a、接收文件;
b、判断传来的文件类型;
c、使用对应文件类型的内容抽取模块来读取整个文件内容;
d、对于电子文档继续抽取文件...

【专利技术属性】
技术研发人员:王知明李杰
申请(专利权)人:大汉软件股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1