一种基于PC机的支持文本检索的阅报平台的实现方法技术

技术编号:38089450 阅读:12 留言:0更新日期:2023-07-06 09:00
本发明专利技术描述一种基于PC机的支持文本检索的阅报平台的实现方法,属于数据通信的信息处理领域。信息数据分别经过本发明专利技术的预处理、解析、分类、索引、查询和展示等多模块的流程处理,提供支持不同文本格式信息检索和分类功能的阅报平台,解决了由于不同文本格式之间差异,造成的难以信息检索的问题,以及缺少一个平台同时支持数据处理、检索和展示的问题。检索和展示的问题。检索和展示的问题。

【技术实现步骤摘要】
一种基于PC机的支持文本检索的阅报平台的实现方法


[0001]本专利技术涉及数据处理领域,特别涉及一种基于PC机的支持文本检索的阅报平台的实现方法。

技术介绍

[0002]随着当前信息技术的发展,互联网中的文本内容数据量快速增长。与此同时,对数据进行快速地检索、分类和信息提取的需求也在不断增加。然而因为计算机发展史和不同技术之间差异等原因,在互联网中传输的文本数据的不同格式之间差异很大,比如HTML、JSON、普通文本(TXT)、邮件(RFC

5322)和脚本语言等文件都有各自的格式定义,不同的文本格式增加了数据快速检索、分类、信息提取和展示的难度。
[0003]现有的数据流处理平台,通常仅对某一种数据格式的数据进行处理,或者只支持索引和查询功能,不支持数据解析或展示的功能。比如数据流处理平台Flume,支持从数据源获取数据后,通过自定义规则处理数据,将数据写入数据库或其他位置。本身只提供对数据处理的功能,不支持数据查询或展示的功能。或者全文索引平台ElasticSearch,支持对不同文本格式文件的索引和查询,本身不支持数据处理和展示功能。
[0004]在目前的多种数据格式的数据源环境下,需要提供一个统一的平台框架对不同文本格式数据进行检索、分类和展示。

技术实现思路

[0005]针对目前多种数据格式的数据源环境下,不同的文本格式的数据在同一平台无法检索、分类和信息提取的问题,本专利技术通过使用数据源平台、数据库、主模块、数据预处理模块、全文索引模块、数据分类模块、数据解析模块、数据查询模块和数据展示模块,实现了一种针对不同文本格式文件的信息检索和分类功能的阅报平台。
[0006]本专利技术采取的技术方案是:一种基于PC机的支持文本检索的阅报平台的实现方法,在Windows、Linux或Mac系统下运行,所述阅报平台包括数据源平台、数据库、主模块、预处理模块、数据解析模块、数据分类模块、全文索引模块、数据查询模块和数据展示模块;步骤1,安装数据源平台和数据库,数据源平台为阅报平台提供重复获取源数据、素材、报文的接口,数据库为阅报平台保存源数据的基本信息和处理数据后获取的信息,阅报平台从数据源平台获取数据,数据信息首先经过预处理模块,对源数据的基本信息进行值映射和类型转换,将预处理后的结果保存到数据库;步骤2,预处理后的数据进入数据解析模块,数据解析模块为阅报平台提供解析数据文本的功能接口,根据不同文本格式的类型进行对应的解析,并且将解析后的结果保存到数据库,提供给索引、分类、查询和展示模块处理;步骤3,数据解析后的数据进入数据分类模块,数据分类模块为阅报平台提供将数据文本根据自定义规则进行分类的功能接口,通过调用数据解析模块,对解析结果根据自定义规则进行分类,并且将分类后的结果保存到数据库;
步骤4,分类后的数据进入全文索引模块,全文索引模块为阅报平台提供对数据文本生成全文索引和查询索引的功能接口,索引过程中通过调用数据解析模块,对解析结果进行生成索引;步骤5,用户通过主模块调用数据查询模块对信息进行查询,主模块是阅报平台主体程序,为阅报平台提供与用户交互的主窗口,数据查询模块为阅报平台提供通过索引、分类和解析结果进行查询的接口,数据查询模块通过调用数据解析模块、数据分类模块和全文索引模块的接口,或查询数据库中的处理结果,返回符合查询条件的数据信息;步骤6,主模块调用数据展示模块,数据展示模块为阅报平台提供通过索引、分类和解析结果进行信息展示的功能;数据展示模块再调用数据解析模块的接口,或获取数据库中的处理结果,将处理后的数据信息展示到界面;通过以上步骤,不同文本格式的信息经过阅报平台的预处理模块、数据解析模块、数据分类模块、全文索引模块、数据查询模块和数据展示模块的处理,实现了的信息检索、分类和展示的功能。
[0007]本专利技术的有益效果是:本专利技术提供了一种基于PC机的支持文本检索的阅报平台的实现方法,可以对互联网中常见的HTML、JSON、普通文本(TXT)、邮件(RFC

5322)和脚本语言等文本数据格式数据,进行检索、分类、数据提取、查询和展示,同时也可以展示其他的多媒体格式文件。与现有的技术方案相比,集成了多种数据处理模块和数据展示功能,具备处理多种文本格式文件和可扩展性的优点。
[0008]阅报平台也支持从数据源获取和展示非文本类型的数据,如图片、视频等。这些数据仅支持基本信息的查询,不支持解析、分类和生成索引等操作。
[0009]本专利技术在Ubuntu系统下,使用Qt框架进行开发,C++作为开发语言,主要是考虑了Qt跨平台开发和C++拥有较高性能的特性,可以较轻松地移植到Windows/Linux/Mac等系统。本专利技术涉及的功能已考虑到可移植性、数据的处理性能、数据格式的可扩展性等。
附图说明
[0010]以下结合附图和具体实施方式对本专利技术作进一步详细说明:图1是本专利技术的系统组成图;图2是本专利技术数据库的表结构图;图3是本专利技术的数据解析模块图;图4是本专利技术的数据分类模块图;图5是本专利技术的数据查询模块图。
具体实施方式
[0011]下面结合附图,对本专利技术的实施例进行详细地解释说明。
[0012]图1本专利技术的系统组成图,包括数据源平台、数据库、阅报平台、主模块、预处理模块、数据解析模块、数据分类模块、全文索引模块、数据查询模块、数据展示模块。阅报平台从数据源平台和数据库获取数据和基本信息后,通过主模块按顺序调用预处理模块、解析模块、分类模块和全文索引模块对数据进行处理,在查询和展示数据时分别调用查询模块和展示模块,实现了对不同文本格式文件的解析、检索、分类、查询和展示功能。
[0013]图2是本专利技术数据库的表结构图,包括PROGRESS_TB(处理进度表)、DATA_TB(基本信息表)、PREPROCESS_TB(预处理信息表)、PARSE_MAIL_TB(解析信息表)和CLASSIFY_TB(分类信息表),通过本表实现了数据信息的存储。
[0014]图3是本专利技术的数据解析模块图,包括邮件解析子模块、HTML解析子模块、JSON解析子模块,实现了不同文本格式数据的解析功能。
[0015]图4是本专利技术的数据分类模块图。包括邮件分类子模块、HTML分类子模块,实现了不同文本格式数据的分类功能。
[0016]图5是本专利技术的数据查询模块图,包括基本信息查询、预处理信息查询、解析结果查询、分类结果查询和索引信息查询,实现了多种条件的查询方式。
[0017]下面对本专利技术的各个功能模块进行详细介绍。
[0018]1.数据源平台,数据源平台(或称素材库)提供一个可以重复获取源数据(或称素材、报文)的接口。本专利技术的数据源平台使用HTTP服务,实际数据源使用的通信协议不做限制。数据源平台启动后,将数据的基本信息保存到数据库,供阅报平台查询和处理数据时使用。这些基本信息包括数据的唯一标识符(UID)、文本类型、文件编码、源/目的IP地址和时间戳等信息。
[0019]2.数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于PC机的支持文本检索的阅报平台的实现方法,在Windows、Linux或Mac系统下运行,其特征在于,所述阅报平台包括数据源平台、数据库、主模块、预处理模块、数据解析模块、数据分类模块、全文索引模块、数据查询模块和数据展示模块;步骤1,安装数据源平台和数据库,数据源平台为阅报平台提供重复获取源数据、素材、报文的接口,数据库为阅报平台保存源数据的基本信息和处理数据后获取的信息,阅报平台从数据源平台获取数据,数据信息首先经过预处理模块,对源数据的基本信息进行值映射和类型转换,将预处理后的结果保存到数据库;步骤2,预处理后的数据进入数据解析模块,数据解析模块为阅报平台提供解析数据文本的功能接口,根据不同文本格式的类型进行对应的解析,并且将解析后的结果保存到数据库,提供给索引、分类、查询和展示模块处理;步骤3,数据解析后的数据进入数据分类模块,数据分类模块为阅报平台提供将数据文本根据自定义规则进行分类的功能接口,通过调用数据解析模块,对解析结果根据自定义规则进行分类,并且将分类后的结果保存到数据库;步骤4,分类后的数据进入全文索引模块,全文索引模块为阅报平台提供对数据文本生成全文索引和查询索引的功能接口,索引过程中通过调用数据解析模块,对解析结果进行...

【专利技术属性】
技术研发人员:孙恺贾朋朋贾伟涛幸娟
申请(专利权)人:天津光电通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1