基于大数据平台的文本处理及检索系统技术方案

技术编号：15220174 阅读：123 留言：0更新日期：2017-04-26 20:06

本发明专利技术公开了一种基于大数据平台的文本处理及检索系统，其包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分；基于Hadoop的文本处理部分包括文本抽取模块等；基于Hadoop分布式检索功能部分包括语义标注模块、基于分布式内存共享检索模块。本发明专利技术能够对不同格式、不同编码的文本数据进行文本处理；对文本进行内容抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要、文本聚类、自动分类的更全面的文本处理操作，充分挖掘文本数据所包含的信息和价值；文本处理结果可以通过服务接口的形式发布出去，提高了系统的交互性和扩展性；采用基于分布式内存共享的全文检索技术，提高文本处理后全文检索的效率。

Text processing and retrieval system based on large data platform

The invention discloses a text processing and retrieval system based on data platform, including text processing part of the Hadoop and Hadoop based distributed retrieval function based on text processing; part of Hadoop including text extraction module based on Hadoop; distributed retrieval function includes semantic annotation module, distributed shared memory retrieval module based on. The invention can text data on different formats and encoding of text processing; text processing more comprehensive content extraction, text segmentation, indexing, entity recognition, keyword extraction, automatic summarization, text clustering, automatic classification of text, full text data mining contains information and value; text processing the results can be distributed through the service interface, improves the interactivity and expansibility; distributed shared memory using full-text retrieval technology based on text processing, improve the efficiency of text retrieval after.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种计算机信息处理系统，特别是涉及一种基于大数据平台的文本处理及检索系统。
技术介绍
数据的爆炸性增长是信息时代最典型的特征。国际互联网数据中心(InternetDataCenter，IDC)的研究报告指出，2011年全球已有1.8ZB(即1.8万亿GB)数据创建产生。这相当于每位美国人每分钟写3条Tweet(“推特”上的留言)，并且还是不停地写2.7万年。Google数据中心的服务器规模以达数百万台，每天处理的数据量超过100PB。这样的大数据中包括大量结构化和非结构化数据，尤其是以文本等为代表的非结构化数据，处理海量数据的两个关键问题就是海量数据的存储和计算问题，传统的文本处理系统在这两个方面都不能满足海量网络文本处理的需求。如何从海量数据中分析和挖掘潜在的价值已经成为大数据研究的重点。基于大数据平台的文本处理及检索系统围绕着基于Hadoop(海杜普，Hadoop是一个由Apache基金会所开发的分布式系统基础架构)平台下的网络文本处理展开，研究的内容包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分构建。其中基于Hadoop一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程，主要有创建索引、实体识别、提取关键词、文本自动摘要、文本聚类和自动分类等操作过程，而这些过程的实现均需要进行文本处理。为了解决效率和安全的问题，同时考虑到现有的软件、硬件资源情况，决定将系统的文本处理部分移植到Hadoop分布式计算机平台中。Hadoop平台可将处理程序分发到不同的计算节点实现分布式处理，然后将化理的结果统一地...

【技术保护点】
一种基于大数据平台的文本处理及检索系统，其特征在于，所述基于大数据平台的文本处理及检索系统包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分；所述基于Hadoop的文本处理部分包括：文本抽取模块，接收外部文本文件；文本分词模块，接收来自文本抽取模块的文本内容；索引建立模块，根据文本分词模块所提供的分词结果建立文本内容的索引文件，为服务接口模块提供索引文件；实体识别模块，针对来自文本分词模块的分词结果，识别出文本内容中的实体词，并输出给服务接口模块；关键词提取模块，接收文本分词模块的分词结构，提取文本内容中的关键词，并输出给服务接口模块；自动摘要模块，根据文本分词模块所得到的分词结果以及上下文结构，进行自动的摘要生成，并将生成的文本内容摘要输出给服务接口模块；文本聚类模块，根据自动聚类功能是通过在文档的处理过程中，自动生成文档的特征向量，根据特征向量，将相似的文档聚合归类；自动分类模块，根据文本分词模块所输出的分词结构，按照预先定义的主体类别给文本内容确定一个类别，并将该分类结构输出给服务接口模块；服务接口模块，分别接受来自索引建立模块、实体识别模块、关键词提取模块、...

【技术特征摘要】
1.一种基于大数据平台的文本处理及检索系统，其特征在于，所述基于大数据平台的文本处理及检索系统包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分；所述基于Hadoop的文本处理部分包括：文本抽取模块，接收外部文本文件；文本分词模块，接收来自文本抽取模块的文本内容；索引建立模块，根据文本分词模块所提供的分词结果建立文本内容的索引文件，为服务接口模块提供索引文件；实体识别模块，针对来自文本分词模块的分词结果，识别出文本内容中的实体词，并输出给服务接口模块；关键词提取模块，接收文本分词模块的分词结构，提取文本内容中的关键词，并输出给服务接口模块；自动摘要模块，根据文本分词模块所得到的分词结果以及上下文结构，进行自动的摘要生成，并将生成的文本内容摘要输出给服务接口模块；文本聚类模块，根据自动聚类功能是通过在文档的处理过程中，自动生成文档的特征向量，根据特征向量，将相似的文档聚合归类；自动分类模块，根据文本分词模块所输出的分词结构，按照预先定义的主体类别给文本内容确定一个类别，并将该分类结构输出给服务接口模块；服务接口模块，分别接受来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果，并将这些结构分别以服务的形式发布出去，来提供其他系统调用相应的文本处理结果；所述基于Hadoop分布式检索功能部分包括：语义标注模块，对文本添加语义标注，利用标注信息和文本之间的关系，进行辅助检索；基于分布式内存共享检索模块，将文本处理的结果存储到大数据平台中，并加载到内容中。2.根据权利要求1所述的基于大数据平台的文本处理及检索系统，其特征在于，所述文件抽取模块接收外部文件时，首先判断其文件是否破损，若是则不再进行后续文本处理，否则再识别其文件格式，根据识别出的文件格式进行相应的文本抽取操作，为文本分词模块输出所抽取的文本内容。3.根据权利要求1所述的基于大数据平台的文本处理及检索系统，其特征在于，所述文件分词模块接收文件抽取模块的文本内容后，先进行编码转换，转换成统一的编...

【专利技术属性】
技术研发人员：姜鑫，王金华，
申请(专利权)人：中国电子科技集团公司第三十二研究所，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人