基于大数据平台的文本处理及检索系统技术方案

技术编号:15220174 阅读:123 留言:0更新日期:2017-04-26 20:06
本发明专利技术公开了一种基于大数据平台的文本处理及检索系统,其包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分;基于Hadoop的文本处理部分包括文本抽取模块等;基于Hadoop分布式检索功能部分包括语义标注模块、基于分布式内存共享检索模块。本发明专利技术能够对不同格式、不同编码的文本数据进行文本处理;对文本进行内容抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要、文本聚类、自动分类的更全面的文本处理操作,充分挖掘文本数据所包含的信息和价值;文本处理结果可以通过服务接口的形式发布出去,提高了系统的交互性和扩展性;采用基于分布式内存共享的全文检索技术,提高文本处理后全文检索的效率。

Text processing and retrieval system based on large data platform

The invention discloses a text processing and retrieval system based on data platform, including text processing part of the Hadoop and Hadoop based distributed retrieval function based on text processing; part of Hadoop including text extraction module based on Hadoop; distributed retrieval function includes semantic annotation module, distributed shared memory retrieval module based on. The invention can text data on different formats and encoding of text processing; text processing more comprehensive content extraction, text segmentation, indexing, entity recognition, keyword extraction, automatic summarization, text clustering, automatic classification of text, full text data mining contains information and value; text processing the results can be distributed through the service interface, improves the interactivity and expansibility; distributed shared memory using full-text retrieval technology based on text processing, improve the efficiency of text retrieval after.

【技术实现步骤摘要】

本专利技术涉及一种计算机信息处理系统,特别是涉及一种基于大数据平台的文本处理及检索系统。
技术介绍
数据的爆炸性增长是信息时代最典型的特征。国际互联网数据中心(InternetDataCenter,IDC)的研究报告指出,2011年全球已有1.8ZB(即1.8万亿GB)数据创建产生。这相当于每位美国人每分钟写3条Tweet(“推特”上的留言),并且还是不停地写2.7万年。Google数据中心的服务器规模以达数百万台,每天处理的数据量超过100PB。这样的大数据中包括大量结构化和非结构化数据,尤其是以文本等为代表的非结构化数据,处理海量数据的两个关键问题就是海量数据的存储和计算问题,传统的文本处理系统在这两个方面都不能满足海量网络文本处理的需求。如何从海量数据中分析和挖掘潜在的价值已经成为大数据研究的重点。基于大数据平台的文本处理及检索系统围绕着基于Hadoop(海杜普,Hadoop是一个由Apache基金会所开发的分布式系统基础架构)平台下的网络文本处理展开,研究的内容包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分构建。其中基于Hadoop一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,主要有创建索引、实体识别、提取关键词、文本自动摘要、文本聚类和自动分类等操作过程,而这些过程的实现均需要进行文本处理。为了解决效率和安全的问题,同时考虑到现有的软件、硬件资源情况,决定将系统的文本处理部分移植到Hadoop分布式计算机平台中。Hadoop平台可将处理程序分发到不同的计算节点实现分布式处理,然后将化理的结果统一地在Hadoop分布式文件系统——HDFS中进行管理。所以基于大数据平台文本处理系统需要解决文本抽取、文本分词、创建索引、实体识别、提取关键词、自动摘要、文本聚类和自动分类等多方面的问题。基于Hadoop分布式检索功能部分构建介绍基于Hadoop平台下检索相关的技术。首先实现了对Lucene(全文搜索引擎)功能的扩展,使Lucene能支持对HDFS文件系统的读写。其次,实现了二个MapReduce(一种编程模型,用于大规模数据集的并行运算)类,一个完成分布式的分词功能,另一个完成建立倒排索引功能。现有的专利技术专利中,“面向数据挖掘的文本处理系统及方法”专利(中国专利申请号201510638674.9、2015.09.29),描述了文本处理的方法,仅针对文本类数据的数据挖掘,包括索引建立、实体识别、关键词提取、自动摘要和自动分类等操作过程,而这些过程的实现均需要进行文本处理,虽然其文本处理方法比较详细,但是其仅仅涉及了文本处理方法,并未将文本处理方法跟大数据相结合,具有一定的局限性。“一种基于语义的大数据分析系统”专利(中国专利公开号为:CN104281697A、2015.01.14),介绍了一种基于语义的大数据分析系统,包括数据采集入库部件、实时数据流处理部件、实时数据流处理部件、存储体系部件和底层支持部件。该专利技术实现基于web的大数据分析,其底层支持部件中涉及的文本处理和检索相关的事务可以进一步提升。“一种基于语义的大数据分析商业智能服务系统”专利(中国专利公开号为:CN104182389A、2014.12.03),介绍了一种基于语义的大数据分析商业智能服务系统,实现了对互联网富含的商业信息地精准分析,可以方便快捷的为中小型企业提供商业智能服务,但是其在文本分词、词性标注、实体识别等方面,限制了对文本处理的能力。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于大数据平台的文本处理及检索系统,其能够提供丰富的文本处理技术,包括文本抽取、文本分词、创建索引、实体识别、提取关键词、自动摘要、文本聚类和自动分类;基于大数据分析技术,充分分析和挖掘文本的内在信息和体现的重要价值;将文本处理技术和大数据分析技术进行结合,有效的提高文本处理的效率和准确度;提供基于分布式内容共享的全文检索技术,提高本文的检索效率。本专利技术是通过下述技术方案来解决上述技术问题的:一种基于大数据平台的文本处理及检索系统,其特征在于,其包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分;所述基于Hadoop的文本处理部分包括:文本抽取模块,接收外部文本文件;文本分词模块,接收来自文本抽取模块的文本内容;索引建立模块,根据文本分词模块所提供的分词结果建立文本内容的索引文件,为服务接口模块提供索引文件;实体识别模块,针对来自文本分词模块的分词结果,识别出文本内容中的实体词,并输出给服务接口模块;关键词提取模块,接收文本分词模块的分词结构,提取文本内容中的关键词,并输出给服务接口模块;自动摘要模块,根据文本分词模块所得到的分词结果以及上下文结构,进行自动的摘要生成,并将生成的文本内容摘要输出给服务接口模块;文本聚类模块,根据自动聚类功能是通过在文档的处理过程中,自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类;自动分类模块,根据文本分词模块所输出的分词结构,按照预先定义的主体类别给文本内容确定一个类别,并将该分类结构输出给服务接口模块;服务接口模块,分别接受来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果,并将这些结构分别以服务的形式发布出去,来提供其他系统调用相应的文本处理结果;所述基于Hadoop分布式检索功能部分包括:语义标注模块,对文本添加语义标注,利用标注信息和文本之间的关系,进行辅助检索;基于分布式内存共享检索模块,将文本处理的结果存储到大数据平台中,并加载到内容中。优选地,所述文件抽取模块接收外部文件时,首先判断其文件是否破损,若是则不再进行后续文本处理,否则再识别其文件格式,根据识别出的文件格式进行相应的文本抽取操作,为文本分词模块输出所抽取的文本内容。优选地,所述文件分词模块接收文件抽取模块的文本内容后,先进行编码转换,转换成统一的编码格式后再进行繁简转换,然后经过文本分词模块进行分词和词性标注,并将带词性标注的分词结果分别传递给索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块。优选地,所述文本聚类模块中的特征向量是由文档中出现的概念、关键词以及它出现的频率构成。优选地,所述基于大数据平台的文本处理及检索系统采用如下工作流程:步骤一,获取待处理的文本;步骤二,表示从所述的文本结构、扩展名及内部标志位进行破损文件识别;步骤三,识别结果判断文本是否损坏,若为破损文本,则执行步骤十三结束本次文本处理流程并提示用户文件已破损;否则,继续往下执行步骤四以下流程;步骤四,对文本分词前进行预处理;步骤五,对基于Lucene和Hadoop模式对文本内容进行文本分词操作,将所述的文本内容按词进行切分并进行词性标注;步骤六,根据分词结果,对所述的文本内容建立索引并生成索引文件以提供给步骤十二进行结果输出;步骤七,通过识别和分析步骤五的分词结果,自动抽取出时间和PLO的实体词信息;步骤八,根据不同词性赋予不同的权重、同时考虑词的位置权重来提取出一定数量的关键词;步骤九,中对文本内容和分词结果进行切分、排序,获取所述文本的句子序列和句子的词序列表达,然后计算词和句子的权重并对所述文本内容的所有句子按权重值本文档来自技高网
...

【技术保护点】
一种基于大数据平台的文本处理及检索系统,其特征在于,所述基于大数据平台的文本处理及检索系统包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分;所述基于Hadoop的文本处理部分包括:文本抽取模块,接收外部文本文件;文本分词模块,接收来自文本抽取模块的文本内容;索引建立模块,根据文本分词模块所提供的分词结果建立文本内容的索引文件,为服务接口模块提供索引文件;实体识别模块,针对来自文本分词模块的分词结果,识别出文本内容中的实体词,并输出给服务接口模块;关键词提取模块,接收文本分词模块的分词结构,提取文本内容中的关键词,并输出给服务接口模块;自动摘要模块,根据文本分词模块所得到的分词结果以及上下文结构,进行自动的摘要生成,并将生成的文本内容摘要输出给服务接口模块;文本聚类模块,根据自动聚类功能是通过在文档的处理过程中,自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类;自动分类模块,根据文本分词模块所输出的分词结构,按照预先定义的主体类别给文本内容确定一个类别,并将该分类结构输出给服务接口模块;服务接口模块,分别接受来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果,并将这些结构分别以服务的形式发布出去,来提供其他系统调用相应的文本处理结果;所述基于Hadoop分布式检索功能部分包括:语义标注模块,对文本添加语义标注,利用标注信息和文本之间的关系,进行辅助检索;基于分布式内存共享检索模块,将文本处理的结果存储到大数据平台中,并加载到内容中。...

【技术特征摘要】
1.一种基于大数据平台的文本处理及检索系统,其特征在于,所述基于大数据平台的文本处理及检索系统包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分;所述基于Hadoop的文本处理部分包括:文本抽取模块,接收外部文本文件;文本分词模块,接收来自文本抽取模块的文本内容;索引建立模块,根据文本分词模块所提供的分词结果建立文本内容的索引文件,为服务接口模块提供索引文件;实体识别模块,针对来自文本分词模块的分词结果,识别出文本内容中的实体词,并输出给服务接口模块;关键词提取模块,接收文本分词模块的分词结构,提取文本内容中的关键词,并输出给服务接口模块;自动摘要模块,根据文本分词模块所得到的分词结果以及上下文结构,进行自动的摘要生成,并将生成的文本内容摘要输出给服务接口模块;文本聚类模块,根据自动聚类功能是通过在文档的处理过程中,自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类;自动分类模块,根据文本分词模块所输出的分词结构,按照预先定义的主体类别给文本内容确定一个类别,并将该分类结构输出给服务接口模块;服务接口模块,分别接受来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果,并将这些结构分别以服务的形式发布出去,来提供其他系统调用相应的文本处理结果;所述基于Hadoop分布式检索功能部分包括:语义标注模块,对文本添加语义标注,利用标注信息和文本之间的关系,进行辅助检索;基于分布式内存共享检索模块,将文本处理的结果存储到大数据平台中,并加载到内容中。2.根据权利要求1所述的基于大数据平台的文本处理及检索系统,其特征在于,所述文件抽取模块接收外部文件时,首先判断其文件是否破损,若是则不再进行后续文本处理,否则再识别其文件格式,根据识别出的文件格式进行相应的文本抽取操作,为文本分词模块输出所抽取的文本内容。3.根据权利要求1所述的基于大数据平台的文本处理及检索系统,其特征在于,所述文件分词模块接收文件抽取模块的文本内容后,先进行编码转换,转换成统一的编...

【专利技术属性】
技术研发人员:姜鑫王金华
申请(专利权)人:中国电子科技集团公司第三十二研究所
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1