当前位置: 首页 > 专利查询>南华大学专利>正文

一种基于大数据应用的短文本信息检索系统技术方案

技术编号:15391701 阅读:64 留言:0更新日期:2017-05-19 04:54
本发明专利技术涉及信息检索领域,具体为一种基于大数据应用的短文本信息检索系统,包括分类采集系统和短文本预处理模块,所述分类采集系统的输出端信号连接词段预处理模块的输入端,词段预处理模块输出的词段依次经过词段拆分模块和词段分集模块处理后,将拆分词关联集合的数据传输到共享数据库中,本发明专利技术功能涉及合理,在大数据的数据基础上,对检索词段进行统计和处理,在进行短文本信息检索时,将短文本合理拆分和组合,经过词段逆推得出词频,由词频的大小进行信息输出,很大程度上简化了检索系统的负担,并且实现了快速的对比,在大数据的实时更新状态下,能够提高信息检索的时效性,并且避免了数据的检索遗漏。

A short text information retrieval system based on large data applications

The present invention relates to the field of information retrieval, in particular to a short text information retrieval system based on the application of data acquisition system, including the classification and short text preprocessing module, the output end of the signal acquisition and classification system is connected with the input end segment preprocessing module, word word segment preprocessing module outputs are the word segment split module and segment diversity processing modules, data transmission split word association collection to a shared database, the invention relates to a reasonable function, based on large data, statistics and processing of key words, in short text information retrieval, the short text reasonable resolution and combination. After the segment inversion obtained by the size of the word frequency, word frequency information output, greatly simplifies the retrieval system and the realization of the burden, quick comparison, in big data Under the condition of real-time update, it can improve the timeliness of information retrieval, and avoid the omission of data retrieval.

【技术实现步骤摘要】
一种基于大数据应用的短文本信息检索系统
本专利技术涉及信息检索领域,一种基于大数据应用的短文本信息检索系统。
技术介绍
随着社会科技和生活的不断进步,短文本信息呈爆炸式的增长,大数据即为巨量数据集合,在进行信息检索的过程中,需要使用短文本进行信息检索,现有技术下的短文本信息检索的方法设计比较复杂,并且伴随着信息的爆炸式增长不能够很好的实现信息的快速和高效的检索过程,并且信息检索会在很大程度上出现遗漏的现象,导致信息检索出现失误,影响较大,随着大数据的时代到来,需要在大数据的基础上设计一种能够方便、高效的信息检索系统。
技术实现思路
本专利技术的目的在于提供一种基于大数据应用的短文本信息检索系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于大数据应用的短文本信息检索系统,包括分类采集系统和短文本预处理模块,所述分类采集系统的输出端信号连接词段预处理模块的输入端,词段预处理模块输出的词段依次经过词段拆分模块和词段分集模块处理后,分别放入到拆分词关联集合中,词段拆分模块上设置词频统计模块,将拆分词关联集合的数据传输到共享数据库中,并将拆分词关联集合的数据本文档来自技高网...
一种基于大数据应用的短文本信息检索系统

【技术保护点】
一种基于大数据应用的短文本信息检索系统,其特征在于:包括分类采集系统和短文本预处理模块,所述分类采集系统的输出端信号连接词段预处理模块的输入端,词段预处理模块输出的词段依次经过词段拆分模块和词段分集模块处理后,分别放入到拆分词关联集合中,词段拆分模块上设置词频统计模块,将拆分词关联集合的数据传输到共享数据库中,并将拆分词关联集合的数据生成镜像保存到储存数据库中,所述短文本预处理模块的信号输出端连接短文本拆分、组合模块的输入端,短文本拆分、组合模块的输出端与文本传输模块的输入端连接,文本传输模块的输出端信号连接在对比检索模块的一个输入端上,对比检索模块的另一个输入端与共享数据库的信号输出端连接,...

【技术特征摘要】
1.一种基于大数据应用的短文本信息检索系统,其特征在于:包括分类采集系统和短文本预处理模块,所述分类采集系统的输出端信号连接词段预处理模块的输入端,词段预处理模块输出的词段依次经过词段拆分模块和词段分集模块处理后,分别放入到拆分词关联集合中,词段拆分模块上设置词频统计模块,将拆分词关联集合的数据传输到共享数据库中,并将拆分词关联集合的数据生成镜像保存到储存数据库中,所述短文本预处理模块的信号输出端连接短文本拆分、组合模块的输入端,短文本拆分、组合模块的输出端与文本传输模块的输入端连接,文本传输模块的输出端信号连接在对比检索模块的一个输入端上,对比检索模块的另一个输入端与共享数据库的信号输出端连接,且对比检索模块的输出端信号连接文本收集模块,所述文本收集模块的输出端按照词频的大小排列输出到文本排列模块,文本排列模块的输出端通过信号连接在词段逆推模块的输入端并输出。2.根据权利要求1所述的一种基于大数据应用的短文本信息检索系统,其特征在于:所述分类采集系统包括但不限于金融、医疗、教育、物流、股市等类别。3.根据权利要求1所述的一种基于大数据应用的短文本信息检索系统,其特征在于:所述短文本拆分、组合模块为正序拆分、组合。4.根据权利要求1-3任意一项所述的一种基于大数据应用的短文本信息检索系统,其特征在于,包括以下步骤:1)分类采集:经过分类采集系统,将不同类别的词段进行收集;2)词段预处理:将上步骤中的词段中所存在的标点符号、表情符号、语气助词、介词和连接词去除,并以空格符代替,相连的两个空格符合并成一个;3)词段拆分、分集:把步骤2)中空格符之间的词段进行拆分,进...

【专利技术属性】
技术研发人员:万亚平阳小华张娟刘立谭邦刘志明欧阳纯萍
申请(专利权)人:南华大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1