面向大规模数据的情报系统中文本聚合及展现方法及系统技术方案

技术编号：14355194 阅读：101 留言：0更新日期：2017-01-08 22:28

本发明专利技术涉及一种面向大规模数据的情报系统中文本聚合及展现方法及系统，包括以下步骤：S1、对长短文本进行多维度划分，包括长文本、短文本和无意义文本；S2、对长文本通过topN相似度算法计算相似度度量；S3、对短文本进行SimHash算法计算相似度度量；S4、文本聚合展示，在展示文本时，将相似的文本聚合到一起进行展示。本发明专利技术能够快速将相似的文本聚合在一起，页面上展现代表性文章的标题和摘要等基本信息，方便用户快速浏览发现自己感兴趣的信息以及在发现感兴趣信息后，点开详细阅读，极大地提高了用户阅读效率以及关键情报信息定位的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算情报学领域，更具体的说，是涉及一种面向大规模数据的情报系统中文本聚合及展现方法及系统。
技术介绍
随着互联网的快速发展，网络媒体作为一种新的信息传播形式，已深入人们的日常生活。网友言论活跃已达到前所未有的程度，不论是国内还是国际重大事件，都能马上形成网上舆论，通过这种网络来表达观点、传播思想，进而产生巨大的舆论压力，达到任何部门、机构都无法忽视的地步。可以说，互联网已成为思想文化信息的集散地和社会舆论的放大器。网络情报服务系统是利用搜索引擎技术和网络信息挖掘技术，通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析，实现各单位对自己相关网络情报监督管理的需要，最终形成情报简报、情报专报、分析报告、移动快报，为决策层全面掌握情报动态，做出正确舆论引导，提供分析依据。传统的情报服务系统上信息阅读方式是逐条浏览，如果页面上出现了重复了相似的文本，也不得不在阅读以后才会发现内容重复，这样就造成了用户时间的浪费。另一方面，用户阅读一条信息后，发现对此类信息比较有兴趣，希望快速并集中地获得此类信息，传统的情报服务系统并没有一种...
面向大规模数据的情报系统中文本聚合及展现方法及系统

【技术保护点】
一种面向大规模数据的情报系统中文本聚合及展现方法，其特征在于，包括以下步骤：S1、对长短文本进行多维度划分，包括长文本、短文本和无意义文本；S2、对长文本通过topN相似度算法计算相似度度量；S3、对短文本进行SimHash算法计算相似度度量；S4、文本聚合展示，在展示文本时，将相似的文本聚合到一起进行展示。

【技术特征摘要】
1.一种面向大规模数据的情报系统中文本聚合及展现方法，其特征在于，包括以下步骤：S1、对长短文本进行多维度划分，包括长文本、短文本和无意义文本；S2、对长文本通过topN相似度算法计算相似度度量；S3、对短文本进行SimHash算法计算相似度度量；S4、文本聚合展示，在展示文本时，将相似的文本聚合到一起进行展示。2.根据权利要求1所述的面向大规模数据的情报系统中文本聚合及展现方法，其特征在于，所述步骤S1中包括，将来源文本划分成长文本、短文本及无意义文本三种，其中无信息文本会直接抛弃而不做处理。3.根据权利要求2所述的面向大规模数据的情报系统中文本聚合及展现方法，其特征在于，所述无意义文本为信息量低或无意义信息。4.根据权利要求1所述的面向大规模数据的情报系统中文本聚合及展现方法，其特征在于，所述步骤S2具体包括：从文本中提取N句代表性的词语，组成特征词语，将此N个句子按从长到短拼接成一个特征句，使用MD5生成此特征句的hash值，存入数据库，拥有相同hash值的文本被认为是相似文本。5.根据权利要求1所述的面向大规模数据的情报系统中文本聚合及展现方法，其特征在于，所述步骤S3具体包括：将文本进行分词，分词后过滤去掉标点符号，使用SimHash计...

【专利技术属性】
技术研发人员：李靖，杜鲁，金俏，杨绪升，
申请(专利权)人：武汉烽火普天信息技术有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人