一种互联网段落级话题识别系统技术方案

技术编号：10968204 阅读：134 留言：0更新日期：2015-01-28 20:08

本发明专利技术公开了一种互联网段落级话题识别系统，运用话题识别与语义维度分析、对特定文本集自动话题抽取和定义、识别文本与特定话题之间的关联强度、识别文本之间在话题层面的交叉、相似等关系特定的技术手段，因此具有可与操作人员交互并纠偏、在线离线相结合，计算速度快；支持多个数据库、文件系统、互联网等多种分析目标等功能。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种互联网段落级话题识别系统，运用话题识别与语义维度分析、对特定文本集自动话题抽取和定义、识别文本与特定话题之间的关联强度、识别文本之间在话题层面的交叉、相似等关系特定的技术手段，因此具有可与操作人员交互并纠偏、在线离线相结合，计算速度快；支持多个数据库、文件系统、互联网等多种分析目标等功能。【专利说明】一种互联网段落级话题识别系统
本专利技术涉及互联网话题识别
，尤其涉及一种互联网段落级话题识别系统。
技术介绍
目前，互联网的发展日新月异，但互联网文本的语义分析与商业情报提取主要依赖于对文本话题的识别，而一般的文本语义分析以篇章为单位，很难适应微博兴起之后的互联网文本分布情况。在微博逐渐兴起之时，微博生产数据的能力超乎想象，占可提取情报的比重也越来越大，但是微博的文本有段落化与碎片化等特点，这些短小文本用一般的语义分析技术已经很难应对，主要表现为:语言特征段、语义段落、去中心化、以前的信息组织方式相对有序的，分门别类的；造成微博之间联系性较低。
技术实现思路
为了解决
技术介绍
中存在的技术问题，本专利技术提出了一种互联网段落级话题识别系统，能支持多个数据库、文件系统、互联网等多种分析目标的互联网段落级话题识别。本专利技术提出的一种互联网段落级话题识别系统，包括: 网络蜘蛛模块，用于根据情报搜集与分析目标，利用网络蜘蛛，采集各类信息，并丢入存储系统；文本段落切片模块，用于对文本切割，使以文本文档形式的文本数据转化为统一格式的段落；语义分析与标注模块，用于实现段落分词后，通...

【技术保护点】
一种互联网段落级话题识别系统，其特征在于，包括：网络蜘蛛模块，用于根据情报搜集与分析目标，利用网络蜘蛛，采集各类信息，并丢入存储系统；文本段落切片模块，用于对文本切割，使以文本文档形式的文本数据转化为统一格式的段落；语义分析与标注模块，用于实现段落分词后，通过本体和语法规则，对分词后的段落内的词或词组进行语义标注，通过这种词汇向语义概念的转换，将段落从文本转变为概念组合体；维度识别模块，用于实现段落的维度匹配、标注、权重计算；LSA分析模块，用于进行潜在语义分析，分解后得到三个矩阵SVD，用S、D矩阵作为计算段落间关联度计算、话题见关联度、维度独立性计算；语义化文本描述模块，用于在各个语义段落做完段落级语义分析之后，对整个文本文档汇总语义信息和语义维度化描述该文档的模块；业务表现模块，是情报系统内核的Shell，用于将用户的情报需求逻辑表达给系统，生成执行脚本；另一方面，它根据执行脚本，调用情报系统的核心执行模块，以实现用户的情报收集与分析的需求；UI模块，根据用户功能定义调阅相关数据并以合适的形式展现给最终情报消费者。

【技术特征摘要】

【专利技术属性】
技术研发人员：贾岩，
申请(专利权)人：安徽华贞信息科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人