一种互联网段落级话题识别系统技术方案

技术编号:10968204 阅读:134 留言:0更新日期:2015-01-28 20:08
本发明专利技术公开了一种互联网段落级话题识别系统,运用话题识别与语义维度分析、对特定文本集自动话题抽取和定义、识别文本与特定话题之间的关联强度、识别文本之间在话题层面的交叉、相似等关系特定的技术手段,因此具有可与操作人员交互并纠偏、在线离线相结合,计算速度快;支持多个数据库、文件系统、互联网等多种分析目标等功能。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种互联网段落级话题识别系统,运用话题识别与语义维度分析、对特定文本集自动话题抽取和定义、识别文本与特定话题之间的关联强度、识别文本之间在话题层面的交叉、相似等关系特定的技术手段,因此具有可与操作人员交互并纠偏、在线离线相结合,计算速度快;支持多个数据库、文件系统、互联网等多种分析目标等功能。【专利说明】一种互联网段落级话题识别系统
本专利技术涉及互联网话题识别
,尤其涉及一种互联网段落级话题识别系统。
技术介绍
目前,互联网的发展日新月异,但互联网文本的语义分析与商业情报提取主要依赖于对文本话题的识别,而一般的文本语义分析以篇章为单位,很难适应微博兴起之后的互联网文本分布情况。在微博逐渐兴起之时,微博生产数据的能力超乎想象,占可提取情报的比重也越来越大,但是微博的文本有段落化与碎片化等特点,这些短小文本用一般的语义分析技术已经很难应对,主要表现为:语言特征段、语义段落、去中心化、以前的信息组织方式相对有序的,分门别类的;造成微博之间联系性较低。
技术实现思路
为了解决
技术介绍
中存在的技术问题,本专利技术提出了一种互联网段落级话题识别系统,能支持多个数据库、文件系统、互联网等多种分析目标的互联网段落级话题识别。 本专利技术提出的一种互联网段落级话题识别系统,包括: 网络蜘蛛模块,用于根据情报搜集与分析目标,利用网络蜘蛛,采集各类信息,并丢入存储系统; 文本段落切片模块,用于对文本切割,使以文本文档形式的文本数据转化为统一格式的段落; 语义分析与标注模块,用于实现段落分词后,通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,通过这种词汇向语义概念的转换,将段落从文本转变为概念组合体; 维度识别模块,用于实现段落的维度匹配、标注、权重计算; LSA分析模块,用于进行潜在语义分析,分解后得到三个矩阵SVD,用S、D矩阵作为计算段落间关联度计算、话题见关联度、维度独立性计算; 语义化文本描述模块,用于在各个语义段落做完段落级语义分析之后,对整个文本文档汇总语义信息和语义维度化描述该文档的模块; 业务表现模块,是情报系统内核的Shell,用于将用户的情报需求逻辑表达给系统,生成执行脚本;另一方面,它根据执行脚本,调用情报系统的核心执行模块,以实现用户的情报收集与分析的需求; Π模块,根据用户功能定义调阅相关数据并以合适的形式展现给最终情报消费者。 优选地,所述文本段落切片模块具体用于:获取互联网数据;对所述互联网数据中的文本段落进行粗切分;对粗切分的文本段落进行段落相关性分析与段落重组;将重组后的段落合并为语义段落;将相同语义段落永久地序列化到存储系统之中。 优选地,所述语义分析与标注模块具体用于:进行段落分词;通过本体和语法规贝1J,对分词后的段落内的词或词组进行语义标注,将段落从文本转变为概念组合体;进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式存储到存储系统中。 优选地,所述维度识别模块具体用于:调用已经定义过的语义维度及其特征描述,或调用客户在特定分析目标下关注的语义维度及其特征描述,进行段落-维度结构化关联;将所述语义维度及特征描述与语义空间中的段落特征进行匹配与计算,得出各个语义维度在特定段落上的强度值;段落-维度强弱描述,对段落的各个维度计算结果,联系上下文关系和段落词汇频率,对段落内多次或者重复的维度合并和矫正,得出段落的整体上对每个语义维度的强弱描述值;将所有的维度值综合起来,在维度空间中表达该段落,实现段落维度化描述。 优选地,所述LSA分析模块具体用于:对文本库进行训练;对训练好的文本库进行潜在语义分析;将分解后的潜在语义分析存储到系统中;用户通过该系统的矩阵访问接口可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。 优选地,所述语义化文本描述模块具体用于:将整个文本文档中各个语义段落进行段落级语义分析;对各个段落级语义汇总语义信息;对每个段落进行语义维度化描述;进行文档特征描述;文档特征描述维度互校正。 优选地,所述业务表现模块具体用于:将情报系统内核的Shell转换成用户可识别的逻辑形式;生成执行Shell脚本:情报系统内核允许不同维度调用和重新组合,将用户的搜集分析意向分解为这种调用和重新组合的脚本;通过执行该Shell脚本,直接调阅相关维度、文本文档参数,生成符合特定场景需求的文本语义分析逻辑,以实现用户的情报收集与分析的需求。 优选地,所述Π模块为用户根据实际情报搜集和分析的需求,将这种需求表达给系统的UI ;或另一类是提供给情报最终消费者的UI。 本专利技术中,由于运用话题识别与语义维度分析、对特定文本集自动话题抽取和定义、识别文本与特定话题之间的关联强度、识别文本之间在话题层面的交叉、相似等关系特定的技术手段,因此具有可与操作人员交互并纠偏、在线离线相结合,计算速度快;支持多个数据库、文件系统、互联网等多种分析目标等功能。 【专利附图】【附图说明】 图1为本专利技术实施例提出的一种互联网段落级话题识别系统; 图2为本专利技术互联网段落级话题识别系统中网络蜘蛛模块工作过程图; 图3为本专利技术互联网段落级话题识别系统中文本段落切片模块过程图; 图4为本专利技术互联网段落级话题识别系统中语义分析与标注模块过程图; 图5为本专利技术互联网段落级话题识别系统中维度识别模块过程图; 图6为本专利技术互联网段落级话题识别系统中LSA分析模块过程图; 图7为本专利技术互联网段落级话题识别系统中语义化文本描述模块过程图; 图8为本专利技术互联网段落级话题识别系统中业务表现模块过程图; 图9为本专利技术互联网段落级话题识别系统中Π模块过程图。 【具体实施方式】 如图1所示,本专利技术实施例提出了一种互联网段落级话题识别系统,包括: 网络蜘蛛模块10,用于根据情报搜集与分析目标,利用网络蜘蛛,采集各类信息,并丢入存储系统。其中,默认存储系统为分布式存储系统hadoop系统。具体工作过程如图2所示。 文本段落切片模块20,用于对文本切割,使以文本文档形式的文本数据转化为统一格式的段落,这不但有利于系统便于统一接口和设计,而且充分利用在段落级别文本分析的优势,在更小粒度的文本上精炼更加详尽、准确的语义信息,以支持情报采集、识别和分析。具体工作过程如图3所示,包括以下步骤: 步骤101,获取互联网数据; 步骤102,对所述互联网数据中的文本段落进行粗切分; 步骤103,对粗切分的文本段落进行段落相关性分析与段落重组; 步骤104,将重组后的段落合并为语义段落; 步骤105,将相同语义段落永久地序列化到存储系统之中。 语义分析与标注模块30,用于实现段落分词后,通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,通过这种词汇向语义概念的转换(段落语义次回话描述体系),将段落从文本转变为概念组合体,以便于进行相应语义计算,抽取语义维度以及维度强度。具体工作过程如图4所示,包括以下步骤: 步骤201,进行段落分词; 步骤202,通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,将段落从文本文档来自技高网...

【技术保护点】
一种互联网段落级话题识别系统,其特征在于,包括:网络蜘蛛模块,用于根据情报搜集与分析目标,利用网络蜘蛛,采集各类信息,并丢入存储系统;文本段落切片模块,用于对文本切割,使以文本文档形式的文本数据转化为统一格式的段落;语义分析与标注模块,用于实现段落分词后,通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,通过这种词汇向语义概念的转换,将段落从文本转变为概念组合体;维度识别模块,用于实现段落的维度匹配、标注、权重计算;LSA分析模块,用于进行潜在语义分析,分解后得到三个矩阵SVD,用S、D矩阵作为计算段落间关联度计算、话题见关联度、维度独立性计算;语义化文本描述模块,用于在各个语义段落做完段落级语义分析之后,对整个文本文档汇总语义信息和语义维度化描述该文档的模块;业务表现模块,是情报系统内核的Shell,用于将用户的情报需求逻辑表达给系统,生成执行脚本;另一方面,它根据执行脚本,调用情报系统的核心执行模块,以实现用户的情报收集与分析的需求;UI模块,根据用户功能定义调阅相关数据并以合适的形式展现给最终情报消费者。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾岩
申请(专利权)人:安徽华贞信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1