一种文本信息提取的方法及系统技术方案

技术编号:11133015 阅读:74 留言:0更新日期:2015-03-12 03:18
本申请提供了一种文本信息提取的方法,该方法包括:确定目标对象;对所述目标对象进行预处理;根据所述预处理结果,构建隐含语义分析LSA,将所述目标对象数字化;使用k-means聚类算法对所述数字化后的目标对象进行聚类,得到至少一个聚类簇;利用基于LSA的算法对各个所述聚类簇中的信息进行信息提取,并将所述提取出来的信息组合在一起,能够准确的提取微博摘要。本申请还提供了一种文本信息提取的系统,同样能够准确的提取微博摘要。

【技术实现步骤摘要】

本申请涉及信息领域,特别涉及一种文本信息提取的方法及系统
技术介绍
随着技术的发展,人们对微博信息的提取方式越来越关注。现有的对微博信息做摘要的方法中,大多数都是基于空间向量模型(VSM)对微博文本的表示方法进行微博摘要提取的,这种方法提取的摘要不够准确。因此,如何准确的提取微博摘要是本领域技术人员目前需要解决的技术问题。
技术实现思路
本申请所要解决的技术问题是提供一种文本信息提取的方法及系统,解决了现有技术中提取的微博摘要不够准确的问题。其具体方案如下:一种文本信息提取的方法,该方法包括:确定目标对象;对所述目标对象进行预处理;根据所述预处理结果,构建隐含语义分析LSA,将所述目标对象数字化;使用k-means聚类算法对所述数字化后的目标对象进行聚类,得到至少一个聚类簇;利用基于LSA的算法对各个所述聚类簇中的信息进行信息提取,并将所述提取出来的信息组合在一起。上述的方法,优选的,所述对目标对象进行预处理包括:利用预设的分词工具对所述目标对象进行分词;当判断所述分词后的词是否已停用时,去除所述停用的词;当判断所述词的出现频率超过预设阈值时,确定所述词为特征词。上述的方法,优选的,所述构建隐含语义分析LSA包括:根据所述预处理结果,构建特征词-文本矩阵;利用预设方法对所述矩阵进行奇异值分解处理,得到所述隐含语义空>间;选取最大的k个奇异值,对所述特征词-文本矩阵进行降维,得到所述特征词-文本矩阵的近似矩阵,得到降维后的所述隐含语义空间。上述的方法,优选的,所述使用k-means聚类算法对数字化后的目标对象进行聚类包括:确定k个聚类初始中心点;根据第一预设算法确定所述目标对象所属于的类;根据第二预设算法确定所述类的中心,并将所述类的中心确定为所述聚类的初始中心点,直到所述类的中心收敛为止。上述的方法,优选的,所述利用基于LSA的算法对聚类后的信息进行信息提取包括:在所述聚类后的各个聚类簇中,依据预设的规则挑选满足预设条件的所述目标对象;将所述满足预设条件的目标对象进行预处理,并构建特征词-文本矩阵,得到隐含语义空间;在所述隐含语义空间中选取k个最大的奇异值;根据所述k个最大的奇异值和所述特征词-文本矩阵确定所述特征词-文本矩阵的近似矩阵;根据所述特征词-文本矩阵的近似矩阵,计算相似度矩阵;归一化所述相似度矩阵;在所述相似度矩阵中,选出满足预设阈值范围的相似度值;根据所述相似度值,提取出对应的信息,并将所述提取出来的信息组合在一起。一种文本信息提取的系统,该系统包括:第一确定单元,用于确定目标对象;预处理单元,用于对所述目标对象进行预处理;第一构建单元,用于根据所述预处理结果,构建隐含语义分析LSA,将所述目标对象数字化;聚类单元,用于使用k-means聚类算法对所述数字化后的目标对象进行聚类,得到至少一个聚类簇;第一提取单元,用于利用基于LSA的算法对各个所述聚类簇中的信息进行信息提取,并将所述提取出来的信息组合在一起。上述的系统,优选的,所述预处理单元包括:分词单元,用于利用预设的分词工具对所述目标对象进行分词;去除单元,用于当判断所述分词后的词是否已停用时,去除所述停用的词;第二确定单元,用于当判断所述词的出现频率超过预设阈值时,确定所述词为特征词。上述的系统,优选的,所述第一构建单元包括:第二构建单元,用于根据所述预处理结果,构建特征词-文本矩阵;分解单元,用于利用预设方法对所述矩阵进行奇异值分解处理,得到所述隐含语义空间;降维单元,用于选取最大的k个奇异值,对所述特征词-文本矩阵进行降维,得到所述特征词-文本矩阵的近似矩阵,得到降维后的所述隐含语义空间。上述的系统,优选的,所述聚类单元包括:第三确定单元,用于确定k个聚类初始中心点;第四确定单元,用于根据第一预设算法确定所述目标对象所属于的类;第五确定单元,用于根据第二预设算法确定所述类的中心,并将所述类的中心确定为所述聚类的初始中心点,直到所述类的中心收敛为止。上述的系统,优选的,所述第一提取单元包括:挑选单元,用于在所述聚类后的各个聚类簇中,依据预设的规则挑选满足预设条件的所述目标对象;第三构建单元,用于将所述满足预设条件的目标对象进行预处理,并构建特征词-文本矩阵,得到隐含语义空间;选取单元,用于在所述隐含语义空间中选取k个最大的奇异值;第六确定单元,用于根据所述k个最大的奇异值和所述特征词-文本矩阵确定所述特征词-文本矩阵的近似矩阵;计算单元,用于根据所述特征词-文本矩阵的近似矩阵,计算相似度矩阵;归一化单元,用于归一化所述相似度矩阵;第七确定单元,用于在所述相似度矩阵中,确定满足预设阈值范围的相似度值;第二提取单元,用于根据所述相似度值,提取出对应的信息,并将所述提取出来的信息组合在一起。本申请提供的一种文本信息提取的方法中,首先确定目标对象;然后对所述目标对象进行预处理;根据所述预处理结果,构建隐含语义分析LSA,将所述目标对象数字化;使用k-means聚类算法对所述数字化后的目标对象进行聚类,得到至少一个聚类簇;利用基于LSA的算法对各个所述聚类簇中的信息进行信息提取,并将所述提取出来的信息组合在一起。对经过LSA处理后的所述目标对象进行聚类,使得聚类后的结果更加准确,然后再使用LSA算法对聚类后的信息进行信息提取,使得提取出来的信息更加接近真实的信息,更加准确。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请的一种文本信息提取的方法实施例1的流程图;图2是本申请的一种文本信息提取的方法实施例2的流程图;图3是本申请的一种文本信息提取的方法实施例3的流程图;图4是本申请的一种文本信息提取的方法实施例4的流程图;图5是本申请的一种文本信息提取的方法实施例5的流程图;图6是本申请的一种文本信息提取的系统实施例1的结构示意图;图7是本申请的一种文本信息提取的系统本文档来自技高网...
一种文本信息提取的方法及系统

【技术保护点】
一种文本信息提取的方法,其特征在于,该方法包括:确定目标对象;对所述目标对象进行预处理;根据所述预处理结果,构建隐含语义分析LSA,将所述目标对象数字化;使用k‑means聚类算法对所述数字化后的目标对象进行聚类,得到至少一个聚类簇;利用基于LSA的算法对各个所述聚类簇中的信息进行信息提取,并将所述提取出来的信息组合在一起。

【技术特征摘要】
1.一种文本信息提取的方法,其特征在于,该方法包括:
确定目标对象;
对所述目标对象进行预处理;
根据所述预处理结果,构建隐含语义分析LSA,将所述目标对象数
字化;
使用k-means聚类算法对所述数字化后的目标对象进行聚类,得到至
少一个聚类簇;
利用基于LSA的算法对各个所述聚类簇中的信息进行信息提取,并
将所述提取出来的信息组合在一起。
2.根据权利要求1所述的方法,其特征在于,所述对目标对象进行
预处理包括:
利用预设的分词工具对所述目标对象进行分词;
当判断所述分词后的词是否已停用时,去除所述停用的词;
当判断所述词的出现频率超过预设阈值时,确定所述词为特征词。
3.根据权利要求1所述的方法,其特征在于,所述构建隐含语义分
析LSA包括:
根据所述预处理结果,构建特征词-文本矩阵;
利用预设方法对所述矩阵进行奇异值分解处理,得到所述隐含语义空
间;
选取最大的k个奇异值,对所述特征词-文本矩阵进行降维,得到所
述特征词-文本矩阵的近似矩阵,得到降维后的所述隐含语义空间。
4.根据权利要求1所述的方法,其特征在于,所述使用k-means聚
类算法对数字化后的目标对象进行聚类包括:
确定k个聚类初始中心点;
根据第一预设算法确定所述目标对象所属于的类;
根据第二预设算法确定所述类的中心,并将所述类的中心确定为所述
聚类的初始中心点,直到所述类的中心收敛为止。
5.根据权利要求1所述的方法,其特征在于,所述利用基于LSA的

\t算法对聚类后的信息进行信息提取包括:
在所述聚类后的各个聚类簇中,依据预设的规则挑选满足预设条件的
所述目标对象;
将所述满足预设条件的目标对象进行预处理,并构建特征词-文本矩
阵,得到隐含语义空间;
在所述隐含语义空间中选取k个最大的奇异值;
根据所述k个最大的奇异值和所述特征词-文本矩阵确定所述特征词-
文本矩阵的近似矩阵;
根据所述特征词-文本矩阵的近似矩阵,计算相似度矩阵;
归一化所述相似度矩阵;
在所述相似度矩阵中,选出满足预设阈值范围的相似度值;
根据所述相似度值,提取出对应的信息,并将所述提取出来的信息组
合在一起。
6.一种文本信息提取的系统,其特征在于,该系统包括:
第一确定单元,用于确定目标对象;
预处理单元,用于对所述目标对象进行预处理;

【专利技术属性】
技术研发人员:杨树强束阳雪黄鸿杰金松昌陈志坤尹洪薛竹君蒋千越贾焰周斌韩伟红李爱平
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1