非结构化文本数据增强型分布式大规模数据维度抽取方法技术

技术编号:15329880 阅读:509 留言:0更新日期:2017-05-16 13:27
本发明专利技术提供了一种非结构化文本数据增强型分布式大规模数据维度抽取方法,包括文本分词,词频统计,输入文本主题提取以及过滤主题词,输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算得出在输入文本中主题词与主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值做对比,当稳定性不小于第二阈值时,能得到输入文本主题相关的左侧主题词的集合。有效将海量非结构化文本数据转换为结构或半结构化数据,从而为数据分析挖掘提供良好的支持。对于解决大量非结构化文本的结构化分析这样的复杂问题具有较好的效果。

Unstructured text data enhanced distributed large-scale data dimensionality extraction method

The invention provides a non structured text data enhanced distributed data dimension extraction method, including text segmentation, word frequency statistics, the input text topic extraction and filtering keywords, extract the input text topic: according to the selected target areas of concern, to determine the subject target domain set, obtained by calculating the stability of subject words and key words left all words in the input text to appear, through the training set second threshold, the stability compared with the second threshold, when the stability is not less than the second threshold, can be set to input text topics related to the left key words. Effectively convert large amounts of unstructured text data into structured or semi-structured data, thus providing good support for data analysis and mining. For structured analysis of large amounts of unstructured text, such complex problems have good results.

【技术实现步骤摘要】
非结构化文本数据增强型分布式大规模数据维度抽取方法
本专利技术涉及大数据维度抽取领域,特别涉及一种非结构化文本数据增强型分布式大规模数据维度抽取方法。
技术介绍
随着信息的爆炸式增长,大数据时代下,数据在企业中正成为管理变革过程中提供重要决策依据的关键资产,数据在公共事业领域,也正越来越显示出其重要作用。传统观念下看似不相关的数据经,在大数据时代中,经过大规模的并行分布式计算处理,变得可以理解,从而能产生重大意义。但是,大数据由于数据体量大、速度快、种类多带来了大数的大量异构非结构化问题,使得许多传统数据分析和挖掘领域的优秀算法和工具,无法处理大数据,为这些数据发挥作用带来了很大困难。传统的数据仓库中,要进行数据挖掘,会面临数据维度高的问题,通常可以进行降维操作。因此数据集的维度,对于数据挖掘和分析有着十分重要的作用。大数据中,海量非结构化文本数据,占据很大比例。通常的信息抽取能从这些非结构化的文本数据中,抽出结构化的信息,但主要针对的结构化信息为实体、事件及关系,无法用于构建维度,更无法形成高维数据集。而常规的数据挖掘算法在处理数据前的数据预处理阶段,为了进行数据转换,需要人工制定数据维度,难度系数高。
技术实现思路
为解决分析海量非结构化文本数据时难度大无法构建维度等技术问题,本专利技术提出一种非结构化文本数据增强型分布式大规模数据维度抽取方法来实现。一种非结构化文本数据增强型分布式大规模数据维度抽取方法,包括以下步骤:步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的左侧主题词的集合;通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的右侧主题词的集合;所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合;步骤4:过滤主题词:根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,计算候选维度词的熵值,取这些值中最前面几个词为提取的维度词。作为一种可实施方式,在步骤1中,最小语义单位之间的互信息值公式如下:在公式(1)中,X、Y分别表示出现的最小语义单位,用Cmin表示最小语义单位集合,则X、Y和Cmin满足X,Y∈Cmin;MIV(X,Y)表示最小语义单位中X,Y之间的互信息值;p(X),p(Y)表示X和Y在输入文本中分别出现的概率,p(X,Y)表示X和Y在输入文本中共同出现的概率;第一阈值用THmiv表示,第一阈值THmiv与最小语义单位中X,Y之间的互信息值满足以下关系时取得分词结果,关系如下:MIV(X,Y)≥THmiv(2)。作为一种可实施方式,在步骤2中:词频关系表用TWF=[{ω1:f1},{ω2:f2},…]表示,其中ω1…ωi表示输入文本经过分词得到的词汇,f1…fi表示ω1…ωi这些词汇在输入文本中出现的对应次数。作为一种可实施方式,在步骤3中,主题词集合用Stheme={s1,s2,…,si}表示,计算出在输入文本中主题词si与主题词si所有左侧词sil共同出现时的稳定性:在公式(3)中:SL表示主题词si左侧的所有词集合;p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率;p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率是利用极大似然估计得到,公式如下:第二阈值用THes表示,当输入文本中主题词si与其所有左侧词sil共同出现时的稳定性ESleft不小于该值时sil与描述输入文本的主题相关,得到输入文本主题相关的左侧主题词sil的集合,关系如下:表示输入文本主题相关的左侧主题词sil的集合,计算输入文本中主题词si与主题词si所有右侧词sir共同出现时的稳定性:输入文本中主题词si所在位置p(sir|si)是利用极大似然估计得到:p(sir|si)表示主题词si所在位置其右侧词Sir出现的条件概率;第二阈值用THes表示,当输入文本中主题词si与其所有右侧词sir共同出现时的稳定性ESleft不小于该值时sir与描述输入文本的主题相关,得到输入文本主题相关的右侧主题词sir的集合,关系如下:由公式(3)~(8)可得输入文本主题相关的主题词集合:作为一种可实施方式,在步骤4中,根据词频统计的结果对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,词频统计的结果用TWF表示,输入文本主题提取的主题词集合用表示,Tcandi为候选维度词集合,则有以下关系:根据公式(10),得到Tcandi中所有词在输入文本中的平均词频,平均词频用表示;计算度量函数:公式(11)中的DISm,w表示平均词频的欧式距离DISm,w,候选维度词集合Tcandi可以表示为Tcandi={t1,t2,…,ti}以及度量函数,计算Tcandi的熵值,公式如下:Im,w表示度量函数,ETcandi表示熵值,取这些熵值最前面几个词作为提取的维度词。作为一种可实施方式,所述第一阈值和所述第二阈值分别是训练架构通过数据训练得到的,所述第一阈值和所述第二阈值的训练架构为多通道卷积神经网络。作为一种可实施方式,所述第一阈值表示输出的分词结果中成词的比例最大化。作为一种可实施方式,所述第二阈值表示候选维度词在主题词集合中的占比最大化。本专利技术相比于现有技术的有益效果在于:本专利技术在数据特征抽取技术的基础上,提出了一种非结构化文本数据增强型分布式大规模数据维度抽取方法,该方法通过文本分词、词频统计、主题词提取和过滤等步骤,分析海量非结构化文本数据,提取数据特征,筛选出相应的数据维度,可通过维度的提取,有效将海量非结构化文本数据转换为结构或半结构化数据,从而为数据分析挖掘提供良好的支持。对于解决大量非结构化文本的结构化分析这样的复杂问题具有较好的效果。附图说明图1是本专利技术的流程图;图2是本专利技术方法的计算环境整体架构图;图3是本专利技术方法的底层分布式环境物理架构图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的部分实施例,而不是全部实施例。请参阅以下实施例:专利技术概述一种非结构化文本数据增强型分布式大规模数据维度抽取方法,包括:步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过本文档来自技高网...
非结构化文本数据增强型分布式大规模数据维度抽取方法

【技术保护点】
一种非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:包括以下步骤:步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的左侧主题词的集合;通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的右侧主题词的集合;所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合;步骤4:过滤主题词:根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,计算候选维度词的熵值,取这些值中最前面几个词为提取的维度词。

【技术特征摘要】
1.一种非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:包括以下步骤:步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的左侧主题词的集合;通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的右侧主题词的集合;所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合;步骤4:过滤主题词:根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,计算候选维度词的熵值,取这些值中最前面几个词为提取的维度词。2.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤1中,最小语义单位之间的互信息值公式如下:在公式(1)中,X、Y分别表示出现的最小语义单位,用Cmin表示最小语义单位集合,则X、Y和Cmin满足X,Y∈Cmin;MIV(X,Y)表示最小语义单位中X,Y之间的互信息值;p(X),p(Y)表示X和Y在输入文本中分别出现的概率,p(X,Y)表示X和Y在输入文本中共同出现的概率;第一阈值用THmiv表示,第一阈值THmiv与最小语义单位中X,Y之间的互信息值满足以下关系时取得分词结果,关系如下:MIV(X,Y)≥THmiv(2)。3.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤2中:词频关系表用TWF=[{ω1:f1},{ω2:f2},…]表示,其中ω1…ωi表示输入文本经过分词得到的词汇,f1…fi表示ω1…ωi这些词汇在输入文本中出现的对应次数。4.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤3中,主题词集合用Stheme={s1,s2,…,si}表示,计算出在输入文本中主题词si与主题词si所有左侧词sil共同出现时的稳定性:在公式(3)中:SL表示主题词si左侧的所有词集合;p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率;p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率是利用极大似然估计得到,公式如下:第二阈值用THes表示,当输入文本中主题词si与其所有左侧词sil共同出现时的稳定...

【专利技术属性】
技术研发人员:刘东升许翀寰
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1