The invention provides a non structured text data enhanced distributed data dimension extraction method, including text segmentation, word frequency statistics, the input text topic extraction and filtering keywords, extract the input text topic: according to the selected target areas of concern, to determine the subject target domain set, obtained by calculating the stability of subject words and key words left all words in the input text to appear, through the training set second threshold, the stability compared with the second threshold, when the stability is not less than the second threshold, can be set to input text topics related to the left key words. Effectively convert large amounts of unstructured text data into structured or semi-structured data, thus providing good support for data analysis and mining. For structured analysis of large amounts of unstructured text, such complex problems have good results.
【技术实现步骤摘要】
非结构化文本数据增强型分布式大规模数据维度抽取方法
本专利技术涉及大数据维度抽取领域,特别涉及一种非结构化文本数据增强型分布式大规模数据维度抽取方法。
技术介绍
随着信息的爆炸式增长,大数据时代下,数据在企业中正成为管理变革过程中提供重要决策依据的关键资产,数据在公共事业领域,也正越来越显示出其重要作用。传统观念下看似不相关的数据经,在大数据时代中,经过大规模的并行分布式计算处理,变得可以理解,从而能产生重大意义。但是,大数据由于数据体量大、速度快、种类多带来了大数的大量异构非结构化问题,使得许多传统数据分析和挖掘领域的优秀算法和工具,无法处理大数据,为这些数据发挥作用带来了很大困难。传统的数据仓库中,要进行数据挖掘,会面临数据维度高的问题,通常可以进行降维操作。因此数据集的维度,对于数据挖掘和分析有着十分重要的作用。大数据中,海量非结构化文本数据,占据很大比例。通常的信息抽取能从这些非结构化的文本数据中,抽出结构化的信息,但主要针对的结构化信息为实体、事件及关系,无法用于构建维度,更无法形成高维数据集。而常规的数据挖掘算法在处理数据前的数据预处理阶段,为了进行数据转换,需要人工制定数据维度,难度系数高。
技术实现思路
为解决分析海量非结构化文本数据时难度大无法构建维度等技术问题,本专利技术提出一种非结构化文本数据增强型分布式大规模数据维度抽取方法来实现。一种非结构化文本数据增强型分布式大规模数据维度抽取方法,包括以下步骤:步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比 ...
【技术保护点】
一种非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:包括以下步骤:步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的左侧主题词的集合;通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的右侧主题词的集合;所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合;步骤4:过滤主题词:根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,计算候选维度词的熵值,取这些值中最前面几个词为提取的维度词。
【技术特征摘要】
1.一种非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:包括以下步骤:步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的左侧主题词的集合;通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的右侧主题词的集合;所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合;步骤4:过滤主题词:根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,计算候选维度词的熵值,取这些值中最前面几个词为提取的维度词。2.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤1中,最小语义单位之间的互信息值公式如下:在公式(1)中,X、Y分别表示出现的最小语义单位,用Cmin表示最小语义单位集合,则X、Y和Cmin满足X,Y∈Cmin;MIV(X,Y)表示最小语义单位中X,Y之间的互信息值;p(X),p(Y)表示X和Y在输入文本中分别出现的概率,p(X,Y)表示X和Y在输入文本中共同出现的概率;第一阈值用THmiv表示,第一阈值THmiv与最小语义单位中X,Y之间的互信息值满足以下关系时取得分词结果,关系如下:MIV(X,Y)≥THmiv(2)。3.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤2中:词频关系表用TWF=[{ω1:f1},{ω2:f2},…]表示,其中ω1…ωi表示输入文本经过分词得到的词汇,f1…fi表示ω1…ωi这些词汇在输入文本中出现的对应次数。4.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤3中,主题词集合用Stheme={s1,s2,…,si}表示,计算出在输入文本中主题词si与主题词si所有左侧词sil共同出现时的稳定性:在公式(3)中:SL表示主题词si左侧的所有词集合;p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率;p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率是利用极大似然估计得到,公式如下:第二阈值用THes表示,当输入文本中主题词si与其所有左侧词sil共同出现时的稳定...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。