The present invention provides a method for mining large data, which comprises the following steps: segmentation of each statement text database content; to identify whether the word after word, words and phrases belong to the entity; and then analyzes the word after word, words and phrases in syntactic semantic annotation; analysis of the text content of the database; according to the syntactic parsing results will generate a complete structured database; complete structured database is divided into different sub database; according to the specific mining target selection sub database, data base of the corresponding combination or complete structured database analysis. The method of the invention can improve the efficiency of data mining. The invention also provides a data mining device for large data.
【技术实现步骤摘要】
本专利技术涉及计算机信息处理
,更具体的说,涉及一种用于大数据的数据挖掘方法和装置。
技术介绍
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,从海量数据记录中有效地挖掘出不同类别的对象以便针对不同类别的对象实施不同的处理方案变的越来越重要。然而,现有的技术方案存在如下问题:由于挖掘时要处理整个数据库,所需时间较长,数据挖掘的效率较低。
技术实现思路
本专利技术所要解决的技术问题在于提供一种用于大数据的数据挖掘方法,用于提高数据挖掘的效率。为达到以上目的,根据本专利技术的一个方面,提供了一种用于大数据的数据挖掘方法,包括如下步骤:步骤101:对文本数据库内容当中的每一条语句进行分词;步骤102:对步骤101所述分词后的字、词及词组是否属于实体进行识别;步骤103:对步骤101所述分词后的字、词及词组进行语义标注分析;步骤104:对文本数据库内容进行句法分析;步骤105:根据句法分析结果生成完整结构化数据库;步骤106:将完整结构化数据库分割为不同的子数据库;步骤107:根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。优选的,在步骤103中,语义标注之后对实体识别后的词进行统计和分类,并用分类标记该语句。进一步的,分类标注时可以考虑潜在挖掘目标,同时限制一条语句的分类标记的数量。优选的,在步骤105中,生成语句结构固定的完整结构化数据库,并在生成完整结构化数据库时,保存每个语句的分类标记,同时对分类标记进行统计。优选的,在步骤106中,根据语句分类标记的统计结果或者常用的挖掘目标,将完整结构化 ...
【技术保护点】
一种用于大数据的数据挖掘方法,其特征在于,包括如下步骤:步骤101:对文本数据库内容当中的每一条语句进行分词;步骤102:对步骤101所述分词后的字、词及词组是否属于实体进行识别;步骤103:对步骤101所述分词后的字、词及词组进行语义标注分析;步骤104:对文本数据库内容进行句法分析;步骤105:根据句法分析结果生成完整结构化数据库;步骤106:将完整结构化数据库分割为不同的子数据库;步骤107:根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。
【技术特征摘要】
1.一种用于大数据的数据挖掘方法,其特征在于,包括如下步骤:步骤101:对文本数据库内容当中的每一条语句进行分词;步骤102:对步骤101所述分词后的字、词及词组是否属于实体进行识别;步骤103:对步骤101所述分词后的字、词及词组进行语义标注分析;步骤104:对文本数据库内容进行句法分析;步骤105:根据句法分析结果生成完整结构化数据库;步骤106:将完整结构化数据库分割为不同的子数据库;步骤107:根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。2.根据权利要求1所述的方法,其特征在于,在步骤103中,语义标注之后对实体识别后的词进行统计和分类,并用分类标记该语句。3.根据权利要求1所述的方法,其特征在于,在步骤105中,生成语句结构固定的完整结构化数据库,并在生成完整结构化数据库时,保存每个语句的分类标记,同时对分类标记进行统计。4.根据权利要求1所述的方法,其特征在于,在步骤106中,根据语句分类标记的统计结果或者常用的挖掘目标,将完整结构化数据库分割为不同的子数据库,并赋予子数据库以索引,其索引以语句分类标记或挖掘目标为主,分割子数据库时,使标记相似的语句放入同一个子数据库中,不同的子数据库之间相似度尽量小,其中:计算语句之间相似度的公式为:sim(d1,d2,α)=L(d1∩d2)2×L(d1)-L(d1∩d2)n1sin[π2·(L(d1∩d2)L(d1))n2]]]>其中,sim()为相似度计算函数,d1,d2为语句,α为分类标记的粒度,L(d1)为结构化数据库中的d1语句的分类标记个数,其值与L(d2)相等,L(d1∩d2)为语句d1和语句d2中的相同的分类标记的数目,n1和n2为可调节系数,其值大于0;计算语句与子数据库之间相似度的计算公式为:sim(d1,D,α)=L(d1∩D)2×L(d1)-L(d1∩D)n3sin[π2·(L(d1∩D)L(d1))n4]]]>其中,D为子数据库,L(d1∩D)为语句d1的分类标记中的包含于子数据库D中的索引的数目,n3和n4为可调节系数,其值大于0;子数据库之间的相似度计算公式为:sim(D1,D2,α)=L(D1∩D2)2×L(D1)-L(D1∩D2)n5sin[π2·(L(D1∩D2)L(D1))n6]]]>其中,L(D1)为子数据库D1中的索引的数目,L(D1∩D2)为子数据库D1和D2相同的索引的数目,n5和n6为可调节系数,其值大于0。5.根据权利要求1所述的方法,其特征在于,在步骤107中,根据挖掘目标的不同,选择不同的子数据库、子数据库的组合或完整结构化数据库进行挖掘分析。6.一种用于...
【专利技术属性】
技术研发人员:刘春明,
申请(专利权)人:上海云信留客信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。