一种用于大数据的数据挖掘方法和装置制造方法及图纸

技术编号:15250991 阅读:94 留言:0更新日期:2017-05-02 14:11
本发明专利技术提供了一种用于大数据的数据挖掘方法,包括如下步骤:对文本数据库内容当中的每一条语句进行分词;对分词后的字、词及词组是否属于实体进行识别;然后对分词后的字、词及词组进行语义标注分析;对文本数据库内容进行句法分析;根据句法分析结果生成完整结构化数据库;将完整结构化数据库分割为不同的子数据库;根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。本发明专利技术的方法可以提高数据挖掘的效率。本发明专利技术还提供了一种用于大数据的数据挖掘装置。

Data mining method and device for large data

The present invention provides a method for mining large data, which comprises the following steps: segmentation of each statement text database content; to identify whether the word after word, words and phrases belong to the entity; and then analyzes the word after word, words and phrases in syntactic semantic annotation; analysis of the text content of the database; according to the syntactic parsing results will generate a complete structured database; complete structured database is divided into different sub database; according to the specific mining target selection sub database, data base of the corresponding combination or complete structured database analysis. The method of the invention can improve the efficiency of data mining. The invention also provides a data mining device for large data.

【技术实现步骤摘要】

本专利技术涉及计算机信息处理
,更具体的说,涉及一种用于大数据的数据挖掘方法和装置
技术介绍
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,从海量数据记录中有效地挖掘出不同类别的对象以便针对不同类别的对象实施不同的处理方案变的越来越重要。然而,现有的技术方案存在如下问题:由于挖掘时要处理整个数据库,所需时间较长,数据挖掘的效率较低。
技术实现思路
本专利技术所要解决的技术问题在于提供一种用于大数据的数据挖掘方法,用于提高数据挖掘的效率。为达到以上目的,根据本专利技术的一个方面,提供了一种用于大数据的数据挖掘方法,包括如下步骤:步骤101:对文本数据库内容当中的每一条语句进行分词;步骤102:对步骤101所述分词后的字、词及词组是否属于实体进行识别;步骤103:对步骤101所述分词后的字、词及词组进行语义标注分析;步骤104:对文本数据库内容进行句法分析;步骤105:根据句法分析结果生成完整结构化数据库;步骤106:将完整结构化数据库分割为不同的子数据库;步骤107:根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。优选的,在步骤103中,语义标注之后对实体识别后的词进行统计和分类,并用分类标记该语句。进一步的,分类标注时可以考虑潜在挖掘目标,同时限制一条语句的分类标记的数量。优选的,在步骤105中,生成语句结构固定的完整结构化数据库,并在生成完整结构化数据库时,保存每个语句的分类标记,同时对分类标记进行统计。优选的,在步骤106中,根据语句分类标记的统计结果或者常用的挖掘目标,将完整结构化数据库分割为不同的子数据库,并赋予子数据库以索引,其索引以语句分类标记或挖掘目标为主。进一步的,分割子数据库时,使标记相似的语句放入同一个子数据库中,不同的子数据库之间相似度尽量小,其中:计算语句之间相似度的公式为:或者:其中,前式适合大规模数据的初步估算,sim()为相似度计算函数,d1,d2为语句,α为分类标记的粒度,L(d1)为结构化数据库中的d1语句的分类标记个数,其值与L(d2)相等,L(d1∩d2)为语句d1和语句d2中的相同的分类标记的数目,n1和n2为可调节系数,其值大于0。计算语句与子数据库之间相似度的计算公式为:或者:其中,前式适合大规模数据的初步估算,D为子数据库,L(d1∩D)为语句d1的分类标记中的包含于子数据库D中的索引的数目,n3和n4为可调节系数,其值大于0。子数据库之间的相似度计算公式为:或者:其中,前式适合大规模数据的初步估算,L(D1)为子数据库D1中的索引的数目,L(D1∩D2)为子数据库D1和D2相同的索引的数目,n5和n6为可调节系数,其值大于0。优选的,在步骤107中,根据挖掘目标的不同,选择不同的子数据库,子数据库的组合或完整结构化数据库进行挖掘分析。根据本专利技术的另一个方面,提供了一种用于大数据的数据挖掘装置,包括:分词模块,用于对文本数据库内容当中的每一条语句进行分词;字词实体识别模块,用于分词后的字、词及词组是否属于实体进行识别;语义标注模块,用于对分词后的字、词及词组进行语义标注分析;句法分析模块,用于对文本数据库内容进行句法分析;数据库生成模块,用于根据句法分析结果生成完整结构化数据库;数据库分割模块,用于将完整结构化数据库分割为不同的子数据库;数据挖掘模块,用于根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。优选的,语义标住模块,用于在语义标注之后对实体识别后的词进行统计和分类,并用分类标记该语句。优选的,数据库生成模块,用于生成语句结构固定的完整结构化数据库,并在生成完整结构化数据库时,保存每个语句的分类标记,同时对分类标记进行统计。优选的,数据库分割模块,用于根据语句分类标记的统计结果或者常用的挖掘目标,将完整结构化数据库分割为不同的子数据库,并赋予子数据库以索引,其索引以语句分类标记或挖掘目标为主,分割子数据库时,使标记相似的语句放入同一个子数据库中,不同的子数据库之间相似度尽量小,其中:计算语句之间相似度的公式为:或者:其中,前式适合大规模数据的初步估算,sim()为相似度计算函数,d1,d2为语句,α为分类标记的粒度,L(d1)为结构化数据库中的d1语句的分类标记个数,其值与L(d2)相等,L(d1∩d2)为语句d1和语句d2中的相同的分类标记的数目,n1和n2为可调节系数,其值大于0;计算语句与子数据库之间相似度的计算公式为:或者:其中,前式适合大规模数据的初步估算,D为子数据库,L(d1∩D)为语句d1的分类标记中的包含于子数据库D中的索引的数目,n3和n4为可调节系数,其值大于0;子数据库之间的相似度计算公式为:或者:其中,前式适合大规模数据的初步估算,L(D1)为子数据库D1中的索引的数目,L(D1∩D2)为子数据库D1和D2相同的索引的数目,n5和n6为可调节系数,其值大于0。优选的,数据挖掘模块,用于根据挖掘目标的不同,选择不同的子数据库、子数据库的组合或完整结构化数据库进行挖掘分析。附图说明图1是根据本专利技术实施例的一种用于大数据的数据挖掘方法的流程图;图2是根据本专利技术实施例的一种用于大数据的数据挖掘装置的示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1是根据本专利技术实施例的一种用于大数据的数据挖掘方法的流程图。在步骤101,对文本数据库内容当中的每一条语句进行分词。在步骤102,对步骤101所述分词后的字、词及词组是否属于实体进行识别。在步骤103,对步骤101所述分词后的字、词及词组进行语义标注分析。语义标注之后对实体识别后的词进行统计和分类,分类以语句中的名词(宾语等)所属物理类别进行,如可以分为交通工具类,电子产品类等,并用分类标记该文本数据库中的语句。在本专利技术的一个实施例中,4个语句的分类标记分别为:语句1:A,B,C,D;语句2:A,B,C,E;语句3:A,F,G,H;语句4:A,F,I,J。在步骤104,对文本数据库内容进行句法分析;在步骤105,根据句法分析结果生成完整结构化数据库;在一个实施例中,生成语句结构固定的完整结构化数据库,语句结构固定指将所有的语句以固定的结构进行重组,如按照主语、谓语、宾语、定语、状语、补语的次序进行排列,语句中缺少的成分以空白内容填充。在生成完整结构化数据库时,保存每个语句的分类标记,同时对分类标记进行统计。在本专利技术的一个实施例中,4个语句均含有分类标记A,含有分类标记B、C、F的语句各有2个。在步骤106,将完整结构化数据库分割为不同的子数据库;在一个实施例中,根据语句分类标记的统计结果或者常用的挖掘目标,将完整结构化数据库分割为不同的子数据库,并赋予子数据库以索引,其索引以语句分类标记或挖掘目标为主,分割子数据库时,使相似度较高的语句放入同一个子数据库中,不同的子数据库之间的相似度尽量小,其中:计算语句之间相似度的公式为:或者:其中,前式适合大规模数据的初步估算,sim()为相似度计算函数,d1,d2为语句,α为分类标记的粒度,L(d1)本文档来自技高网...

【技术保护点】
一种用于大数据的数据挖掘方法,其特征在于,包括如下步骤:步骤101:对文本数据库内容当中的每一条语句进行分词;步骤102:对步骤101所述分词后的字、词及词组是否属于实体进行识别;步骤103:对步骤101所述分词后的字、词及词组进行语义标注分析;步骤104:对文本数据库内容进行句法分析;步骤105:根据句法分析结果生成完整结构化数据库;步骤106:将完整结构化数据库分割为不同的子数据库;步骤107:根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。

【技术特征摘要】
1.一种用于大数据的数据挖掘方法,其特征在于,包括如下步骤:步骤101:对文本数据库内容当中的每一条语句进行分词;步骤102:对步骤101所述分词后的字、词及词组是否属于实体进行识别;步骤103:对步骤101所述分词后的字、词及词组进行语义标注分析;步骤104:对文本数据库内容进行句法分析;步骤105:根据句法分析结果生成完整结构化数据库;步骤106:将完整结构化数据库分割为不同的子数据库;步骤107:根据具体的挖掘目标,选择相应的子数据库、子数据库的组合或者完整结构化数据库进行挖掘分析。2.根据权利要求1所述的方法,其特征在于,在步骤103中,语义标注之后对实体识别后的词进行统计和分类,并用分类标记该语句。3.根据权利要求1所述的方法,其特征在于,在步骤105中,生成语句结构固定的完整结构化数据库,并在生成完整结构化数据库时,保存每个语句的分类标记,同时对分类标记进行统计。4.根据权利要求1所述的方法,其特征在于,在步骤106中,根据语句分类标记的统计结果或者常用的挖掘目标,将完整结构化数据库分割为不同的子数据库,并赋予子数据库以索引,其索引以语句分类标记或挖掘目标为主,分割子数据库时,使标记相似的语句放入同一个子数据库中,不同的子数据库之间相似度尽量小,其中:计算语句之间相似度的公式为:sim(d1,d2,α)=L(d1∩d2)2×L(d1)-L(d1∩d2)n1sin[π2·(L(d1∩d2)L(d1))n2]]]>其中,sim()为相似度计算函数,d1,d2为语句,α为分类标记的粒度,L(d1)为结构化数据库中的d1语句的分类标记个数,其值与L(d2)相等,L(d1∩d2)为语句d1和语句d2中的相同的分类标记的数目,n1和n2为可调节系数,其值大于0;计算语句与子数据库之间相似度的计算公式为:sim(d1,D,α)=L(d1∩D)2×L(d1)-L(d1∩D)n3sin[π2·(L(d1∩D)L(d1))n4]]]>其中,D为子数据库,L(d1∩D)为语句d1的分类标记中的包含于子数据库D中的索引的数目,n3和n4为可调节系数,其值大于0;子数据库之间的相似度计算公式为:sim(D1,D2,α)=L(D1∩D2)2×L(D1)-L(D1∩D2)n5sin[π2·(L(D1∩D2)L(D1))n6]]]>其中,L(D1)为子数据库D1中的索引的数目,L(D1∩D2)为子数据库D1和D2相同的索引的数目,n5和n6为可调节系数,其值大于0。5.根据权利要求1所述的方法,其特征在于,在步骤107中,根据挖掘目标的不同,选择不同的子数据库、子数据库的组合或完整结构化数据库进行挖掘分析。6.一种用于...

【专利技术属性】
技术研发人员:刘春明
申请(专利权)人:上海云信留客信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1