一种新型大规模文档主题语义分析方法及系统技术方案

技术编号:15639266 阅读:55 留言:0更新日期:2017-06-15 22:27
本发明专利技术公开了一种新型大规模文档主题语义分析方法及系统,方法包括:检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。系统包括:主题集合生成单元和主题分析单元。本发明专利技术能从大规模文档数据当中自动、快速、灵活、有效地完成主题生成,并分析评估任意给定文档在生成主题上的主题分布,适用于快速生成主题的场合。

【技术实现步骤摘要】
一种新型大规模文档主题语义分析方法及系统
本专利技术涉及语义分析
,尤其涉及一种新型大规模文档主题语义分析方法及系统。
技术介绍
大数据时代,文档数量以不曾出现的惊人速度增长,超出人工处理的时间和精力成本。日常生活中积累的大量数据资料:从文本文件到办公文件,以及图片、图像、影像和音频等以文档为主要形式的数据往往得不到充分利用,而这些文档中又存在着大量可以挖掘和学习的信息。对于数据当中潜藏着巨大的信息价值,人们无从下手的原因,一是文档类型和文档来源的多样性,二是文档内容的高纬度和非结构化的特性,关键是文档数据量大。当下,大数据分析尤其是海量非结构化文档主题分析,具有深远意义:从海量无规律数据中自动学习模式和知识,结合可视化技术对数据进行分析和解释,并根据已有经验对存在异常进行检测纠正并实现趋势预测。现有主题分析方案集中于在传统词袋模型基础上引入语义信息,实现文档间的相似度计算,包括词频共现、语义词典和主题模型。其中,词频共现通过计算语料的统计信息发现文档中以一定频率共现的词语,语义词典通过预先设定一系列词的上下位和所属关系。然而词袋模型由于其数学模型的限制,并不适合于大规模文档的主题语义分析。传统机器学习和自然语言处理方法采用词袋模型处理文本数据,将文档以长向量表示,每个向量的分量代表词语的对应特征值。词袋模型的提出为处理文本数据提供了解决方案,但由于其无法捕获词序、语义和句法等信息,难以从大规模数据中学习更多有用价值。再者,大规模的数据容易造成维度灾难,令词袋模型无法直接应用到大数据分析中。针对词袋模型语义信息的缺失,现有方案通过引入语义词典进行补偿,包括同义词林、WordNet和HowNet等。然而,此类词典无法覆盖所有可能的语义情况,尤其对在词典中未曾出现过的词汇和特定领域的知识支持度低。LDA主题模型通过计算语料集合的统计信息获取文档、主题和词语的语义关系,然而由于其沿用词袋模型,无法避免在词汇量巨大时所引起的维度灾难,再者,LDA模型训练当中的迭代矩阵运算导致主题训练时间过长。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种能适用于大数据分析,且能快速完成主题生成的一种新型大规模文档主题语义分析方法及系统。本专利技术所采用的技术方案是:一种新型大规模文档主题语义分析方法,包括以下步骤:A、检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;B、根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述有监督主体生成步骤包括:A11、根据分类信息,运用特征提取算法对已知文档集合中同一类别的所有文件进行关键词提取,并对提取的关键词整合到各类别对应的特征池当中;A12、将对应同一类别的特征池中的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;A13、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;A14、在同一类别下,对已知文档集合和弱相关特征集合中的关键词进行遍历,分别计算其与强相关特征集合的相关度,并将相关度大于自适应值的关键词整合至强相关特征集合中,进而得到对应各个类别的多个主题集合。作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述无监督主体生成步骤包括:A21、运用特征提取算法对已知文档集合中所有文件进行关键词提取,并对提取的关键词整合到特征池当中;A22、对特征池内所有关键词对应的词向量进行聚类分析,得出代表已知文档集合中各语义分类的多个簇,进而得到分类信息;A23、根据分类信息,将特征池中对应同一类别的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;A24、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;A25、在同一类别下,对弱相关特征集合和已知文档集合中未利用过的关键词进行遍历,分别计算其与强相关特征集合的相关度,并将相关度大于自适应值的关键词整合至强相关特征集合中,进而得到对应各个类别的多个主题集合。作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述步骤A12包括:A121、将对应同一类别的特征池内所有关键词对应的词向量进行二元聚类分析,将关键词拆分成两个意群,并计算两个意群的簇心;A122、计算各意群中关键词距离对应簇心的欧氏距离;A123、检测各关键词距离对应簇心的欧氏距离,判断其是否大于预设的距离阈值,若是,则将该关键词移除至不相关特征集合,并将剩余的关键词重新组合为新的特征池,进而返回执行步骤A121;反之,则执行步骤A13。作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述步骤A13包括:A131、在对应同一类别的两个意群中,从第一意群任意提取两组η元组X1和X2,从第二意群中任意提取一组η元组Y1;A132、将η元组X1和X2整合为新的2η元组XX1,将η元组X1和Y1整合为新的2η元组XY1;A133、分别计算新的2η元组XX1和XY1内两两关键词之间的相似度,并分别计算2η元组XX1和XY1各自的相似度之和,进而计算出两者的差值,得到第一相似度差值;A134、从第二意群任意提取两组η元组M1和M2,从第一意群中任意提取一组η元组N1;A135、将η元组M1和M2整合为新的2η元组MM1,将η元组M1和N1整合为新的2η元组MN1;A136、分别计算新的2η元组MM1和MN1内两两关键词之间的相似度,并分别计算2η元组MM1和MN1各自的相似度之和,进而计算出两者的差值,得到第二相似度差值;A137、判断第一相似度差值是否大于第二相似度差值,若是,则判定第一意群为强相关特征集合,第二意群为弱相关特征集合;反之,则判定第二意群为强相关特征集合,第一意群为弱相关特征集合。作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述相似度的具体计算公式为:其中,w1和w2分别为两个关键词对应的词向量,m表示词向量的维度,sim<w1,w2>表示两个关键词的相似度。作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述相关度的具体计算公式为:其中,wx表示关键词对应的词向量,W表示特征集合,这里表示强相关特征集合,w表示特征集合中关键词对应的词向量,这里表示强相关特征集合中关键词对应的词向量,rel[wx,W]表示关键词wx与特征集合W的相关度,m表示词向量的维度。作为所述的一种新型大规模文档主题语义分析方法的进一步改进,所述自适应值的具体计算公式为:其中,N表示强相关特征集合,di表示已知文档集合或弱相关特征集合中关键词对应的当前文档,|di|表示当前文档的关键词数量,|d′i|是当前文档中和N正相关的关键词数量,γ表示自适应值,w表示已知文档集合或弱相关特征集合中的关键词对应的词向量,n表示强相关特征集合中关键词对应的词向量,m表示词向量的维度。本专利技术所采用的另一技术方案是:一种新型大规模文档主题语义分析系统,包括:主题集合生成单元,用于检测已知文档集合中是否存在分类信本文档来自技高网
...
一种新型大规模文档主题语义分析方法及系统

【技术保护点】
一种新型大规模文档主题语义分析方法,其特征在于:包括以下步骤:A、检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;B、根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。

【技术特征摘要】
1.一种新型大规模文档主题语义分析方法,其特征在于:包括以下步骤:A、检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;B、根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。2.根据权利要求1所述的一种新型大规模文档主题语义分析方法,其特征在于:所述有监督主体生成步骤包括:A11、根据分类信息,运用特征提取算法对已知文档集合中同一类别的所有文件进行关键词提取,并对提取的关键词整合到各类别对应的特征池当中;A12、将对应同一类别的特征池中的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;A13、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;A14、在同一类别下,对已知文档集合和弱相关特征集合中的关键词进行遍历,分别计算其与强相关特征集合的相关度,并将相关度大于自适应值的关键词整合至强相关特征集合中,进而得到对应各个类别的多个主题集合。3.根据权利要求1所述的一种新型大规模文档主题语义分析方法,其特征在于:所述无监督主体生成步骤包括:A21、运用特征提取算法对已知文档集合中所有文件进行关键词提取,并对提取的关键词整合到特征池当中;A22、对特征池内所有关键词对应的词向量进行聚类分析,得出代表已知文档集合中各语义分类的多个簇,进而得到分类信息;A23、根据分类信息,将特征池中对应同一类别的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;A24、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;A25、在同一类别下,对弱相关特征集合和已知文档集合中未利用过的关键词进行遍历,分别计算其与强相关特征集合的相关度,并将相关度大于自适应值的关键词整合至强相关特征集合中,进而得到对应各个类别的多个主题集合。4.根据权利要求2所述的一种新型大规模文档主题语义分析方法,其特征在于:所述步骤A12包括:A121、将对应同一类别的特征池内所有关键词对应的词向量进行二元聚类分析,将关键词拆分成两个意群,并计算两个意群的簇心;A122、计算各意群中关键词距离对应簇心的欧氏距离;A123、检测各关键词距离对应簇心的欧氏距离,判断其是否大于预设的距离阈值,若是,则将该关键词移除至不相关特征集合,并将剩余的关键词重新组合为新的特征池,进而返回执行步骤A121;反之,则执行步骤A13。5.根据权利要求2所述的一种新型大规模文档主题语义分析方法,其特征在于:所述步骤A13包括:A131、在对应同一类别的两个意群中,从第一意群任意提取两组η元组X1和X2,从第二意群中任意提取一组η元组Y1;A132、将η元组X1和X2整合为新的2η元组XX1,将η元组X1和Y1整合为新的2η元组XY1;A133、分别计算新的2η元组XX1和XY1内两两关键词之间的相似度,并分别计算2η元组XX1...

【专利技术属性】
技术研发人员:赵淦森杜嘉华黄晓烽王欣明唐华聂瑞华汤庸朱佳史爱红
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1