【技术实现步骤摘要】
一种新型大规模文档主题语义分析方法及系统
本专利技术涉及语义分析
,尤其涉及一种新型大规模文档主题语义分析方法及系统。
技术介绍
大数据时代,文档数量以不曾出现的惊人速度增长,超出人工处理的时间和精力成本。日常生活中积累的大量数据资料:从文本文件到办公文件,以及图片、图像、影像和音频等以文档为主要形式的数据往往得不到充分利用,而这些文档中又存在着大量可以挖掘和学习的信息。对于数据当中潜藏着巨大的信息价值,人们无从下手的原因,一是文档类型和文档来源的多样性,二是文档内容的高纬度和非结构化的特性,关键是文档数据量大。当下,大数据分析尤其是海量非结构化文档主题分析,具有深远意义:从海量无规律数据中自动学习模式和知识,结合可视化技术对数据进行分析和解释,并根据已有经验对存在异常进行检测纠正并实现趋势预测。现有主题分析方案集中于在传统词袋模型基础上引入语义信息,实现文档间的相似度计算,包括词频共现、语义词典和主题模型。其中,词频共现通过计算语料的统计信息发现文档中以一定频率共现的词语,语义词典通过预先设定一系列词的上下位和所属关系。然而词袋模型由于其数学模型的限制,并不适合于大规模文档的主题语义分析。传统机器学习和自然语言处理方法采用词袋模型处理文本数据,将文档以长向量表示,每个向量的分量代表词语的对应特征值。词袋模型的提出为处理文本数据提供了解决方案,但由于其无法捕获词序、语义和句法等信息,难以从大规模数据中学习更多有用价值。再者,大规模的数据容易造成维度灾难,令词袋模型无法直接应用到大数据分析中。针对词袋模型语义信息的缺失,现有方案通过引入语义词典进行补偿 ...
【技术保护点】
一种新型大规模文档主题语义分析方法,其特征在于:包括以下步骤:A、检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;B、根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。
【技术特征摘要】
1.一种新型大规模文档主题语义分析方法,其特征在于:包括以下步骤:A、检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;B、根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。2.根据权利要求1所述的一种新型大规模文档主题语义分析方法,其特征在于:所述有监督主体生成步骤包括:A11、根据分类信息,运用特征提取算法对已知文档集合中同一类别的所有文件进行关键词提取,并对提取的关键词整合到各类别对应的特征池当中;A12、将对应同一类别的特征池中的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;A13、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;A14、在同一类别下,对已知文档集合和弱相关特征集合中的关键词进行遍历,分别计算其与强相关特征集合的相关度,并将相关度大于自适应值的关键词整合至强相关特征集合中,进而得到对应各个类别的多个主题集合。3.根据权利要求1所述的一种新型大规模文档主题语义分析方法,其特征在于:所述无监督主体生成步骤包括:A21、运用特征提取算法对已知文档集合中所有文件进行关键词提取,并对提取的关键词整合到特征池当中;A22、对特征池内所有关键词对应的词向量进行聚类分析,得出代表已知文档集合中各语义分类的多个簇,进而得到分类信息;A23、根据分类信息,将特征池中对应同一类别的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;A24、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;A25、在同一类别下,对弱相关特征集合和已知文档集合中未利用过的关键词进行遍历,分别计算其与强相关特征集合的相关度,并将相关度大于自适应值的关键词整合至强相关特征集合中,进而得到对应各个类别的多个主题集合。4.根据权利要求2所述的一种新型大规模文档主题语义分析方法,其特征在于:所述步骤A12包括:A121、将对应同一类别的特征池内所有关键词对应的词向量进行二元聚类分析,将关键词拆分成两个意群,并计算两个意群的簇心;A122、计算各意群中关键词距离对应簇心的欧氏距离;A123、检测各关键词距离对应簇心的欧氏距离,判断其是否大于预设的距离阈值,若是,则将该关键词移除至不相关特征集合,并将剩余的关键词重新组合为新的特征池,进而返回执行步骤A121;反之,则执行步骤A13。5.根据权利要求2所述的一种新型大规模文档主题语义分析方法,其特征在于:所述步骤A13包括:A131、在对应同一类别的两个意群中,从第一意群任意提取两组η元组X1和X2,从第二意群中任意提取一组η元组Y1;A132、将η元组X1和X2整合为新的2η元组XX1,将η元组X1和Y1整合为新的2η元组XY1;A133、分别计算新的2η元组XX1和XY1内两两关键词之间的相似度,并分别计算2η元组XX1...
【专利技术属性】
技术研发人员:赵淦森,杜嘉华,黄晓烽,王欣明,唐华,聂瑞华,汤庸,朱佳,史爱红,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。