当前位置: 首页 > 专利查询>山西大学专利>正文

文献资源主题聚类共现潜在语义向量空间模型语义核方法技术

技术编号:15437419 阅读:71 留言:0更新日期:2017-05-26 03:30
本发明专利技术属于语义向量空间模型语义核方法技术领域,具体涉及一种文献资源主题聚类共现潜在语义向量空间模型语义核方法。本发明专利技术主要解决目前的语义向量空间模型语义核方法存在语义信息提取复杂度较大、语义信息提取不充分、模型的维度较高、且应用于聚类算法时时间和空间上的复杂度较高等问题。本发明专利技术文献资源主题聚类共现潜在语义向量空间模型语义核方法,包括以下步骤:第一步文献数据的预处理;第二步所提取的关键词进行词频统计,以备后续建立共现矩阵使用;第三步以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;第四步共现潜在语义向量空间模型的构建;第五步语义核函数的构建;第六步文献聚类。

Document resource, topic clustering, co-occurrence, latent semantic vector space model, semantic kernel method

The invention belongs to the technical field of semantic vector space model semantic kernel method, in particular to a semantic kernel method of topic resource clustering, co-occurrence latent semantic vector space model and semantic resource. The invention mainly solves the semantic vector space model of semantic kernel method has semantic information extraction complexity, semantic information extraction is not sufficient, the model of higher dimensions, and applied to the clustering algorithm when the time and space complexity is high. The invention of literature resources topic clustering co-occurrence latent semantic vector space model semantic kernel method, which comprises the following steps: the first step of literature data pretreatment; keywords second step extraction for word frequency statistics, we built the matrix for later use; the third step is to key words in the literature as to whether appear as the weight vector space model the document said; a total of fourth we constructed latent semantic vector space model; fifth step of establishing the semantic kernel function; sixth step clustering.

【技术实现步骤摘要】
文献资源主题聚类共现潜在语义向量空间模型语义核方法
本专利技术属于语义向量空间模型语义核方法
,具体涉及一种文献资源主题聚类共现潜在语义向量空间模型语义核方法。
技术介绍
大数据时代给我们带来大量的非结构化的文本资源,聚类作为一种无监督的机器学习方法是实现文本资源挖掘的主要手段之一。文本聚类不同于一般的数据聚类,其先要将文本信息进行数据化结构表示。文本表示的基本模型是向量空间模型(VSM),它将每篇文档映射成文本空间中的一个高维稀疏的向量,因此在进行文本聚类时文本之间语义的相似度计算问题便可以转化为向量空间中的向量的计算,即:通过计算向量之间的相似性来度量文本间的相似性进而实现文本聚类。然而,由于VSM忽视了词与词之间的语义关系,导致文本相似性的计算不准确。广义向量空间模型(GVSM)的提出挖掘了词与词之间的共现信息,提高了文本相似度计算的准确性,但是仍不能改变文本表示向量中语义信息提取不充分的问题。因此,此后的研究主要是基于VSM或GVSM模型,通过本体或语料库等背景知识来构建语义向量空间模型(SVSM)实现文献相似性的计算。然而,通用的本体建设成本较高,且领域知识尚不完善。语义核作为核函数的一种其概念最早由SiolasG提出,并将其作为支持向量机方法中的基础核用于文本挖掘。一直以来语义核函数的研究主要分为两类:一类的研究主要是通过WordNet、Wikipedia和HowNet等大型的本体作为知识背景来抽取特征词与特征词之间的语义关系实现语义核函数的构建,然而,本体知识构建复杂度大且领域知识尚不完善;另一类研究则是基于统计学方法,通过挖掘特征词之间的潜在概念来构建语义核,现有的应用于文本资源聚类的语义核函数的研究中大都基于基本向量空间模型和广义向量空间模型构建,语义信息提取不够充分,聚类效果较差。
技术实现思路
本专利技术主要针对目前的语义向量空间模型语义核方法存在语义信息提取复杂度较大、语义信息提取不充分、模型的维度较高、且应用于聚类算法时时间和空间上的复杂度较高等问题,提供一种文本资源主题聚类共现潜在语义向量空间模型语义核方法。本专利技术为解决上述问题而采取的技术方案为:文献资源主题聚类共现潜在语义向量空间模型语义核方法,包括以下步骤:第一步:文献数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:dl=(al1,al2,...,alm)T∈Rm,l=1,2,…,n.其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj(j=1,2,…,m)为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时,alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(alj)n×m;第四步:共现潜在语义向量空间模型的构建:(1)计算共现强度矩阵关键词之间的共现矩阵C=ATA=(cij)m×m,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;然后计算共现强度矩阵B,其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1;(2)共现信息的提取记alj=1的j的指标集为Il1,即:Il1={j|alj=1},称第l篇文献与第j个关键词的潜在语义相似度,表示集合{bjt}中满足条件t∈Il1的最大值,记为当alj=1时,qlj=1;当alj=0时,0≤qlj<1;(3)共现潜在语义向量空间模型(CLSVSM)其中:基于CLSVSM的新的“篇-词”矩阵为:第五步:语义核函数的构建(1)对新的“篇-词”矩阵的转置进行奇异值分解根据奇异值分解理论,经matlab软件运算,得到QT的分解式:其中QT是维数为m×n的新的“词-篇”矩阵;U、V称为奇异矩阵,是维数分别为m和n的方阵,且都是正交矩阵,即UUT=I,VVT=I;是维数为m×n的矩阵,假设“词-篇”矩阵QT的秩为r,Δ=diag(δ11δ2δ3…δr),δi(i=1,2,…,r)是非零奇异值,且按从大到小的顺序进行排列为δ11≥δ2≥…≥δr,关键词与关键词之间的相关性矩阵QTQ=U∑VTV∑TUT=U∑∑TUT=UΛUT,奇异矩阵U同时又等于QTQ的正交单位特征向量组成的矩阵,矩阵是m×m维的方阵,对角线上的元素为QTQ所对应的特征值,为非零特征值组成的对角阵;(2)特征提取、降维选取前k个最大的特征值,k的大小取决于特征值的累计贡献率要求,当可取特征值累计贡献率不小于90%,则k为同时选取相应的奇异矩阵U和V的前k列,对奇异矩阵实现降维处理,分别记为Uk和Vk,然后得到一个QT矩阵的k阶近似,即XkT=UkΣkVkT;(3)基于CLSVSM的语义核k(dl,ds)=(UkTφ(dl))T(UkTφ(ds))=φT(dl)UkUkTφ(ds),l,s=1,…,n该语义核函数得到相一致的核矩阵为:基于CLSVSM的语义核简记为CLSVSM_K;第六步:文献聚类对文献进行语义核函数表示,核矩阵作为文献之间的相似性矩阵,选取聚类算法进行文献主题聚类。本专利技术采用上述技术方案,以往研究中语义核函数相比提取了更为丰富的语义信息且避免了尚不完善且建设成本较高的本体等背景知识,聚类效果提高20%以上,在抽取语义信息时不仅实现了文本特征词之间同义信息的合并而且降低了特征词空间的维度。具体实施方式实施例1第一步:数据预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系。数据来源于CNKI,根据其分类,分别从信息科学下的“出版”、“图书情报与数字图书馆”和“档案及博物馆”三个学科各选300篇文献作为分析的文献,除去没有关键词的文献4篇,最终获得的文献总数为896篇,其中“出版”299篇、“图书情报与数字图书馆”298篇、“档案及博物馆”299篇,并获取不同的关键词2509个。即:文献数n=896,关键词数m=2509,下表为截取的前20篇文献及其对应的全部关键词。表1中LM为文献类别,ID为文献编号,k1-k10为文献相应关键词。表1:文献与相应关键词列表(部分)第二步:构建关键词空间并对所提取的关键词进行词频统计,并按词频降序排列。表2为我们实验结果中的前20个关键词及相应的词频:表2:关键词频次统计(部分)第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:dl=(al1,al2,...,al,2509)T∈R2509,l=1,2,…,896其中:dl是896篇文献中第l篇文献在欧式空间R2509中的表示向量,因为有2509个关键词所以欧式空间为R2509,alj(j=1,2,…,2509)为第j个关键词在第l篇文献中的权重,l为文献序号,T表示转置运算,当第j个关键词是文献dl的关键词时alj等于1,否则为0,文献集的“篇-词”矩阵为A本文档来自技高网
...

【技术保护点】
文献资源主题聚类共现潜在语义向量空间模型语义核方法,其特征在于包括以下步骤:第一步:文献数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:d

【技术特征摘要】
1.文献资源主题聚类共现潜在语义向量空间模型语义核方法,其特征在于包括以下步骤:第一步:文献数据的预处理:数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:dl=(al1,al2,...,alm)T∈Rm,l=1,2,…,n.其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj(j=1,2,…,m)为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时,alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(alj)n×m;第四步:共现潜在语义向量空间模型的构建:(1)计算共现强度矩阵关键词之间的共现矩阵C=ATA=(cij)m×m,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;然后计算共现强度矩阵B,其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1;(2)共现信息的提取记alj=1的j的指标集为Il1,即:Il1={j|alj=1},称第l篇文献与第j个关键词的潜在语义相似度,表示集合{bjt}中满足条件t∈Il1的最大值,记为当alj=1时,qlj=1;当alj=0时,0≤qlj<1;(3)共现潜在语义向量空间模型(CLSVSM)其中...

【专利技术属性】
技术研发人员:牛奉高张亚宇
申请(专利权)人:山西大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1