当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于主题模型的跨语言层次分类体系匹配方法组成比例

技术编号:16644717 阅读:27 留言:0更新日期:2017-11-26 17:09
本发明专利技术公开一种基于主题模型的跨语言层次分类体系匹配方法,首先根据给定的两个不同语言层次分类体系产生相对应的背景文本,并对每个分类候选值进行预筛选;然后使用先前产生的背景文本作为语料库,使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,接下来采用典型关联分析算法对两种不同语言的语料库对应的高维主题分布进行空间向量映射,最后对映射后每个分类的每个预筛选候选值进行计算其余弦相似度,并判断该候选值是否可以作为该分类的一个最相关分类。本发明专利技术能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关的分类。

A method for cross language hierarchical classification system matching based on topic model

The invention discloses a matching method of cross language classification system based on topic model, firstly the background text corresponding to two different levels of language according to the given classification system, and classification of each candidate value for pre screening; and then use the previously generated Bei Jingwen as the corpus, using a training method based on topic model for each category in the corpus generated the corresponding high-dimensional subject distribution, then using the typical correlation analysis algorithm for high dimensional theme corpus in two different languages corresponding to the distribution of the space vector mapping, mapping of each of the last pre classification of each candidate to calculate the value of the cosine similarity, and determine whether the candidate value is as one of the most relevant classification of the classification. The present invention can identify the most relevant classification in a hierarchical classification system of another language for each classification in a hierarchical language classification system.

【技术实现步骤摘要】
一种基于主题模型的跨语言层次分类体系匹配方法
本专利技术涉及跨语言信息匹配领域,具体涉及一种基于主题模型的跨语言层次分类体系匹配方法。
技术介绍
近年来,随着语义Web和信息技术的飞速发展,网络上的数据量呈指数级增长,这些数据也已经广泛应用到了信息社会的各行各业,包括生物、医疗、交通、金融、旅游等。为了能够对网络资源进行更加充分地分类利用,提高对网络资源的管理,方便用户快速识别与检索到所需的资源,大量随之而生的层次分类体系也先后出现。层次分类体系是指根据一定规则和标准对某一领域数据经过层次化分类构建出来的具有相互关联关系的层次化结构。但是由于构建者行为习惯、语言地域乃至于文化上的差异,造成很多层次分类体系虽然构建的是同样的领域,但是却不能相互之间进行知识的共享与融合。跨语言层次分类体系匹配的目的是为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类,目前针对此已经有一些相关工作,更有一些已经形成了相对应的工具系统,取得了一定的进展。CC-BiBTM提出采用主题模型的方法来解决这些问题,首先将分类的标签放入Google搜索引擎中进行处理,以此得到分类的背景文本,然后对得到的背景文本进行翻译,分别得到中英文的对照文档。然而由于其只是在背景文本抽取的过程中应用到了分类结点与其父类结点之间的关系来消除歧义,其余过程均未利用到层次分类体系的结构,而分类结构对跨语言层次分类体系的匹配具有重要作用,而且其采用了Google翻译来获取得到中英文对照文档,翻译得到的文档会引入较大噪声数据,因此会影响到匹配的结果。
技术实现思路
专利技术目的:本专利技术的目的在于解决现有技术中存在的不足,提供一种基于主题模型的跨语言层次分类体系匹配方法,能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类。技术方案:本专利技术所述的一种基于主题模型的跨语言层次分类体系匹配方法,依次包括以下步骤:(1)据给定的两个层次分类体系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分别表示两种不同的语言,V表示层次分类体系中的分类结点,E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值:(2)使用所述步骤(1)中产生的背景文本作为语料库使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中;(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果。进一步的,所述步骤(1)中获取背景文本的步骤如下:对于一个给定的分类,为了获取代表分类语义信息的背景文本,将分类本身标签与其父类标签一起放入Google搜索引擎中,搜索引擎会返回一个以摘要构成的网页列表,取前10个摘要组成的文档作为该分类的背景文本,并得到网页中的摘要列表,将摘要列表聚合即为该分类结点英文原始背景文本,然后将此文本翻译得到中文的对照文本,对于上述得到的文本首先进行分词和去停用词操作,然后对英文文本进行单词的词根化处理。进一步的,所述步骤(1)中候选值的筛选流程为:为了避免层次分类体系之间不必要的比较,提高算法的匹配效率,采用候选值筛选的方法来尽可能减少分类结点之间的匹配次数。一般来说,如果两个分类能够进行匹配,那么这两个分类的标签会具有语义上的相似性,因此对分类标签进行分析能够取得一定的效果。对一对待筛选的分类对(Cs,Ct),首先将Cs的分类标签进行分词,然后通过BabelNet对分词后的每一个单词抽取其同义词集合,一起构成Cs分类的同义词集合,同样的方法也可以得到Ct的同义词集合;如果两个同义词集合的交集不为空,说明两个分类具有语义上的近似性,那么(Cs,Ct)则可以作为一个候选值对。Cs和Ct分别表示层次分类体系Ts={Vs,Es}和Tt={Vt,Et}中的两个分类。进一步的,所述步骤(2)中高维主题分布的生成方法具体为:给定某一种语言的语料库其中包含有C个分类,W个词汇,|D|篇文档,di表示第i篇文档,语料库对应的双词文档令zi∈[1,K]表示双词bi的主题,C×K维矩阵表示语料库中C个分类的主题分布,其中θi,j=P(x=i,z=j)表示分类i下主题j的概率,K×W维矩阵表示语料库中K个主题的词分布,其中表示主题k下单词w出现的概率,|B|×C维矩阵π表示双词关于分类的关系分布,其中πb,c=P(b,c)表示双词b下分类c出现的概率,xi表示双词bi所属的分类,那么主题模型的生成过程如下:对每一个分类c∈[1,C]采样其主题分布:θc~Dir(α);对每一个主题k∈[1,K]采样其词分布:给定双词关于分类的关系分布π,对语料库中每一个双词bi∈B,都有:采样双词bi的分类xi~Multi(πi);采样双词bi的主题分别采样bi中的两个单词为了得到未知变量θ和的值,对模型采用吉布斯采样的方法进行近似推导。给定语料库和去除双词bi之后其余双词的主题与分类,双词bi的分类为c,主题为k的概率为:其中表示去除双词bi以外单词wi,1主题为k的次数,并且有表示去除双词bi以外单词wi,2主题为k的次数,并且表示去除双词bi以外主题为k、分类为c的双词的个数,并且表示双词bi对分类c的关系分布。通过吉布斯采样可以得到隐变量的值为:其中nc,k表示主题为k分类为c的单词的个数,并且nc=∑cnc,k,nw|k表示主题为k的单词w的个数,并且n.|k=∑wnw|k。吉布斯采样算法如下所示:进一步的,所述步骤(2)中两个向量空间的高维主题分布的空间映射方法为:给定两个待筛选的分类映射对其中表示s语言的分类结点,表示t语言的分类结点,其中的父类为的父类为对于分类和首先通过Google翻译将其分类标签和分别翻译为语言t的标签和语言s的标签并且同样将分类的父类的标签翻译为t语言的标签分类的父类的标签翻译为s语言的标签然后对其中的英文标签进行词根化处理,那么给定两个分类结点ca和cb,对其之间的关系定义如下:其中表示两个相同语言的标签能够进行字符串的匹配;对于给定的两个候选分类结点它们之间的映射关系定义如下:如果等于1,则表示分类结点和分类结点可以形成一对候选映射对,最终汇总所有候选映射对形成两个向量空间的部分标注数据作为典型相关分析算法的输入;给定两个待匹配的向量空间X、Y和两个向量空间的部分标注数据,向量空间X中一共有m个点,向量空间Y中一共有n个点,首先通过最大化X和Y之间的相关性分别得到两个向量空间X和Y对应的映射矩阵Xa和Yb,通过映射矩阵X和Y从不同的向量空间映射到新的向量空间Z中。进一步的,所述步骤(3)具体包含如下步骤:对于给定的两个分类C1和C2,其对应的映射后的向量空间中的向量分别为和分类C1和C2之间的相似度计算方法如下:对步骤(1)中筛选出的每一对候选值Cs和Ct,均计算其之间的相似度,如果相似于大于规定阈值0.7,那么Cs即为Ct的跨语言层次分类体系中最相关分类。有益效果:相对于现有的CC-BiBTM模型而言,本专利技术不依本文档来自技高网...
一种基于主题模型的跨语言层次分类体系匹配方法

【技术保护点】
一种基于主题模型的跨语言层次分类体系匹配方法,其特征在于:依次包括以下步骤:(1)根据给定的两个层次分类体系T

【技术特征摘要】
1.一种基于主题模型的跨语言层次分类体系匹配方法,其特征在于:依次包括以下步骤:(1)根据给定的两个层次分类体系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分别表示两种不同的语言,V表示层次分类体系中的分类结点,E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值:(2)使用所述步骤(1)中产生的背景文本作为语料库使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中;(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果。2.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(1)中获取背景文本的步骤如下:对于一个给定的分类,为了获取代表分类语义信息的背景文本,将分类本身标签与其父类标签一起放入Google搜索引擎中,搜索引擎会返回一个以摘要构成的网页列表,取前10个摘要组成的文档作为该分类的背景文本,并得到网页中的摘要列表,将摘要列表聚合即为该分类结点英文原始背景文本,然后将此文本翻译得到中文的对照文本,对于上述得到的文本首先进行分词和去停用词操作,然后对英文文本进行单词的词根化处理。3.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(1)中候选值的筛选流程为:对一对待筛选的分类对(Cs,Ct),其中s和t分别表示两种不同的语言,C表示层次分类体系中的分类结点,首先将Cs的分类标签进行分词,然后通过BabelNet对分词后的每一个单词抽取其同义词集合,一起构成Cs分类的同义词集合,同样的方法也可以得到Ct的同义词集合;如果两个同义词集合的交集不为空,说明两个分类具有语义上的近似性,那么(Cs,Ct)则可以作为一个候选值对,Cs和Ct分别表示层次分类体系Ts={Vs,Es}和Tt={Vt,Et}中的两个分类。4.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(2)中高维主题分布的生成方法具体为:给定某一种语言的语料库其中包含有C个分类,W个词汇,|D|篇文档,di表示第i篇文档,语料库对应的双词文档令zi∈[1,K]表示双词bi的主题,C×K维矩阵表示语料库中C个分类的主题分布,其中θi,j=P(x=i,z=j)表示分类i下主题j的概率,K×W维矩阵表示语料库中K个主题的词分布,其中表示主题k下单词w出现的概率,|B|×C维矩阵π表示双词关于分类的关系分布,其中πb,c=P(b,c)表示双词b下分类c出现的概率,xi表示双词bi所属的分类,那么主题模型...

【专利技术属性】
技术研发人员:漆桂林崔轩吴天星
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1