The invention discloses a matching method of cross language classification system based on topic model, firstly the background text corresponding to two different levels of language according to the given classification system, and classification of each candidate value for pre screening; and then use the previously generated Bei Jingwen as the corpus, using a training method based on topic model for each category in the corpus generated the corresponding high-dimensional subject distribution, then using the typical correlation analysis algorithm for high dimensional theme corpus in two different languages corresponding to the distribution of the space vector mapping, mapping of each of the last pre classification of each candidate to calculate the value of the cosine similarity, and determine whether the candidate value is as one of the most relevant classification of the classification. The present invention can identify the most relevant classification in a hierarchical classification system of another language for each classification in a hierarchical language classification system.
【技术实现步骤摘要】
一种基于主题模型的跨语言层次分类体系匹配方法
本专利技术涉及跨语言信息匹配领域,具体涉及一种基于主题模型的跨语言层次分类体系匹配方法。
技术介绍
近年来,随着语义Web和信息技术的飞速发展,网络上的数据量呈指数级增长,这些数据也已经广泛应用到了信息社会的各行各业,包括生物、医疗、交通、金融、旅游等。为了能够对网络资源进行更加充分地分类利用,提高对网络资源的管理,方便用户快速识别与检索到所需的资源,大量随之而生的层次分类体系也先后出现。层次分类体系是指根据一定规则和标准对某一领域数据经过层次化分类构建出来的具有相互关联关系的层次化结构。但是由于构建者行为习惯、语言地域乃至于文化上的差异,造成很多层次分类体系虽然构建的是同样的领域,但是却不能相互之间进行知识的共享与融合。跨语言层次分类体系匹配的目的是为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类,目前针对此已经有一些相关工作,更有一些已经形成了相对应的工具系统,取得了一定的进展。CC-BiBTM提出采用主题模型的方法来解决这些问题,首先将分类的标签放入Google搜索引擎中进行处理,以此得到分类的背景文本,然后对得到的背景文本进行翻译,分别得到中英文的对照文档。然而由于其只是在背景文本抽取的过程中应用到了分类结点与其父类结点之间的关系来消除歧义,其余过程均未利用到层次分类体系的结构,而分类结构对跨语言层次分类体系的匹配具有重要作用,而且其采用了Google翻译来获取得到中英文对照文档,翻译得到的文档会引入较大噪声数据,因此会影响到匹配的结果。
技术实现思路
专利技术目的:本专利技 ...
【技术保护点】
一种基于主题模型的跨语言层次分类体系匹配方法,其特征在于:依次包括以下步骤:(1)根据给定的两个层次分类体系T
【技术特征摘要】
1.一种基于主题模型的跨语言层次分类体系匹配方法,其特征在于:依次包括以下步骤:(1)根据给定的两个层次分类体系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分别表示两种不同的语言,V表示层次分类体系中的分类结点,E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值:(2)使用所述步骤(1)中产生的背景文本作为语料库使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中;(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果。2.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(1)中获取背景文本的步骤如下:对于一个给定的分类,为了获取代表分类语义信息的背景文本,将分类本身标签与其父类标签一起放入Google搜索引擎中,搜索引擎会返回一个以摘要构成的网页列表,取前10个摘要组成的文档作为该分类的背景文本,并得到网页中的摘要列表,将摘要列表聚合即为该分类结点英文原始背景文本,然后将此文本翻译得到中文的对照文本,对于上述得到的文本首先进行分词和去停用词操作,然后对英文文本进行单词的词根化处理。3.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(1)中候选值的筛选流程为:对一对待筛选的分类对(Cs,Ct),其中s和t分别表示两种不同的语言,C表示层次分类体系中的分类结点,首先将Cs的分类标签进行分词,然后通过BabelNet对分词后的每一个单词抽取其同义词集合,一起构成Cs分类的同义词集合,同样的方法也可以得到Ct的同义词集合;如果两个同义词集合的交集不为空,说明两个分类具有语义上的近似性,那么(Cs,Ct)则可以作为一个候选值对,Cs和Ct分别表示层次分类体系Ts={Vs,Es}和Tt={Vt,Et}中的两个分类。4.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(2)中高维主题分布的生成方法具体为:给定某一种语言的语料库其中包含有C个分类,W个词汇,|D|篇文档,di表示第i篇文档,语料库对应的双词文档令zi∈[1,K]表示双词bi的主题,C×K维矩阵表示语料库中C个分类的主题分布,其中θi,j=P(x=i,z=j)表示分类i下主题j的概率,K×W维矩阵表示语料库中K个主题的词分布,其中表示主题k下单词w出现的概率,|B|×C维矩阵π表示双词关于分类的关系分布,其中πb,c=P(b,c)表示双词b下分类c出现的概率,xi表示双词bi所属的分类,那么主题模型...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。