当前位置: 首页 > 专利查询>延安大学专利>正文

一种基于判别混合模型的实体-引文相关性分类方法技术

技术编号:18809909 阅读:30 留言:0更新日期:2018-09-01 09:24
本发明专利技术公开了一种基于判别混合模型的实体‑引文相关性分类方法,具体按照确定的训练集、并抽取目标实体e的类别特征、引文文档d的类别特征以及实体‑引文对的语义特征f(e,d)、构建实体‑引文类别依赖的判别混合模型、求解最优参数并带入构建实体‑引文类别依赖的判别混合模型中,然后利用得到的实体‑引文类别依赖的判别混合模型对目标实体相关的引文进行分类的步骤。本发明专利技术的实体‑引文类别依赖的判别混合模型中引入了实体和引文的隐类别,利用判别混合模型把实体、引文的隐类别与二者的语义特征融合起来,能够提高实体‑引文相关性分类系统的性能。

A classification method of entity citation correlation based on Discriminant mixed model

The invention discloses an entity citation correlation classification method based on a discriminant mixing model, which constructs a discriminant mixing model of entity citation category dependency according to a certain training set, and extracts the category features of the target entity e, the category features of the citation document D and the semantic features f (e, d) of the entity citation pair. Solve the optimal parameters and bring them into the mixed discriminant model of entity citation category dependency, then use the mixed discriminant model of entity citation category dependency to classify the target entity-related citations. In the discriminant hybrid model of entity citation category dependency of the invention, the hidden categories of entity and citation are introduced, and the hidden categories of entity and citation are fused with their semantic features by using the discriminant hybrid model, thus the performance of the entity citation correlation classification system can be improved.

【技术实现步骤摘要】
一种基于判别混合模型的实体-引文相关性分类方法
本专利技术属于知识工程、信息检索
,具体涉及一种基于判别混合模型的实体-引文相关性分类方法。
技术介绍
知识库累积引文推荐(KBA-CCR)任务的核心内容是实体-引文相关性分类任务。实体-引文相关性分类任务旨在应用信息检索、自然语言理解和机器学习等方法,从网络文本大数据流中查找并发现与目标实体具有不同优先级别的候选引文。针对目标实体中蕴含的先验知识,研究人员提出了实体类别依赖的判别混合模型,把实体之间类别差异的先验知识融入在判别混合模型中。在TREC-KBA-2013数据集上,实验结果表明,该模型不仅在所处理的目标实体上表现优越,同时对训练集中未出现的实体也表现不俗。对于引文的先验知识,研究人员也提出了文档类别依赖的判别混合模型,该模型使用了引文类别的先验知识,如引文的主题和引文的来源。但由于仅仅单方面考虑引文的先验信息,而没有考虑目标实体的先验知识,因此该模型在TREC-KBA-2013数据集的性能表现一般。相对于实体和文本的多样性和数量,人工标注数据不可能涵盖所有的实体和文本类别。因此需要充分利用有限的人工标注数据,建模目标实本文档来自技高网...

【技术保护点】
1.一种基于判别混合模型的实体‑引文相关性分类方法,其特征在于,具体按照下述步骤进行:步骤1,给定训练集T={(eu,dv)|u=1,2,...,M;v=1,2,...,N},并用R={ruv|u=1,2,...,M;v=1,2,...,N}表示训练集T的相关性判断,将训练集T和训练集T的相关性判断R组成测试集;其中E={eu|u=1,2,...,M}为目标实体集,D={dv|v=1,2,...,N}为引文文档集;ruv∈{‑1,1},为目标实体集和引文文档集之间的相关性判别随机变量步骤2,步骤1完成后,任取实体‑引文对(e,d)∈T,设计并抽取目标实体e的类别特征g(e)、引文文档d的类别特...

【技术特征摘要】
1.一种基于判别混合模型的实体-引文相关性分类方法,其特征在于,具体按照下述步骤进行:步骤1,给定训练集T={(eu,dv)|u=1,2,...,M;v=1,2,...,N},并用R={ruv|u=1,2,...,M;v=1,2,...,N}表示训练集T的相关性判断,将训练集T和训练集T的相关性判断R组成测试集;其中E={eu|u=1,2,...,M}为目标实体集,D={dv|v=1,2,...,N}为引文文档集;ruv∈{-1,1},为目标实体集和引文文档集之间的相关性判别随机变量步骤2,步骤1完成后,任取实体-引文对(e,d)∈T,设计并抽取目标实体e的类别特征g(e)、引文文档d的类别特征g(d)以及实体-引文对(e,d)的语义特征f(e,d):g(e)=(g1(e),g2(e),...,gL(e))(1);g(d)=(g1(d),g2(d),...,gC(d))(2);f(e,d)=(f1(e,d),f2(e,d),...,fH(e,d))(3);其中,L表示抽取的目标实体e的特征个数,gi(e)表示实体e的第i个抽取的类别特征,i=1,2,...,L;C表示抽取的引文类别特征个数,gj(d)表示抽取引文d第j个类别特征j=1,2,...,C;H表示抽取实体-引文(e,d)对语义特征的个数,fk(e,d)表示实体-引文对(e,d)的第k个语义特征,k=1,2,...,H;步骤3,步骤2完成后,构建实体-引文类别依赖的初始判别混合模型P(r|e,d;α,β,ω):其中,r∈{-1,1}为实体-引文对(e,d)的相关性判别随机变量,r=1表示目标实体e与引文d相关,r=-1表示目标实体e与引文d不相关;z为目标实体e的隐类别随机变量,Nz为实体e隐类别随机变量z的个数;x为引文文档d隐类别随机变量,Nx为引文文档d隐类别x的个数;为目标实体e隐类别归一化因子;为引文d隐类别归一化因子;αzi、βxj和ωzxk为待优化的参数,其中i=1,2,...,L;z=1,2,...,Nz;j=1,2,...,C;k=1,2,...,H;步骤4,利用步骤3得到的实体-引文类别依赖的初始判别混合模型P(r|e,d;α,β,ω),然后利用EM算法求解实体-引文类别依赖的初始判别混合模型P(r|e,d;α,β,ω)的最优参数和并将最优参数和带入到步骤3中的实体-引文类别依赖的初始判别混合模型P(r|e,d;α,β,ω)中,得到实体-引文类别依赖的混合模型:步骤5,利用步骤4得到的实体-引文类别依赖的判别混合模型P(r|e,d;α,β,ω)对测试集的目标实体和引文进行相关性分类。2.根据权利要求1所述的一种基于混合模型的实体-引文相关性分析方法,其特征在于,所述步骤2中按照下述方法抽取目标实体的类别特征g(e):抽取目标实体集的主页类别特征gp(e)作为目标实体的类别特征g(e),针对目标实体集E的所有实体,爬取所有实体在维基百科知识库中的主页内容,去除停用词、去掉高频与低频词,最后应用词袋模型,各词项的权重由TF-IDF确定;建立目标实体主页类别的特征向量:g(e)=gp(e)=(g1p(e),g2p(e),...,gLp(e))(6),其中,gip(e)实体e的第i个抽取的TF-IDF类别特征。3.根据权利要求1所述的一种基于混合模型的实体-引文相关性分析方法,其特征在于,所述步骤2中按照下述方法抽取目标实体的类别特征g(e):抽取目标实体集E的实体分类标签类别特征gc(e)作为目标实体的类别特征g(e),针对目标实体集E的所有实体,爬取所有实体在维基百科知识库中的分类标签信息;采用类别词袋模型为目标实体的类别进行建...

【专利技术属性】
技术研发人员:马乐荣高兴慧
申请(专利权)人:延安大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1