一种属性词提取方法技术

技术编号:23149946 阅读:36 留言:0更新日期:2020-01-18 13:48
本发明专利技术涉及一种属性词提取方法,本案的属性词提取方法通过对狄利克雷树、“文档‑领域‑属性‑词”四层生成式结构及先验知识库结合泛化波利亚模型的运用,一方面以狄利克雷树先验知识的运用,充分考虑词语之间的语义关系,解决了多词一义的问题;另一方面以闭环迭代更新的先验知识库不断改进采样过程,能够实现对语料库中不同领域和属性下词义关系的充分利用,减少对语料库数据量的要求;同时具备了跨领域提取更准确属性词的能力,能应用于更细粒度的属性;在训练过程中高效、准确地将语料库里高相似度的属性词进行汇总生成属性词库,从而精准地、提取跨领域文本中的所有属性词,可在细粒度情感分析任务中提升情感分析的准确率。

A method of attribute word extraction

【技术实现步骤摘要】
一种属性词提取方法
本专利技术涉及自然语言处理技术与情感分析领域,特别是涉及一种属性词提取方法。
技术介绍
随着电子商务行业的发展,网络购物越来越受到人们的认可,由此也产生了大量的网络评论文本数据。面对这些网络评论,消费者希望在他们购买某产品前能知道已使用过该产品的人群对于该产品的评价,优化购买决策。另外,从生产者的角度来看,每个人都是潜在的客户。因此,生产者可以通过分析电商评论的情感倾向,了解大部分消费者的喜好,这对于开发新的产品以及管理和改进现有的产品都有很大的帮助。因此,如何对电商评论进行情感分类已经成为自然语言处理领域的一个重要研究课题。从分析的粒度层次来看,情感分类可分为粗粒度和细粒度层次分类。粗粒度层次分类有篇章级和句子级情感分类,细粒度层次情感分类则是属性级情感分类。随着组织和个人对情感分类的要求越来越高,情感分类的粒度层次正逐步向细粒度分类层面发展。在属性级情感分类的任务中,提取评论文本的属性词是关键问题之一。属性词,也称“非谓形容词”、“区别词”,是从传统语法中名词、动词、形容词中脱离出来的一类新兴词类。属性词与所饰词语存在着较密切的语义结构关系,表示人、事物的属性或特征,具有区别或分类的作用,少数属性词在修饰动词时表示动作的方式或性质。在现有技术中,主要应用主题模型来进行语料库挖掘并进行属性词提取;主题模型作为一种经典的非监督学习模型,无需人工标注的语料库,能自动挖掘出语料库中的隐含主题,在属性词提取任务中得到了较好的应用。但是,现有技术需要基于大量语料数据的训练,且没有考虑文本中词语之间的语义信息,难以直接应用于细粒度情感分析中的属性词提取,准确率低,导致情感分类效果一般。
技术实现思路
本专利技术的目的在于针对情感分类的局限,提供一种属性词提取方法,由以下技术方案实现:根据同义词词典构建词语之间的must-link限制关系,将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树,所述狄利克雷树用于作为词分布的先验分布;建立“文档-领域-属性-词”四层生成式结构,其中,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从所述狄利克雷树分布;引入先验知识库和泛化波利亚模型改进所述“领域-属性分布”;整合前述内容,构建第一主题模型,所述第一主题模型为一个四层贝叶斯概率模型;利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,生成属性词库;接收待处理文本;根据所述属性词库对所述待处理文本进行属性词匹配,提取所述待处理文本中的属性词;其中,所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型。相较于现有技术,本案的属性词提取方法通过对狄利克雷树、“文档-领域-属性-词”四层生成式结构及先验知识库结合泛化波利亚模型的运用,一方面利用同义词词典构建约束刻画词语语义相关性的must-link限制关系,以狄利克雷树先验知识的运用,充分考虑词语之间的语义关系,解决了多词一义的问题;另一方面以闭环迭代更新的先验知识库不断改进采样过程,能够实现对语料库中不同领域和属性下词义关系的充分利用,减少对语料库数据量的要求;同时具备了跨领域提取更准确属性词的能力,能应用于更细粒度的属性;在训练过程中高效、准确地将语料库里高相似度的属性词进行汇总生成属性词库,从而精准地、提取跨领域文本中的所有属性词,可在细粒度情感分析任务中提升情感分析的准确率。进一步的,利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,可包括以下步骤:对语料库中每篇文档的每个词w,随机赋予一个领域编号z和一个属性编号c;重新扫描语料库,对每个词w进行吉布斯采样,更新领域编号z和属性编号c,直至吉布斯采样收敛;获取语料库的“领域-属性”共现频率矩阵和“领域-属性-词”共现频率张量矩阵,以每个领域下共现频率最高的前n个属性和词语输出,即各领域下各属性的词分布。进一步的,对于所述第一主题模型,可通过文档的生成过程对所述第一主题模型进行描述,其文档的生成过程包括以下步骤:对每一篇文档d,获取一个文档-领域分布其中,是狄利克雷分布的分布参数,是一个T维向量;对文档d下的领域z,获取一个领域-属性分布其中,是狄利克雷分布的分布参数,是一个C维向量;对文档d下的领域z下的属性c,获取一个领域-属性-词语分布其中,是狄利克雷分布树分布的参数;由文档-领域分布得到文档d中的词语wi的领域标签zm,n,由领域-属性分布得到词语wi的属性标签cm,n,由领域-属性-词语分布中得到词语wm,n并赋给词语wi,其中,语料库M为D篇文档的集合,D={d1,d2,...,dD};文档d中存在Nd个词语,每个词wi均是词典中的一项,所述词典由V个不同的词构成,i=1,2,...,V;T是领域的个数,C是属性的个数;Dirichlet()为狄利克雷分布,DirichletTree()为狄利克雷树分布,Multi()为多项分布。进一步的,所述第一主题模型对词语wi采样领域标签t和属性标签c的联合概率分布如下:其中,表示文档m中主题标签为t的词语个数,不包括位置i处的词语;表示领域标签是t、属性标签是c且在狄利克雷树中节点k下的词语个数,不包括位置i处的词语;I(↑i)表示狄利克雷树的内部节点的子集,且是叶节点wi的祖先节点;C(s↓i)是s的直接子节点中又是wi的祖先节点的唯一节点;k为知识库中属性簇c对应的知识;Ac,w',v'为在每个属性簇c中,语料库中所有词形成的词对v'与w'的关系矩阵:进一步的,所述先验知识库的建立,可包括以下步骤:利用所述第二主题模型按领域分别对语料库进行建模,得到各领域下各属性的词分布;根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;合并各属性簇中挖掘到的词对作为先验知识库。进一步的,所述先验知识库的迭代更新,包括以下步骤:获取所述第一主题模型当前一轮挖掘的输出结果,得到各领域下各属性的词分布;根据各领域下各属性的词分布,跨领域将相似的属性聚类成属性簇;获取各属性簇中词语之间的相似度,挖掘相似度大于阈值的词对;合并各属性簇中挖掘到的词对以更新所述先验知识库。在一种实施例中,获取各属性簇中词语之间的相似度,可包括以下步骤:利用以下模型生成语料库中词语的词向量:其中wi是中心词i的词向量,是上下文词j的词向量,bi和是偏置,Xij是词语i和j的共现频数;根据词语的词向量获取词语之间的余弦相似度,得到词相似度矩阵S:...

【技术保护点】
1.一种属性词提取方法,其特征在于,包括以下步骤:/n根据同义词词典构建词语之间的must-link限制关系,将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树,所述狄利克雷树用于作为词分布的先验分布;/n建立“文档-领域-属性-词”四层生成式结构,其中,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从所述狄利克雷树分布;/n运用先验知识库和泛化波利亚模型改进所述“领域-属性分布”;/n整合前述步骤,构建第一主题模型,所述第一主题模型为四层贝叶斯概率模型;/n利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,生成属性词库;/n接收待处理文本;/n根据所述属性词库对所述待处理文本进行属性词匹配,提取所述待处理文本中的属性词;/n其中,所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型。/n

【技术特征摘要】
1.一种属性词提取方法,其特征在于,包括以下步骤:
根据同义词词典构建词语之间的must-link限制关系,将具有相同must-link限制关系的词语放在同一子树中构建狄利克雷树,所述狄利克雷树用于作为词分布的先验分布;
建立“文档-领域-属性-词”四层生成式结构,其中,“文档-领域分布”、“领域-属性分布”及“领域-属性-词分布”服从多项分布,“文档-领域分布”和“领域-属性分布”的先验分布服从狄利克雷分布,“领域-属性-词分布”的先验分布服从所述狄利克雷树分布;
运用先验知识库和泛化波利亚模型改进所述“领域-属性分布”;
整合前述步骤,构建第一主题模型,所述第一主题模型为四层贝叶斯概率模型;
利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,生成属性词库;
接收待处理文本;
根据所述属性词库对所述待处理文本进行属性词匹配,提取所述待处理文本中的属性词;
其中,所述先验知识库由第二主题模型按领域分别对语料库进行挖掘后建立,根据所述第一主题模型每一轮挖掘的输出结果迭代更新;所述第二主题模型为潜在狄利克雷分布主题模型。


2.根据权利要求1所述的属性词提取方法,其特征在于,利用所述第一主题模型通过吉布斯采样过程对语料库进行挖掘,包括以下步骤:
对语料库中每篇文档的每个词w,随机赋予一个领域编号z和一个属性编号c;
重新扫描语料库,对每个词w进行吉布斯采样,更新领域编号z和属性编号c,直至吉布斯采样收敛;
获取语料库的“领域-属性”共现频率矩阵和“领域-属性-词”共现频率张量矩阵,以每个领域下共现频率最高的前n个属性和词语输出,即各领域下各属性的词分布。


3.根据权利要求1所述的属性词提取方法,其特征在于,对于所述第一主题模型,文档的生成过程包括以下步骤:
对每一篇文档d,获取一个文档-领域分布其中,是狄利克雷分布的分布参数,是一个T维向量;
对文档d下的领域z,获取一个领域-属性分布其中,是狄利克雷分布的分布参数,是一个C维向量;
对文档d下的领域z下的属性c,获取一个领域-属性-词语分布其中,是狄利克雷分布树分布的参数;
由文档-领域分布得到文档d中的词语wi的领域标签zm,n,
由领域-属性分布得到词语wi的属性标签cm,n,
由领域-属性-词语分布中得到词语wm,n并赋给词语wi,
其中,语料库M为D篇文档的集合,D={d1,d2,...,dD};文档d中存在Nd个词语,每个词wi均是词典中的一项,所述词典由V个不同的词构成,i=1,2,...,V;T是领域的个数,C是属性的个数;Dirichlet()为狄利克雷分布,DirichletTree()为狄利克雷树分布,Multi()为多项分布。


4.根据权利要求1至3任一项所述的属性词提取方法,其特征在于,所述第一主题模型对词语wi采样领域标签t和属性标签c的联合概率分布如下:



其中,表示文档m中主题标签为t...

【专利技术属性】
技术研发人员:唐婧尧赵洪雅薛云
申请(专利权)人:华南师范大学深圳职业技术学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1