一种基于隐藏关联网络的多领域文本隐式特征抽取方法技术

技术编号:21630498 阅读:26 留言:0更新日期:2019-07-17 11:35
本发明专利技术属于计算机自然语言处理领域,公开了一种基于隐藏关联网络的多领域文本隐式特征抽取方法。该方法包括:通过语料预处理得到主体、特征、观点词集,统计得到主体、特征、观点词在语料中的同现频率矩阵;根据同现频率矩阵对三个词集双向增强聚类;计算关联强度,构建主体‑特征‑观点隐藏关联网络;利用隐藏关联网络抽取隐式特征。针对之前隐式特征抽取方法在多领域文本中效果不佳的问题,本方法通过考虑特征与领域知识之间的关联,构造主体‑特征‑观点隐藏关联网络,可以在多领域文本中更好地抽取隐式特征。

An Implicit Feature Extraction Method for Multidisciplinary Text Based on Hidden Association Network

【技术实现步骤摘要】
一种基于隐藏关联网络的多领域文本隐式特征抽取方法
本专利技术涉及计算机自然语言处理领域,具体涉及一种基于隐藏关联网络的多领域文本隐式特征抽取方法。
技术介绍
随着电子商务、社交网络的兴起,带有用户主观情绪色彩的信息或者短文本,例如微博、商品评论的数量正在高速增长,这些用户产生的信息是宝贵的资源,其中的主观性情感和意见等信息能够帮助人们做出决策,因此挖掘这种带有用户主观情绪文本中所表达的观点吸引了人们大量的研究。其中,越来越多的研究者开始关注更细致的意见挖掘,这些研究挖掘人们对事物某一方面的观点,它们在这些研究中被称为特征层面的观点。该领域内的研究大多数都是着眼于发现文本中的显式的特征,然而许多情况下特征词是由观点词隐含表达的,比如:“电脑便宜”隐含的是主体——“电脑”的特征——“价格”具有观点——“便宜”,这种不显式出现在文本中的特征被称为隐式特征。针对隐式特征的研究大多只考虑文本中特征词与观点词之间的关联,通过语料中特征词与观点词的同现频率矩阵挖掘它们之间的隐藏关联,利用这种隐藏关联能够在得到观点词的情况下预测可能的隐式特征。但如今很多文本都是混合领域文本,包含多种领域的内容,比如:政治、生物、经济等等。前人提出的隐式特征识别方法只考虑文本中特征词与观点词之间的关联,没有考虑在多领域文本中的应用,对如今日益增多的混合领域文本不能得到很好的效果。
技术实现思路
本专利技术的目的在于克服上述隐式特征识别方法在多领域文本效果不佳的问题,提供一种基于隐藏关联网络进行多领域文本隐式特征抽取的方法。本专利技术加入主体词作为文本所属领域的先验知识约束,参与隐藏关联网络的构建,考虑了主体-特征-观点三方间的隐藏关联,使得本专利技术在多领域文本的隐式特征抽取中也能得到很好的应用。为实现本专利技术目的,本专利技术公开了一种基于隐藏关联网络的多领域文本隐式特征抽取方法,包括以下步骤:步骤1:使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵;步骤2:根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类,然后重新聚类得到每个词集内部的聚类结果;步骤3:利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度,构造主体与特征、特征与观点词集之间的二部图,形成主体-特征-观点关联网络;步骤4:对于需要进行隐式特征抽取的句子,首先得到其中的主体、观点词,然后判断在各自词集中所属类,根据主体-特征-观点关联网络确定可能的隐式特征类,最终从该类中得到最可能的隐式特征词。所述步骤1中使用语料进行词向量训练得到语料中每个词的词向量,通过对语料进行分句分词、词性标注、依存分析预处理得到每个句子的主体词、特征词、观点词,最终得到语料的主体、特征、观点词集合,同时统计得到主体-特征词集、特征-观点词集之间各个词在语料中的同现频率矩阵。所述步骤2中首先根据步骤1中训练得到的词向量在三个词集内部进行初步聚类,然后在主体-特征词集、特征-观点词集之间考虑一个词集的每个词与固定的另一个词集内聚类类之间的关联,得到相互关联矩阵,利用词与词之间的关联相似度和内容相似度进行两个词集之间的相互增强聚类,最终收敛得到主体-特征词集、特征-观点词集的聚类结果。利用主体-特征词集相互增强聚类得到的主体词集聚类结果,对特征-观点词集相互增强聚类得到的特征词集聚类结果进行重新聚类,保证最后得到的特征词集聚类结果同时包含主体和观点信息。聚类时,词之间的相似度度量定义如下:其中,Scontent(Wi,Wj)表示词wi和词wj之间的内容相似度(词的词向量相似度),Srel(Wi,Wj)表示词wi和词wj之间的关联相似度(关联矩阵中对应的关联向量相似度),表示内部相似度所占权重,两个词集F和O之间进行双向增强聚类的过程为:a.只考虑内部相似度,即词向量间的余弦相似度,将集合F中的词聚类成k个类;b.根据集合F的聚类结果更新集合O的相互关联矩阵M1,词Oi对应的与集合F聚类结果之间的关联向量由表示,最终由这些关联向量构成新的n×k相互关联矩阵M1。关联向量R′i中的每个分量对应F聚类后的k个类之一,其中是词Oi与F聚类后的第x个类之间的权重,是词Oi与第x个类中的所有词的同现频率之和;c.根据更新的集合O和集合F之间的相互关联矩阵M1,将集合O中的数据对象聚类成l个类;d.根据集合O的聚类结果更新集合F的相互关联矩阵M2,词Fi对应的与集合O聚类结果之间的关联向量由表示,最终由这些关联向量构成新的m×l相互关联矩阵M2。关联向量R′i中的每个分量对应O聚类后的l个类之一,其中是词Fi与O聚类后的第x个类之间的权重,是词Fi与第x个类中的所有词的同现频率之和;e.根据更新的集合F和集合O之间的相互关联矩阵M2,将集合F中的数据对象重新聚类为k个类;f.迭代上述步骤b-e,直到两个对象类型的聚类结果收敛。对特征词集聚类结果进行重新聚类的流程为:对于需要重新聚类的特征词集聚类结果Fr,特征词Yi对应的与主体词集聚类结果Sr之间的关联向量由表示;关联向量R″i中的每个分量对应于Sr的p个类之一,其中是特征词Yi与主体词集聚类结果Sr的p个类之间的权重。在Fr的每个类中,特征词两两配对计算关联向量相似度进行比较,对向量相似度小于阈值t的特征词划分到新的类中,最终得到重新聚类后的特征词集Ffr。所述步骤3中根据步骤2中得到的聚类结果,利用同现频率矩阵计算主体-特征、特征-观点词集各个聚类类之间的关联强度,最终构建出主体-特征-观点关联网络。关联强度由两个类之间的PMI表示,定义为:这里的P(c1)和P(c2)是类c1和类c2中的词语在语料库中出现的频率,P′(c1,c2)是类c1中所有词语和类c2中所有词语,在语料库中的句子层面上的同现频率之和。利用互信息PMI作为类之间的关联强度,关联主体-特征词集、特征-观点词集,构造出主体-特征-观点关联网络。所述步骤4中利用主体-特征-观点关联网络对句子中可能的隐式特征进行抽取,基本流程是:对于需要进行隐式特征抽取的句子,利用分词、词性标注、依存分析等技术得到句子中的主体词和观点词,考虑与该主体词和观点词属于的的主体类和观点类,根据主体-特征-观点关联网络得到与这两个主体类和观点类加权关联度最高的特征类,最终预测最可能的特征词作为隐式特征。因为考虑了与主体词之间的关联,所以这种隐式特征识别对多领域文本也有较好的效果。附图说明图1为本专利技术的流程示意图;图2为主体-特征-观点关联网络图;图3为主体-特征-观点关联网络的构建流程;图4为利用主体-特征-观点关联网络进行隐式特征识别的示例。具体实施方式下面结合附图和实施例对本
技术实现思路
作进一步详细说明,但不是对本专利技术的限定。参照图1,一种基于隐藏关联网络的多领域文本隐式特征抽取方法,包括以下步骤:ST1:使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵。具体流程如下:a.对语料进行分句、分词处理得到训练数据,使用训练数据进行词向量训练得到语料中每个词对应的词向量。b.对语料进行分句、分词、词性标注、依存分析。如果句子中的名词与标注的句本文档来自技高网
...

【技术保护点】
1.本专利技术公开了一种基于隐藏关联网络的多领域文本隐式特征抽取方法,其特征在于包括以下步骤:步骤1:使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵;步骤2:根据同现频率矩阵对主体‑特征、特征‑观点词集之间进行双向增强聚类,然后重新聚类得到每个词集内部的聚类结果;步骤3:利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度,构造主体与特征、特征与观点词集之间的二部图,形成主体‑特征‑观点关联网络;步骤4:对于需要进行隐式特征抽取的句子,首先得到其中的主体、观点词,然后判断在各自词集中所属类,根据主体‑特征‑观点关联网络确定可能的隐式特征类,最终从该类中得到最可能的隐式特征词。

【技术特征摘要】
1.本发明公开了一种基于隐藏关联网络的多领域文本隐式特征抽取方法,其特征在于包括以下步骤:步骤1:使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵;步骤2:根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类,然后重新聚类得到每个词集内部的聚类结果;步骤3:利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度,构造主体与特征、特征与观点词集之间的二部图,形成主体-特征-观点关联网络;步骤4:对于需要进行隐式特征抽取的句子,首先得到其中的主体、观点词,然后判断在各自词集中所属类,根据主体-特征-观点关联网络确定可能的隐式特征类,最终从该类中得到最可能的隐式特征词。2.根据权利要求1所述的基于隐藏关联网络的隐式特征抽取方法,其特征在于:所述步骤1中使用语料进行词向量训练得到语料中每个词的词向量,对语料进行预处理得到主体、特征、观点词集,统计得到词集之间各个词在语料中的同现频率矩阵,具体为:对语料进行分句、分词处理得到训练数据,使用训练数据进行词向量训练得到语料中每个词的词向量;对语料进行分句、分词、词性标注、依存分析预处理,从句子选择可能的名词作为主体词加入主体词集,否则作为特征词候选,句子中的形容词作为观点词候选,根据依存分析得到的依存树,挑选被特定关系连接的候选特征词和候选观点词加入特征词集、观点词集;统计出主体-特征词集、特征-观点词集之间各个词在语料中的同现频率矩阵。3.根据权利要求1所述的基于隐藏关联网络的隐式特征抽取方法,其特征在于:所述步骤2中根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类,然后重新聚类得到每个词集内部的聚类结果,具体为:首先根据所述步骤1训练得到的词向量在三个词集内部进行初步聚类,然后在主体-特征词集、特征-观点词集之间考虑一个词集的每个词与固定的另一个词集内聚类类之间的关联,得到相互关联矩阵,利用词与词之间的关联相似度和内容相似度进行相互增强的迭代聚类,最终收敛得到主体-特征、特征-观点词集的聚类结果。利用主体-特征词集相互增强聚类得到的主体词集聚类结果,对特征-观点词集相互增强聚类得到的特征词集聚类结果进行重新聚类,保证最后得到的特征词集聚类结果同时包含主体和观点信息。聚类时,词之间的相似度度量定义如下:其中,Scontent(Wi,Wj)表示词wi和词wj之间的内容相似度(词的词向量相似度),Srel(Wi,Wj)表示词wi和词wj之间的关联相似度(关联矩阵中对应的关联向量相似度),表示内部相似度所占权重,两个词集之间的相互增强聚类流程如下:a.只考虑内部相似度,即词向量间的余弦相似度,将集合F中的词聚类成k个类;b.根据集合F的聚类结果更新集合O的相互关联矩阵M1,词Oi对应的与集合F聚类结果之间的关联向量由表示,最终由这些关联向量构成新的n×k相互关联矩阵M1。关联向量R′i中的每个分量对应F聚类后的k个类之一,其中是词Oi与F聚类后的第x个类之间的权重,是词Oi与第x个类中的所有词的同现频率之和;c.根据b中更新...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:中森云链成都科技有限责任公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1