一种基于隐藏关联网络的多领域文本隐式特征抽取方法技术

技术编号：21630498 阅读：26 留言：0更新日期：2019-07-17 11:35

本发明专利技术属于计算机自然语言处理领域，公开了一种基于隐藏关联网络的多领域文本隐式特征抽取方法。该方法包括：通过语料预处理得到主体、特征、观点词集，统计得到主体、特征、观点词在语料中的同现频率矩阵；根据同现频率矩阵对三个词集双向增强聚类；计算关联强度，构建主体‑特征‑观点隐藏关联网络；利用隐藏关联网络抽取隐式特征。针对之前隐式特征抽取方法在多领域文本中效果不佳的问题，本方法通过考虑特征与领域知识之间的关联，构造主体‑特征‑观点隐藏关联网络，可以在多领域文本中更好地抽取隐式特征。

An Implicit Feature Extraction Method for Multidisciplinary Text Based on Hidden Association Network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于隐藏关联网络的多领域文本隐式特征抽取方法
本专利技术涉及计算机自然语言处理领域，具体涉及一种基于隐藏关联网络的多领域文本隐式特征抽取方法。
技术介绍
随着电子商务、社交网络的兴起，带有用户主观情绪色彩的信息或者短文本，例如微博、商品评论的数量正在高速增长，这些用户产生的信息是宝贵的资源，其中的主观性情感和意见等信息能够帮助人们做出决策，因此挖掘这种带有用户主观情绪文本中所表达的观点吸引了人们大量的研究。其中，越来越多的研究者开始关注更细致的意见挖掘，这些研究挖掘人们对事物某一方面的观点，它们在这些研究中被称为特征层面的观点。该领域内的研究大多数都是着眼于发现文本中的显式的特征，然而许多情况下特征词是由观点词隐含表达的，比如：“电脑便宜”隐含的是主体——“电脑”的特征——“价格”具有观点——“便宜”，这种不显式出现在文本中的特征被称为隐式特征。针对隐式特征的研究大多只考虑文本中特征词与观点词之间的关联，通过语料中特征词与观点词的同现频率矩阵挖掘它们之间的隐藏关联，利用这种隐藏关联能够在得到观点词的情况下预测可能的隐式特征。但如今很多文本都是混合领域文本，包含多种领域的内容，比如：政治、生物、经济等等。前人提出的隐式特征识别方法只考虑文本中特征词与观点词之间的关联，没有考虑在多领域文本中的应用，对如今日益增多的混合领域文本不能得到很好的效果。
技术实现思路
本专利技术的目的在于克服上述隐式特征识别方法在多领域文本效果不佳的问题，提供一种基于隐藏关联网络进行多领域文本隐式特征抽取的方法。本专利技术加入主体词作为文本所属领域的先验知识约束，参与隐藏关联网络的构...

【技术保护点】
1.本专利技术公开了一种基于隐藏关联网络的多领域文本隐式特征抽取方法，其特征在于包括以下步骤：步骤1：使用语料进行词向量训练得到语料中每个词的词向量，对语料进行预处理得到主体、特征、观点词集，统计得到词集之间各个词在语料中的同现频率矩阵；步骤2：根据同现频率矩阵对主体‑特征、特征‑观点词集之间进行双向增强聚类，然后重新聚类得到每个词集内部的聚类结果；步骤3：利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度，构造主体与特征、特征与观点词集之间的二部图，形成主体‑特征‑观点关联网络；步骤4：对于需要进行隐式特征抽取的句子，首先得到其中的主体、观点词，然后判断在各自词集中所属类，根据主体‑特征‑观点关联网络确定可能的隐式特征类，最终从该类中得到最可能的隐式特征词。

【技术特征摘要】
1.本发明公开了一种基于隐藏关联网络的多领域文本隐式特征抽取方法，其特征在于包括以下步骤：步骤1：使用语料进行词向量训练得到语料中每个词的词向量，对语料进行预处理得到主体、特征、观点词集，统计得到词集之间各个词在语料中的同现频率矩阵；步骤2：根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类，然后重新聚类得到每个词集内部的聚类结果；步骤3：利用同现频率矩阵计算两个词集的类之间的互信息作为类之间的关联强度，构造主体与特征、特征与观点词集之间的二部图，形成主体-特征-观点关联网络；步骤4：对于需要进行隐式特征抽取的句子，首先得到其中的主体、观点词，然后判断在各自词集中所属类，根据主体-特征-观点关联网络确定可能的隐式特征类，最终从该类中得到最可能的隐式特征词。2.根据权利要求1所述的基于隐藏关联网络的隐式特征抽取方法，其特征在于：所述步骤1中使用语料进行词向量训练得到语料中每个词的词向量，对语料进行预处理得到主体、特征、观点词集，统计得到词集之间各个词在语料中的同现频率矩阵，具体为：对语料进行分句、分词处理得到训练数据，使用训练数据进行词向量训练得到语料中每个词的词向量；对语料进行分句、分词、词性标注、依存分析预处理，从句子选择可能的名词作为主体词加入主体词集，否则作为特征词候选，句子中的形容词作为观点词候选，根据依存分析得到的依存树，挑选被特定关系连接的候选特征词和候选观点词加入特征词集、观点词集；统计出主体-特征词集、特征-观点词集之间各个词在语料中的同现频率矩阵。3.根据权利要求1所述的基于隐藏关联网络的隐式特征抽取方法，其特征在于：所述步骤2中根据同现频率矩阵对主体-特征、特征-观点词集之间进行双向增强聚类，然后重新聚类得到每个词集内部的聚类结果，具体为：首先根据所述步骤1训练得到的词向量在三个词集内部进行初步聚类，然后在主体-特征词集、特征-观点词集之间考虑一个词集的每个词与固定的另一个词集内聚类类之间的关联，得到相互关联矩阵，利用词与词之间的关联相似度和内容相似度进行相互增强的迭代聚类，最终收敛得到主体-特征、特征-观点词集的聚类结果。利用主体-特征词集相互增强聚类得到的主体词集聚类结果，对特征-观点词集相互增强聚类得到的特征词集聚类结果进行重新聚类，保证最后得到的特征词集聚类结果同时包含主体和观点信息。聚类时，词之间的相似度度量定义如下：其中，Scontent(Wi,Wj)表示词wi和词wj之间的内容相似度(词的词向量相似度)，Srel(Wi,Wj)表示词wi和词wj之间的关联相似度(关联矩阵中对应的关联向量相似度)，表示内部相似度所占权重，两个词集之间的相互增强聚类流程如下：a.只考虑内部相似度，即词向量间的余弦相似度，将集合F中的词聚类成k个类；b.根据集合F的聚类结果更新集合O的相互关联矩阵M1，词Oi对应的与集合F聚类结果之间的关联向量由表示，最终由这些关联向量构成新的n×k相互关联矩阵M1。关联向量R′i中的每个分量对应F聚类后的k个类之一，其中是词Oi与F聚类后的第x个类之间的权重，是词Oi与第x个类中的所有词的同现频率之和；c.根据b中更新...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：中森云链成都科技有限责任公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人