一种关联实体的情感信息表示方法技术

技术编号：22075849 阅读：44 留言：0更新日期：2019-09-12 14:11

本发明专利技术专利涉及一种关联实体的情感信息分类方法。该方法包括步骤一），利用维基百科语料训练大规模的词向量作为文本中词语的通用词向量表示；步骤二），结合强化学习中的Q学习方法针对文本中不同的实体和实体属性对词向量进行微调，使词语在修饰不同实体或实体属性时有不同的向量表示；步骤三），将学习获得的词语情感信息向量表示应用到实体级别文本情感分析任务中。使用该方法能在不使用注意力机制的情况下，有效判别不同实体或实体属性的情感极性。

An Emotional Information Representation Method for Associated Entities

全部详细技术资料下载

【技术实现步骤摘要】
一种关联实体的情感信息表示方法
本专利技术属于情感信息表示
，特别涉及一种关联实体的情感信息表示方法。
技术介绍
文本情感分析是通过对文本进行分析、归纳、处理等完成对文本情感极性的判别。在文本情感分析任务中，文本的词语信息，尤其是带有情感色彩的词语能直接影响文本的情感极性。在带实体的文本情感分析任务中，需要针对文本中不同的实体进行情感极性判断，这不仅要考虑文本本身，同时也要考虑文本中不同的实体信息。在现实的文本数据中，同一文本往往会存在多个实体，而不同实体会有不同的情感表达。另一方面，针对不同的实体，就算使用同一个修饰词，可能会出现完全相反的情感极性。例如“汽车的噪音很大”、“汽车的空间很大”，同样是形容实体“汽车”属性的词语“大”在形容“汽车噪音”时是消极情感，而在形容“汽车空间”时是积极情感。传统的词语信息表示方法很多，例如：One-hot表示方法和将词语表示成连续值向量的词向量表示方法(连续词袋模型，ContinuesBagOfWords和跳跃多元文法，Skipn-gram)等。这类方法通过将词语表示成一个多维的向量来供模型学习和调整，能学习到词语在文本中的特征信息。但是，上述方法通常只考虑词语本身，以及词语和文本中其他词语的依赖关系。所以针对不同场景、不同实体、以及不同实体的属性，词语都只有相同的向量表示。针对带实体的情感分析任务，目前常用的方法是将特定实体的表示和不同词语拼接，构造新的词语表示，或者加入外部的知识库或者依存句法分析等来获取不同词语和实体之间的联系。这些方法虽然能在一定程度上解决多实体文本情感分析任务中的词语信息表示问题，但是...

【技术保护点】
1.一种关联实体的情感信息表示方法，其特征在于，步骤一)，利用大规模文本语料训练大规模的词向量作为文本中词语的通用词向量表示；步骤二)，结合强化学习Q学习方法针对文本中不同的实体和实体属性对词语的词向量进行微调，使词语在修饰不同实体或实体属性时有不同的向量表示；步骤三)，将学习获得的词语情感信息向量表示应用到特定的文本情感分析任务中。

【技术特征摘要】
1.一种关联实体的情感信息表示方法，其特征在于，步骤一)，利用大规模文本语料训练大规模的词向量作为文本中词语的通用词向量表示；步骤二)，结合强化学习Q学习方法针对文本中不同的实体和实体属性对词语的词向量进行微调，使词语在修饰不同实体或实体属性时有不同的向量表示；步骤三)，将学习获得的词语情感信息向量表示应用到特定的文本情感分析任务中。2.根据权利要求1所述的方法，其特征在于，上述步骤一)中，训练通用词向量的具体步骤如下：从互联网上爬取大量的文本语料，并对语料进行预处理，去除文本中的无关符号及停用词。之后使用深度语言模型网络(ASGDWeight-DroppedLong-ShortTermMemory，AWD-LSTM)在大规模语料上进行词向量训练，获取词语的词向量集合。3.根据权利要求1或2所述的方法，其特征在于，在上述步骤二)中，利用强化学习中的Q学习和AWD-LSTM网络在特定任务语料中对词向量进行微调整：vs,w＝vs,w+α(ri+γmaxw′vs′,w′-vs,w)其中，vs,w为当前词语的向量表...

【专利技术属性】
技术研发人员：徐睿峰，梁斌，杜嘉晨，黄锦辉，何瑜岚，
申请(专利权)人：哈尔滨工业大学深圳，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人