一种文本信息标注的方法以及相关装置制造方法及图纸

技术编号:22444606 阅读:11 留言:0更新日期:2019-11-02 04:31
本申请实施例公开了一种文本信息标注的方法以及相关装置,该方法通过计算待标注词语为正面倾向的概率值和负面倾向的概率值,然后根据概率值确定待标注词语的情感倾向,本申请实施例考虑了正面倾向和负面倾向两个情况,突出了正面倾向和负面倾向的特点,能够正确识别待标注词语的正负倾向,解决当前容易将词性相反的词语归到同一情感倾向,导致情感分析错误的技术问题。

A method of text information annotation and related devices

【技术实现步骤摘要】
一种文本信息标注的方法以及相关装置
本申请涉及自然语言处理
,尤其涉及一种文本信息标注的方法以及相关装置。
技术介绍
随着现代社会的发展,文本分析对于计算机处理人们日常使用的语言具有重要的作用。自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。人们希望通过计算机从文本信息中提取出重要的信息,例如人们对某事物的情感。情感分析是NLP中一个非常重要的方向,互联网(如博客和论坛以及社会服务网络)上产生了大量的对于诸如人物、事件、产品等有价值的新闻文章以及评论信息。这些新闻文章以及信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。通过情感分析能够从大量文本信息中获取到人们对于事物的情感倾向性,从而根据情感分析的情况进行相应的活动。当前通过词向量的余弦距离计算两个词的相似性,容易将词性相反的词语归到同一情感倾向,导致情感分析错误。
技术实现思路
本申请实施例提供了一种文本信息标注的方法以及相关装置,用于解决当前文本情感分析容易将词性相反的词语归到同一情感倾向,导致情感分析错误的技术问题。有鉴于此,本申请实施例第一方面提供一种文本信息标注的方法,包括:获取第一词库,所述第一词库为存储种子词的词库,所述种子词为已标注情感倾向的词语;获取待标注词语的词向量;根据所述种子词与所述词向量确定所述待标注词语的正面概率值和负面概率值,所述正面概率值为所述待标注词语为正面倾向的概率值,所述负面概率值为所述待标注词语为负面倾向的概率值;根据所述正面概率值和所述负面概率值确定所述待标注词语的情感倾向;根据所述待标注词语的情感倾向,将所述待标注词语添加至所述第一词库,得到第二词库。本申请实施例第二方面提供一种文本信息标注的装置,包括:获取单元,用于获取第一词库,所述第一词库为存储种子词的词库,所述种子词为已标注情感倾向的词语;获取单元还用于获取待标注词语的词向量;处理单元,用于根据所述种子词与所述词向量确定所述待标注词语的正面概率值和负面概率值,所述正面概率值为所述待标注词语为正面倾向的概率值,所述负面概率值为所述待标注词语为负面倾向的概率值;处理单元还用于根据所述正面概率值和所述负面概率值确定所述待标注词语的情感倾向;处理单元还用于根据所述待标注词语的情感倾向,将所述待标注词语添加至所述第一词库,得到第二词库。在一种可能的设计中,在本申请实施例第二方面的一种实现方式中,所述处理单元还用于根据顶点之间的权重,采用随机游走算法计算粒子游走到顶点的游走概率值,直到全局收敛或达到迭代次数,其中,所述顶点与所述待标注词语具有对应关系,所述权重为所述词向量之间的余弦距离,所述待标注词语与所述种子词相同的情况下,所述待标注词语的初始概率为第一概率,所述待标注词语与所述种子词不同的情况下,所述待标注词语的初始概率为第二概率;若所述种子词的情感倾向为正面倾向,则根据所述待标注词语对应的所述游走概率值,确定所述待标注词语的所述正面概率值;若所述种子词的情感倾向为负面倾向,则根据所述待标注词语对应的所述游走概率值,确定所述待标注词语的所述负面概率值。在一种可能的设计中,在本申请实施例第二方面的一种实现方式中,所述处理单元还用于获取综合得分,所述综合得分与所述正面概率值正相关,与所述负面概率值负相关;按照所述综合得分由高往低的顺序对所述待标注词语进行排序,得到排序结果;根据所述排序结果确定从前至后的M个所述待标注词语的情感倾向为正面倾向,确定从后至前的N个所述待标注词语的情感倾向为负面倾向,其中,所述M为大于或等于1的整数,所述N为大于或等于1的整数。在一种可能的设计中,在本申请实施例第二方面的一种实现方式中,所述第一词库包括第一正面词库和第一负面词库,所述第二词库包括第二正面词库和第二负面词库;所述处理单元还用于若所述待标注词语的情感倾向为正面倾向,则将所述待标注词语添加至所述第一正面词库,得到第二正面词库;若所述待标注词语的情感倾向为负面倾向,则将所述待标注词语添加至所述第一负面词库,得到第二负面词库。在一种可能的设计中,在本申请实施例第二方面的一种实现方式中,所述获取单元还用于获取逐点互信息矩阵,所述逐点互信息矩阵包括所述待标注词语的共现概率的对数值;根据所述逐点互信息矩阵,通过奇异值分解算法获取所述待标注词语的所述词向量。在一种可能的设计中,在本申请实施例第二方面的一种实现方式中,所述处理单元还用于获取候选词库,所述候选词库为去除低频词以及误用词后的词库,所述低频词为在语料中出现次数少于预设阈值的词语,所述误用词表示词性为已选定词性的词语;根据所述候选词库和所述待标注词语的情感倾向将所述待标注词语添加至所述第一词库,得到第二词库。在一种可能的设计中,在本申请实施例第二方面的一种实现方式中,所述处理单元还用于获取文本信息;根据所述第二词库中的词语对所述文本信息进行情感分析。本申请实施例第三方面提供一种服务器,包括:一个或一个以上中央处理器,存储器,输入输出接口,有线或无线网络接口,电源;所述存储器为短暂存储存储器或持久存储存储器;所述中央处理器配置为与所述存储器通信,在所述服务器上执行所述存储器中的指令操作以执行上述第一方面的方法。本申请第四方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行上述第一方面的方法。本申请第五方面提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面的方法。从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例通过计算待标注词语为正面倾向的概率值和负面倾向的概率值,然后根据概率值确定待标注词语的情感倾向,本申请实施例考虑了正面倾向和负面倾向两个情况,突出了正面倾向和负面倾向的特点,能够正确识别待标注词语的正负倾向,解决当前容易将词性相反的词语归到同一情感倾向,导致情感分析错误的技术问题。附图说明图1为通过文本情感分析得到某评价对象的口碑的分析情况图;图2为本申请实施例提供的一种文本信息标注的方法的流程图;图3为本申请实施例提供的文本信息标注的方法的一个可选实施例的流程图;图4为本申请实施例提供的文本信息标注的方法的一个可选实施例的流程图;图5为本申请实施例提供的文本信息标注方法的应用例示意图;图6为应用例中第一正面词库的词语数量与准确率的关系图;图7为应用例中第一负面词库的词语数量与准确率的关系图;图8为本申请提供一种文本信息标注的装置的示意图;图9是本申请实施例提供的一种服务器结构示意图。具体实施方式本申请实施例提供了一种文本信息标注的方法以及相关装置,用于解决当前文本情感分析容易将词性相反的词语归到同一情感倾向,导致情感分析错误的技术问题。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或本文档来自技高网...

【技术保护点】
1.一种文本信息标注的方法,其特征在于,包括:获取第一词库,所述第一词库为存储种子词的词库,所述种子词为已标注情感倾向的词语;获取待标注词语的词向量;根据所述种子词与所述词向量确定所述待标注词语的正面概率值和负面概率值,所述正面概率值为所述待标注词语为正面倾向的概率值,所述负面概率值为所述待标注词语为负面倾向的概率值;根据所述正面概率值和所述负面概率值确定所述待标注词语的情感倾向;根据所述待标注词语的情感倾向,将所述待标注词语添加至所述第一词库,得到第二词库。

【技术特征摘要】
1.一种文本信息标注的方法,其特征在于,包括:获取第一词库,所述第一词库为存储种子词的词库,所述种子词为已标注情感倾向的词语;获取待标注词语的词向量;根据所述种子词与所述词向量确定所述待标注词语的正面概率值和负面概率值,所述正面概率值为所述待标注词语为正面倾向的概率值,所述负面概率值为所述待标注词语为负面倾向的概率值;根据所述正面概率值和所述负面概率值确定所述待标注词语的情感倾向;根据所述待标注词语的情感倾向,将所述待标注词语添加至所述第一词库,得到第二词库。2.根据权利要求1所述的方法,其特征在于,所述根据所述种子词与所述词向量确定所述待标注词语的正面概率值和负面概率值包括:根据顶点之间的权重,采用随机游走算法计算粒子游走到顶点的游走概率值,直到全局收敛或达到迭代次数,其中,所述顶点与所述待标注词语具有对应关系,所述权重为所述词向量之间的余弦距离,所述待标注词语与所述种子词相同的情况下,所述待标注词语的初始概率为第一概率,所述待标注词语与所述种子词不同的情况下,所述待标注词语的初始概率为第二概率;若所述种子词的情感倾向为正面倾向,则根据所述待标注词语对应的所述游走概率值,确定所述待标注词语的所述正面概率值;若所述种子词的情感倾向为负面倾向,则根据所述待标注词语对应的所述游走概率值,确定所述待标注词语的所述负面概率值。3.根据权利要求1所述的方法,其特征在于,所述根据所述正面概率值和所述负面概率值确定所述待标注词语的情感倾向包括:获取综合得分,所述综合得分与所述正面概率值正相关,与所述负面概率值负相关;按照所述综合得分由高往低的顺序对所述待标注词语进行排序,得到排序结果;根据所述排序结果确定从前至后的M个所述待标注词语的情感倾向为正面倾向,确定从后至前的N个所述待标注词语的情感倾向为负面倾向,其中,所述M为大于或等于1的整数,所述N为大于或等于1的整数。4.根据权利要求3所述的方法,其特征在于,所述第一词库包括第一正面词库和第一负面词库,所述第二词库包括第二正面词库和第二负面词库;所述根据所述待标注词语的情感倾向,将所述待标注词语添加至所述第一词库,得到第二词库包括:若所述待标注词语的情感倾向为正面倾向,则将所述待标注词语添加至所述第...

【专利技术属性】
技术研发人员:徐灿
申请(专利权)人:腾讯科技成都有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1