一种确定文档情感倾向性的方法及装置制造方法及图纸

技术编号:15254971 阅读:74 留言:0更新日期:2017-05-02 22:17
本发明专利技术公开了一种确定文档情感倾向性的方法及装置,涉及计算机技术领域,解决了由于情感词的增加造成的情感词典增大以及文档分词复杂所共同导致的判断文档情感倾向性效率降低的问题。本发明专利技术主要的技术方案为:获取一个具有字典树结构的情感词典,所述情感词典中包含带有情感标定值的情感词;将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值;累加所述待测文档获取到的所有情感词的情感标定值,得到所述待测文档的情感标定值;根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。本发明专利技术主要用于判断文档的情感倾向性。

Method and device for determining document sentiment tendency

The invention discloses a method and apparatus for determining document sentiment, relates to the technical field of computer, solves the efficiency to determine whether the document sentiment increase caused by emotional emotional words and document segmentation dictionary increases by the common cause of the complicated problem. The technical scheme of the invention are: obtain a sentiment dictionary dictionary has a tree structure, the emotion dictionary contains emotional calibration value of emotion words; each node will be measured document in word dictionary tree units and the emotion in the dictionary, get the appropriate emotional words and emotion the emotional words calibration value of the document to be measured; the cumulative access to all emotion words emotional calibration values, the measured calibration value according to the document of emotion; the calibration test document emotional value of the trend of the position of the preset interval mapping of emotion, emotional tend to be measured to determine the document the. The present invention is mainly used to judge the affective tendency of documents.

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种确定文档情感倾向性的方法及装置
技术介绍
网络舆情是近几年来逐渐兴起的一个课题,其在风险规避、服务提升等社会生活方面发挥了越来越重要的作用。情感计算主要是针对网络上的数据进行情感倾向性计算,统计大众对某件事情或者某个话题的支持程度、反对程度,也叫舆情计算。情感计算的结果对很多企业有非常重要的指导意义。情感计算可以通过很多方法来实现,一般分为两大类型,一是基于机器学习的方法,二是纯粹基于词典的方法。机器学习的方法,一般是通过标记语料训练一个通用分类器,然后利用这个分类器来进行情感判断。基于词典的方法需要准备一个较大的情感词典,通过词典中情感词匹配的程度来进行情感判断。机器学习的情感计算方法首先需要一批均衡的标记语料,可能来自于不同的数据来源或者各种各样的数据格式。因此,收集带标记的语料过程是比较耗费时间的,不同的数据来源具有不同的数据特点,可能需要使用不同的训练方式,工作量较大,训练时间较长。并且,不同领域的数据分布不相同,很难找到一个通用的模型适应所有的领域。而基于词典的情感计算过程需要一个情感词典,情感词内部包含一系列带有情感倾向的词汇,在实际计算过程中,利用情感词的情感程度累积来表示整个文档的情感值。一般需要先对文档进行分词。通常来说,词典要想取得好的更好的效果,只能通过不断增大情感词典,算法的复杂度将达到M*N,其中M是词典中词条的个数,N是文档中出现词语的个数。因此,在将文档进行分词后再带入情感词典进行计算会需要较长时间,影响文档的情感划分效率。
技术实现思路
有鉴于此,本专利技术提供一种确定文档情感倾向性的方法及装置,主要目的在于解决由于情感词的增加造成的情感词典增大以及文档分词复杂所共同导致的判断文档情感倾向性效率降低的问题。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术提供了一种确定文档情感倾向性的方法,该方法包括:获取一个具有字典树结构的情感词典,所述情感词典中包含带有情感标定值的情感词;将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值;累加所述待测文档获取到的所有情感词的情感标定值,得到所述待测文档的情感标定值;根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。另一方面,本专利技术还提供了一种确定文档情感倾向性的装置,该装置包括:第一获取单元,用于获取一个具有字典树结构的情感词典,所述情感词典中包含带有情感标定值的情感词;第二获取单元,用于将待测文档以字为单位与所述第一获取单元获取的情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值;计算单元,用于累加所述第二获取单元从所述待测文档中获取到的所有情感词的情感标定值,计算出所述待测文档的情感标定值;确定单元,用于根据所述计算单元计算出待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。依据上述本专利技术所提出的确定文档情感倾向性的方法及装置,是通过选取与待测试文档具有相同领域或行业的情感词典进行情感倾向性的判断,使得情感词的情感趋向更加准确。同时,在情感词典中引入字典树的结构,将情感词以更简单的词组或单个字的形式添加到字典树结构的节点中,与待测试文档的内容进行匹配测试。此外,在匹配时,待测试文档不再采用分词的方式进行拆分,而是通过单个字匹配的方式,逐字的在情感词典中进行匹配,以获取文档中所具有的情感词以及对应的情感值,再根据预设的情感值区间判断整个文档的情感趋向。与现有技术相比,本专利技术在情感词典中使用的字典树结构可有效的提高情感词典匹配情感词的效率,同时,对待测文档还省去了分词步骤,以字为单位逐个地进行匹配,也大幅提高了文档的处理效率。可见,本专利技术通过对情感词典的改进以及对测试文档的处理方式的优化,从整体上提高了确定测试文档情感趋向的判断速度。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提出的一种确定文档情感倾向性的方法流程图;图2示出了本专利技术实施例提出的另一种确定文档情感倾向性的方法流程图;图3示出了本专利技术实施例中情感词典的字典树结构示意图;图4示出了本专利技术实施例提出的一种确定文档情感倾向性的装置组成框图;图5示出了本专利技术实施例提出的另一种确定文档情感倾向性的装置组成框图;图6示出了本专利技术实施例提出的第三种确定文档情感倾向性的装置组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种确定文档情感倾向性的方法,如图1所示,该方法应用于对文档整体内容情感倾向性的定性分析,其中,文档的形式可以是短句、短文或是文章等,具体步骤包括:101、获取一个具有字典树结构的情感词典。本专利技术实施例是采用基于情感词典进行判断文档的情感倾向性的实现方法,而在对文档进行倾向性判断前,首先需要确定一个情感词典,该词典中包含有多个情感词,并且这些情感词都标记有与该词相对应的情感标定值。在本实施例中的情感词典相比于普通的情感词典,所使用的构建方式为字典树结构的组成方式。字典树,又称单词查找树或Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串,所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。在本专利技术实施例中,字典树的构建是将情感词典中的情感词进行拆解,得到更简单的词,甚至是单个字,将相同的词或字作为同一个节点,与相关的其他词或字进行连接,组成树状结构的情感词典。在该情感词典中,每个节点的词或字都不相同,因此,通过对节点的查找,可以快速地定位情感词的位置,提高查找情感词典的速度。102、将待测文档以字为单位与情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及该情感词的情感标定值。在选定情感词典后,还需要对待测试文档做进一步处理,在以往的情感计算过程中,一般是要对该文档进行分词处理,而现有的分词处理方法中不能完全准确的将文档根据原文的意思进行分词。因此,本专利技术实施例不采用分词的方式,而是将文档进行更简便、更彻底、更可行的拆解操作,就是将文档分成单个字,以字为单位逐个的在情感词典的字典树结构中进行查找,因为字典树中的节点内容都不相同,并且相对完整的词要简单,因此,在查找的速度以及准确度上都比现有的分词方式要高。其中,在字典树中各个节点的内容是词时,只需要判断文档中的字是否与节点中词的开头字相同即可。在进行匹配查询时,当文档中的字与情感词典中的节点内容相同,或者是与节点中内容的第一个字相同时,将读取文档中该字后面的一个字与情感词典中该节点的所有子节本文档来自技高网...

【技术保护点】
一种确定文档情感倾向性的方法,其特征在于,所述方法包括:获取一个具有字典树结构的情感词典,所述情感词典中包含带有情感标定值的情感词;将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值;累加所述待测文档获取到的所有情感词的情感标定值,得到所述待测文档的情感标定值;根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。

【技术特征摘要】
1.一种确定文档情感倾向性的方法,其特征在于,所述方法包括:获取一个具有字典树结构的情感词典,所述情感词典中包含带有情感标定值的情感词;将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值;累加所述待测文档获取到的所有情感词的情感标定值,得到所述待测文档的情感标定值;根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。2.根据权利要求1所述的方法,其特征在于,所述获取一个具有字典树结构的情感词典包括:根据不同的领域创建至少一个情感词典,所述情感词典中包含指定领域中的情感词;将所述情感词典中的情感词按照正面、中性、负面三类进行划分,并根据情感词的情感程度标记情感标定值;将所述情感词以字为单位组建字典树,得到具有字典树结构的情感词典;在所述至少一个情感词典中获取一个所述待测试文档所属领域的情感词典。3.根据权利要求1所述的方法,其特征在于,所述将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值包括:将所述待测文档分解为单个的字;根据所述字在待测文档中的排列顺序依次与所述情感词典中字典树的各节点进行匹配;当存在与所述字相匹配的节点时,在所述节点的子节点中匹配与所述字相邻的后一个字;将匹配成功的字组成情感词,并获取所述情感词的情感标定值。4.根据权利要求1或3所述的方法,其特征在于,在所述将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值之后,还包括:当匹配到以所述待测文档中的字为开头的情感词时,将不再匹配所述待测文档中与所述字组成所述情感词的其他字。5.根据权利要求1-3中任一项所述的方法,其特征在于,在所述根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向之前,所述方法还包括:设置正面情感阈值和负面情感阈值;将大于所述正面情感阈值的情感标定值区间划分为正趋向区间,将小于所述负面情感阈值的情感标定值区间划分为负趋向区间,将正面情感阈值和负面情感阈值之间的区间范围划分为中性区间。6.根据权利要求2所述的方法,其特征在于,所述将所述情感词典中的情感词按照正面、中性、负...

【专利技术属性】
技术研发人员:史立华崔维福
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1