The invention discloses a method and apparatus for determining document sentiment, relates to the technical field of computer, solves the efficiency to determine whether the document sentiment increase caused by emotional emotional words and document segmentation dictionary increases by the common cause of the complicated problem. The technical scheme of the invention are: obtain a sentiment dictionary dictionary has a tree structure, the emotion dictionary contains emotional calibration value of emotion words; each node will be measured document in word dictionary tree units and the emotion in the dictionary, get the appropriate emotional words and emotion the emotional words calibration value of the document to be measured; the cumulative access to all emotion words emotional calibration values, the measured calibration value according to the document of emotion; the calibration test document emotional value of the trend of the position of the preset interval mapping of emotion, emotional tend to be measured to determine the document the. The present invention is mainly used to judge the affective tendency of documents.
【技术实现步骤摘要】
本专利技术涉及计算机
,尤其涉及一种确定文档情感倾向性的方法及装置。
技术介绍
网络舆情是近几年来逐渐兴起的一个课题,其在风险规避、服务提升等社会生活方面发挥了越来越重要的作用。情感计算主要是针对网络上的数据进行情感倾向性计算,统计大众对某件事情或者某个话题的支持程度、反对程度,也叫舆情计算。情感计算的结果对很多企业有非常重要的指导意义。情感计算可以通过很多方法来实现,一般分为两大类型,一是基于机器学习的方法,二是纯粹基于词典的方法。机器学习的方法,一般是通过标记语料训练一个通用分类器,然后利用这个分类器来进行情感判断。基于词典的方法需要准备一个较大的情感词典,通过词典中情感词匹配的程度来进行情感判断。机器学习的情感计算方法首先需要一批均衡的标记语料,可能来自于不同的数据来源或者各种各样的数据格式。因此,收集带标记的语料过程是比较耗费时间的,不同的数据来源具有不同的数据特点,可能需要使用不同的训练方式,工作量较大,训练时间较长。并且,不同领域的数据分布不相同,很难找到一个通用的模型适应所有的领域。而基于词典的情感计算过程需要一个情感词典,情感词内部包含一系列带有情感倾向的词汇,在实际计算过程中,利用情感词的情感程度累积来表示整个文档的情感值。一般需要先对文档进行分词。通常来说,词典要想取得好的更好的效果,只能通过不断增大情感词典,算法的复杂度将达到M*N,其中M是词典中词条的个数,N是文档中出现词语的个数。因此,在将文档进行分词后再带入情感词典进行计算会需要较长时间,影响文档的情感划分效率。
技术实现思路
有鉴于此,本专利技术提供一种确定文档情感倾向性 ...
【技术保护点】
一种确定文档情感倾向性的方法,其特征在于,所述方法包括:获取一个具有字典树结构的情感词典,所述情感词典中包含带有情感标定值的情感词;将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值;累加所述待测文档获取到的所有情感词的情感标定值,得到所述待测文档的情感标定值;根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
【技术特征摘要】
1.一种确定文档情感倾向性的方法,其特征在于,所述方法包括:获取一个具有字典树结构的情感词典,所述情感词典中包含带有情感标定值的情感词;将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值;累加所述待测文档获取到的所有情感词的情感标定值,得到所述待测文档的情感标定值;根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。2.根据权利要求1所述的方法,其特征在于,所述获取一个具有字典树结构的情感词典包括:根据不同的领域创建至少一个情感词典,所述情感词典中包含指定领域中的情感词;将所述情感词典中的情感词按照正面、中性、负面三类进行划分,并根据情感词的情感程度标记情感标定值;将所述情感词以字为单位组建字典树,得到具有字典树结构的情感词典;在所述至少一个情感词典中获取一个所述待测试文档所属领域的情感词典。3.根据权利要求1所述的方法,其特征在于,所述将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值包括:将所述待测文档分解为单个的字;根据所述字在待测文档中的排列顺序依次与所述情感词典中字典树的各节点进行匹配;当存在与所述字相匹配的节点时,在所述节点的子节点中匹配与所述字相邻的后一个字;将匹配成功的字组成情感词,并获取所述情感词的情感标定值。4.根据权利要求1或3所述的方法,其特征在于,在所述将待测文档以字为单位与所述情感词典中字典树的各节点进行匹配,获取相匹配的情感词以及所述情感词的情感标定值之后,还包括:当匹配到以所述待测文档中的字为开头的情感词时,将不再匹配所述待测文档中与所述字组成所述情感词的其他字。5.根据权利要求1-3中任一项所述的方法,其特征在于,在所述根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向之前,所述方法还包括:设置正面情感阈值和负面情感阈值;将大于所述正面情感阈值的情感标定值区间划分为正趋向区间,将小于所述负面情感阈值的情感标定值区间划分为负趋向区间,将正面情感阈值和负面情感阈值之间的区间范围划分为中性区间。6.根据权利要求2所述的方法,其特征在于,所述将所述情感词典中的情感词按照正面、中性、负...
【专利技术属性】
技术研发人员:史立华,崔维福,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。