The invention provides a big data Chinese network comment statements based on the theme semantic orientation analysis method, which is characterized in that the analysis method includes: topic extraction: Topic Extraction of Chinese network comment statements, identify the subject terms and related fields of this concept; statement pretreatment: commentary on the pre sentence word processing, clause and filter out the objective expression to obtain the semantic analysis, theme emotion description; emotion analysis: analysis of polar sentimental descriptive terms to determine the theme of semantic orientation. The present invention uses ontology to extract the topic of a sentence and its attributes, and then identifies the relation between the topic and the emotion description item on the basis of syntactic analysis so as to determine the polarity of each topic in the sentence.
【技术实现步骤摘要】
一种基于大数据中文网络评论语句主题语义倾向的分析方法
本专利技术涉及一种基于大数据中文网络评论语句主题语义倾向的分析方法,利用本体来抽取语句主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而决定语句中每个主题的极性。
技术介绍
目前,英特网上的信息与日剧增,蕴藏着巨大的信息量。但是,要想在很短的时间内获得人们对于诸如人物、事件、传媒、产品等有价值的评价信息,往往是十分困难的。随着网络的飞速发展,网上的各种各样的文章和言论信息量越来越大,使文本倾向性分析逐渐成为了近几年热门的研究课题。目前,在这个领域中主要有几个主要的研究方向,其中观点提取和词汇倾向性分类为倾向分析核心技术,文本倾向性分类和主客观分类也是倾向分析研究方向重要分支。而关于情感倾向分析中的研究思路主要为采用机器学习的方法、基于语义的方法和结合语义和机器学习的方法。文本的情感倾向分析方法中,基于机器学习的方法需要大量的人工标注语料、建立训练样本集和训练分类模型的工作,工作繁重而复杂,而取得的分类效果在部分领域与语义分析的效果差距不大,对于网络文本的准确率和召回率各为86%和85 ...
【技术保护点】
一种基于大数据中文网络评论语句主题语义倾向的分析方法,其特征在于,所述分析方法包括:主题抽取:对中文网络评论语句进行主题抽取,识别确定其主题术语和领域相关的本体概念;语句预处理:对评论语句进行预处理,分句分词并过滤掉客观性表述,以获取该主题语义分析的情感描述项;情感分析:分析情感描述项的极性以确定该主题的语义倾向。
【技术特征摘要】
1.一种基于大数据中文网络评论语句主题语义倾向的分析方法,其特征在于,所述分析方法包括:主题抽取:对中文网络评论语句进行主题抽取,识别确定其主题术语和领域相关的本体概念;语句预处理:对评论语句进行预处理,分句分词并过滤掉客观性表述,以获取该主题语义分析的情感描述项;情感分析:分析情感描述项的极性以确定该主题的语义倾向。2.根据权利要求1所述的一种基于大数据中文网络评论语句主题语义倾向的分析方法,其特征在于,所述主题抽取具体过程为:提取中文网络评论语句中的特征词,判断其是否存在领域主题术语词词典内,若不存在放弃该特征词,进入下一个特征词的判断过程;如果存在,则对该特征词进行标注,确定其本体概念。3.根据权利要求1或2所述的一种基于大数据中文网络评论语句主题语义倾向的分析方法,其特征在于,所述语句预处理具体步骤包括:1)对评论语句进行分词分句;2)筛选掉过滤掉客观性的表述语句;3)获取有价值的情感词或情感词和它的修饰部分的组合。4.根据权利要求1所述的一种基于大数据中文网络评论语句主题语义倾向的分析方法,其特征在于,所述情感分析为采用主谓结构SBV极性传递算法对情感描述项进行语义分析得到该主题的极性值。5.根据权利要求4所述的一种基于大数据中文网络评论语句主题语义倾向的分析方法,其特征在于,所述主谓结构SBV极性传递算法具体步骤为:(1)寻找语句中所有含有SBV结构的关系对;对每个关系对,记主语为subject,谓语为predicate,ModifiedPolarity(predicate)←PriorPolarity(predicate);(2)如果ModifiedPolarity(predicate)≠0a)如果谓语是形容词,则TopicPolarity(subject)←ModifiedPolarity(predicate);b)否则表示谓语为动词,则执行(3);c)检查CarOntology以判断该主语是不是主题词,如果主语是主题词,则打上标签(Marked),对于处理过的情感词,也打上此标签(Marked);(3)如果ModifiedPolarity(predicate)≠0,则a)TopicPolarity(subject)←ModifiedPolarity(predicate);b)继续查找含有谓语动词predicate的VOB(动宾结构)关系对;如果该关系对含有的名词noun为主题词,则TopicPolarity(noun)←Modifi...
【专利技术属性】
技术研发人员:林建忙,王振宇,周建清,黄雪意,
申请(专利权)人:温州市鹿城区中津先进科技研究院,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。