【技术实现步骤摘要】
一种行业文本情感获取方法、装置及存储介质
本专利技术涉及自然语言处理大数据分析
,尤其涉及一种行业文本情感获取方法、装置及存储介质。
技术介绍
随着我国各行各业的发展,互联网上出现了越来越多的行业资讯,而行业发展的欣荣与否,体现在具体的行业资讯当中。一篇行业资讯包含特定的情绪,选择合适的情感分析方法,可以得到行业资讯的情绪数据,进一步量化行业资讯情绪,捕捉行业情绪走势,可为行情监测,行业指标预测等工作提供帮助。目前就情感分析而言,主要包括两种方式,基于无监督的规则方式,基于有监督的学习方式。前者通过构建情感词表,制定情感计算规则获得情绪数据。目前基于依存关系的情感计算相关专利包括申请号为2017107837114的《一种基于依存关系抽取评价对象的方法》,基于直接和间接的依存关系模板,抽取观点评价对象;申请号为2016105375671的《一种基于依存关系模板抽取观点评价对象的Bootstrapping方法》,通过构造观点评价对象词与情感词之间的依存关系模板,完成观点评价对象抽取。申请号为2012103171830的《基于词语依存关系的观点抽取方法》,通过评价对象和情感特征之间的词语依存关系判断观点极性。这些技术方法都没有解决长文本行业情感计算的问题。基于学习的有监督情感分析方法,如传统的机器学习方法,如SVM,Bayes,决策树等;深度学习方法,包括CNN,LSTM等,通过构建训练模型,训练得到情感分类器,最终得到情绪分类结果。而就这类技术而言,为了得到充分、可靠的模型,后者需要足够多的标注数据,这通常需要很大的人力。其次,领域性是情感分析中的一个主 ...
【技术保护点】
1.一种行业文本情感获取方法,其特征在于,包括如下步骤:S10、根据互联网数据构建目标领域情感知识库;S20、对目标文本进行预处理、分段和长句切分;S30、结合目标领域情感知识库对分句进行情感句识别,形成情感句集合;S40、对各情感句集合进行分词、词性标注和依存句法分析,构建情感依存关系树;S50、根据所构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;S60、将长句切分为子句,根据各类情感依存关系得分的获取方法,分级递推获得子句情感得分、长句情感得分、段落情感得分,最终获得目标文本的情感得分;S70、对目标文本的情感得分进行归一化处理,输出情感得分。
【技术特征摘要】
1.一种行业文本情感获取方法,其特征在于,包括如下步骤:S10、根据互联网数据构建目标领域情感知识库;S20、对目标文本进行预处理、分段和长句切分;S30、结合目标领域情感知识库对分句进行情感句识别,形成情感句集合;S40、对各情感句集合进行分词、词性标注和依存句法分析,构建情感依存关系树;S50、根据所构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;S60、将长句切分为子句,根据各类情感依存关系得分的获取方法,分级递推获得子句情感得分、长句情感得分、段落情感得分,最终获得目标文本的情感得分;S70、对目标文本的情感得分进行归一化处理,输出情感得分。2.根据权利要求1所述的行业文本情感获取方法,其特征在于,步骤S10所述的根据互联网数据构建目标领域情感知识库,具体包括如下步骤:S101、从开源语言资源网站中收集公开的情感知识词典,构建基本的情感知识库;S102、通过采集目标领域行业语料,人工标注种子情感词,扩充基本的情感知识库,获得目标领域情感知识库。3.根据权利要求1所述的行业文本情感获取方法,其特征在于,步骤S50所述的根据所构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;具体包括:主谓关系类情感依存关系的情感得分获取方法、动宾关系类情感依存关系的情感得分获取方法、定中关系类情感依存关系的情感得分获取方法、状中关系类情感依存关系的情感得分获取方法、动补关系类情感依存关系的情感得分获取方法和并列关系类情感依存关系的情感得分获取方法。4.根据权利要求3所述的行业文本情感获取方法,其特征在于,所述的主谓关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为名词与动词或名词与形容词,且被支配词不是特异词,则主谓关系类情感依存关系的情感得分公式如下:S(SBV)=S(BW)*P(BW)+S(ZW)*P(BW)*0.5(1)其中,S(SBV)表示主谓关系类情感依存关系的情感得分,SBV表示主谓关系;S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性,S(ZW)表示支配词的情感强度;ZW表示支配词;若被支配词与支配词的词性为名词与动词或名词与形容词,且被支配词是特异词,则主谓关系类情感依存关系的情感得分公式如下:S(SBV)=(S(BW)*P(BW)+S(ZW)*P(BW)*0.5)*(-1)(2)。5.根据权利要求3所述的行业文本情感获取方法,其特征在于,所述的动宾关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为名词与动词或者形容词与动词,且支配词不在反转词词典中,则动宾关系类情感依存关系的情感得分公式如下:S(VOB)=S(BW)*P(BW)*0.5+S(ZW)*P(ZW)(3)其中,S(VOB)表示动宾关系类情感依存关系的情感得分,VOB表示动宾关系;S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性,S(ZW)表示支配词的情感强度;ZW表示支配词;P(ZW)表示支配词的词性;若被支配词与支配词的词性为名词与动词或者形容词与动词,且支配词在反转词词典中,则动宾关系类情感依存关系的情感得分公式如下:S(VOB)=S(BW)*P(BW)*(-1)(4)。6.根据权利要求3所述的行业文本情感获取方法,其特征在于,所述的定中关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为代词与名词、或量词与名词、或数词与名词,则定中关系类情感依存关系的情感得分公式如下:S(ATT)=S(ZW)*P(ZW)(5)其中,S(ATT)表示定中关系类情感依存关系的情感得分,ATT表示定中关系;S(ZW)表示支配词的情感强度;ZW表示支配词;P(ZW)表示支配词的词性;若被支配词与支配词的词性为名词与名词,则定中关系类情感依存关系的情感得分公式如下:S(ATT)=S(BW)*P(BW)+S(ZW)*P(ZW)(6)其中,S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性;若被支配词与支配词的词性为动词与名词或者形容词与名词,则定中关系类情感依存关系的情感得分公式如下:S(ATT)=S(BW)*P(BW)*P(ZW)(7)。7.根据权利要求3所述的行业文本情感获取方法,其特征在于,所述的状中关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为副词与动词或副词与形容词,且支配词为程度副词,则状中关系类情感依存关系的情感得...
【专利技术属性】
技术研发人员:刘焕勇,李瑞,梁吉光,
申请(专利权)人:数据地平线广州科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。