一种行业文本情感获取方法、装置及存储介质制造方法及图纸

技术编号:20242565 阅读:61 留言:0更新日期:2019-01-29 23:24
本发明专利技术公开一种行业文本情感获取方法、装置及存储介质,涉及自然语言处理大数据分析技术领域,本发明专利技术结合目标领域情感知识库对分句进行情感句识别,形成情感句集合;根据构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;将长句切分为子句,根据各类情感依存关系得分的获取方法,分级递推获得子句情感得分、长句情感得分、段落情感得分,最终获得目标文本的情感得分;经过实际应用检验,本发明专利技术提出的行业文本情感计算方法能够较好地对行业文本情绪进行反映,在长文本篇章级情绪的计算上,准确率达到85%;针对不同领域的文本,本发明专利技术能够快速地通过领域情感词库构建,实现不同行业的情感计算快速自适应。

【技术实现步骤摘要】
一种行业文本情感获取方法、装置及存储介质
本专利技术涉及自然语言处理大数据分析
,尤其涉及一种行业文本情感获取方法、装置及存储介质。
技术介绍
随着我国各行各业的发展,互联网上出现了越来越多的行业资讯,而行业发展的欣荣与否,体现在具体的行业资讯当中。一篇行业资讯包含特定的情绪,选择合适的情感分析方法,可以得到行业资讯的情绪数据,进一步量化行业资讯情绪,捕捉行业情绪走势,可为行情监测,行业指标预测等工作提供帮助。目前就情感分析而言,主要包括两种方式,基于无监督的规则方式,基于有监督的学习方式。前者通过构建情感词表,制定情感计算规则获得情绪数据。目前基于依存关系的情感计算相关专利包括申请号为2017107837114的《一种基于依存关系抽取评价对象的方法》,基于直接和间接的依存关系模板,抽取观点评价对象;申请号为2016105375671的《一种基于依存关系模板抽取观点评价对象的Bootstrapping方法》,通过构造观点评价对象词与情感词之间的依存关系模板,完成观点评价对象抽取。申请号为2012103171830的《基于词语依存关系的观点抽取方法》,通过评价对象和情感特征之间的词语依存关系判断观点极性。这些技术方法都没有解决长文本行业情感计算的问题。基于学习的有监督情感分析方法,如传统的机器学习方法,如SVM,Bayes,决策树等;深度学习方法,包括CNN,LSTM等,通过构建训练模型,训练得到情感分类器,最终得到情绪分类结果。而就这类技术而言,为了得到充分、可靠的模型,后者需要足够多的标注数据,这通常需要很大的人力。其次,领域性是情感分析中的一个主要问题,基于一个领域训练得到的情绪模型通常不具备领域迁移性,在某一行业中表现良好的情感模型,在其他行业中可能不奏效。目前这类技术方法主要集中在如评论、微博等短文本上,在长文本上,还缺少相关的应用。因此,总结的来说,目前面向长文本的情感计算方法存在以下不足:1、目前的情感分析任务大多处理的是短文本,如微博、酒店评论等的情感,对长文本的篇章级情感很少有涉及。2、目前通用领域的情感知识库无法支持多领域多行业文本的情感计算需求,即情感词的跨领域适用性较差。例如现在网上公开的大连理工情感词典等,包含的大多数都是修饰人的情感词,这个在行业情绪上并不奏效。3、目前简单的基于情感词计数的方法无法正确反映文本的真实情感,需要进一步考虑和引用词语之间结构信息和依存信息
技术实现思路
本专利技术针对复杂压铸件的打磨问题提供一种行业文本情感获取方法、装置及存储介质,实现长文本篇章情感的准确判断,提高适应性和效率。为了实现上述目的,本专利技术提出一种行业文本情感获取方法,包括如下步骤:S10、根据互联网数据构建目标领域情感知识库;S20、对目标文本进行预处理、分段和长句切分;S30、结合目标领域情感知识库对分句进行情感句识别,形成情感句集合;S40、对各情感句集合进行分词、词性标注和依存句法分析,构建情感依存关系树;S50、根据所构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;S60、将长句切分为子句,根据各类情感依存关系得分的获取方法,分级递推获得子句情感得分、长句情感得分、段落情感得分,最终获得目标文本的情感得分;S70、对目标文本的情感得分进行归一化处理,输出情感得分。优选地,步骤S10所述的根据互联网数据构建目标领域情感知识库,具体包括如下步骤:S101、从开源语言资源网站中收集公开的情感知识词典,构建基本的情感知识库;S102、通过采集目标领域行业语料,人工标注种子情感词,扩充基本的情感知识库,获得目标领域情感知识库。优选地,步骤S50所述的根据所构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;具体包括:主谓关系类情感依存关系的情感得分获取方法、动宾关系类情感依存关系的情感得分获取方法、定中关系类情感依存关系的情感得分获取方法、状中关系类情感依存关系的情感得分获取方法、动补关系类情感依存关系的情感得分获取方法和并列关系类情感依存关系的情感得分获取方法。优选地,所述的主谓关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为名词与动词或名词与形容词,且被支配词不是特异词,则主谓关系类情感依存关系的情感得分公式如下:S(SBV)=S(BW)*P(BW)+S(ZW)*P(BW)*0.5(1)其中,S(SBV)表示主谓关系类情感依存关系的情感得分,SBV表示主谓关系;S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性,S(ZW)表示支配词的情感强度;ZW表示支配词;若被支配词与支配词的词性为名词与动词或名词与形容词,且被支配词是特异词,则主谓关系类情感依存关系的情感得分公式如下:S(SBV)=(S(BW)*P(BW)+S(ZW)*P(BW)*0.5)*(-1)(2)。优选地,所述的动宾关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为名词与动词或者形容词与动词,且支配词不在反转词词典中,则动宾关系类情感依存关系的情感得分公式如下:S(VOB)=S(BW)*P(BW)*0.5+S(ZW)*P(ZW)(3)其中,S(VOB)表示动宾关系类情感依存关系的情感得分,VOB表示动宾关系;S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性,S(ZW)表示支配词的情感强度;ZW表示支配词;P(ZW)表示支配词的词性;若被支配词与支配词的词性为名词与动词或者形容词与动词,且支配词在反转词词典中,则动宾关系类情感依存关系的情感得分公式如下:S(VOB)=S(BW)*P(BW)*(-1)(4)。优选地,所述的定中关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为代词与名词、或量词与名词、或数词与名词,则定中关系类情感依存关系的情感得分公式如下:S(ATT)=S(ZW)*P(ZW)(5)其中,S(ATT)表示定中关系类情感依存关系的情感得分,ATT表示定中关系;S(ZW)表示支配词的情感强度;ZW表示支配词;P(ZW)表示支配词的词性;若被支配词与支配词的词性为名词与名词,则定中关系类情感依存关系的情感得分公式如下:S(ATT)=S(BW)*P(BW)+S(ZW)*P(ZW)(6)其中,S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性;若被支配词与支配词的词性为动词与名词或者形容词与名词,则定中关系类情感依存关系的情感得分公式如下:S(ATT)=S(BW)*P(BW)*P(ZW)(7)。优选地,所述的状中关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为副词与动词或副词与形容词,且支配词为程度副词,则状中关系类情感依存关系的情感得分公式如下:S(ADV)=D(BW)*S(ZW)*P(ZW)(8)其中,S(ADV)表示状中关系类情感依存关系的情感得分,ADV表示状中关系;D(BW)表示被支配词程度副词的强度,BW表示被支配词;S(ZW)表示支配词的情感强度;ZW表示支配词;P(ZW)表示支配词的词性;若被支配词与支配词的词性为副词与动词或副词与形容词,且支配词为否定词,则状中关系类情本文档来自技高网
...

【技术保护点】
1.一种行业文本情感获取方法,其特征在于,包括如下步骤:S10、根据互联网数据构建目标领域情感知识库;S20、对目标文本进行预处理、分段和长句切分;S30、结合目标领域情感知识库对分句进行情感句识别,形成情感句集合;S40、对各情感句集合进行分词、词性标注和依存句法分析,构建情感依存关系树;S50、根据所构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;S60、将长句切分为子句,根据各类情感依存关系得分的获取方法,分级递推获得子句情感得分、长句情感得分、段落情感得分,最终获得目标文本的情感得分;S70、对目标文本的情感得分进行归一化处理,输出情感得分。

【技术特征摘要】
1.一种行业文本情感获取方法,其特征在于,包括如下步骤:S10、根据互联网数据构建目标领域情感知识库;S20、对目标文本进行预处理、分段和长句切分;S30、结合目标领域情感知识库对分句进行情感句识别,形成情感句集合;S40、对各情感句集合进行分词、词性标注和依存句法分析,构建情感依存关系树;S50、根据所构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;S60、将长句切分为子句,根据各类情感依存关系得分的获取方法,分级递推获得子句情感得分、长句情感得分、段落情感得分,最终获得目标文本的情感得分;S70、对目标文本的情感得分进行归一化处理,输出情感得分。2.根据权利要求1所述的行业文本情感获取方法,其特征在于,步骤S10所述的根据互联网数据构建目标领域情感知识库,具体包括如下步骤:S101、从开源语言资源网站中收集公开的情感知识词典,构建基本的情感知识库;S102、通过采集目标领域行业语料,人工标注种子情感词,扩充基本的情感知识库,获得目标领域情感知识库。3.根据权利要求1所述的行业文本情感获取方法,其特征在于,步骤S50所述的根据所构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;具体包括:主谓关系类情感依存关系的情感得分获取方法、动宾关系类情感依存关系的情感得分获取方法、定中关系类情感依存关系的情感得分获取方法、状中关系类情感依存关系的情感得分获取方法、动补关系类情感依存关系的情感得分获取方法和并列关系类情感依存关系的情感得分获取方法。4.根据权利要求3所述的行业文本情感获取方法,其特征在于,所述的主谓关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为名词与动词或名词与形容词,且被支配词不是特异词,则主谓关系类情感依存关系的情感得分公式如下:S(SBV)=S(BW)*P(BW)+S(ZW)*P(BW)*0.5(1)其中,S(SBV)表示主谓关系类情感依存关系的情感得分,SBV表示主谓关系;S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性,S(ZW)表示支配词的情感强度;ZW表示支配词;若被支配词与支配词的词性为名词与动词或名词与形容词,且被支配词是特异词,则主谓关系类情感依存关系的情感得分公式如下:S(SBV)=(S(BW)*P(BW)+S(ZW)*P(BW)*0.5)*(-1)(2)。5.根据权利要求3所述的行业文本情感获取方法,其特征在于,所述的动宾关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为名词与动词或者形容词与动词,且支配词不在反转词词典中,则动宾关系类情感依存关系的情感得分公式如下:S(VOB)=S(BW)*P(BW)*0.5+S(ZW)*P(ZW)(3)其中,S(VOB)表示动宾关系类情感依存关系的情感得分,VOB表示动宾关系;S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性,S(ZW)表示支配词的情感强度;ZW表示支配词;P(ZW)表示支配词的词性;若被支配词与支配词的词性为名词与动词或者形容词与动词,且支配词在反转词词典中,则动宾关系类情感依存关系的情感得分公式如下:S(VOB)=S(BW)*P(BW)*(-1)(4)。6.根据权利要求3所述的行业文本情感获取方法,其特征在于,所述的定中关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为代词与名词、或量词与名词、或数词与名词,则定中关系类情感依存关系的情感得分公式如下:S(ATT)=S(ZW)*P(ZW)(5)其中,S(ATT)表示定中关系类情感依存关系的情感得分,ATT表示定中关系;S(ZW)表示支配词的情感强度;ZW表示支配词;P(ZW)表示支配词的词性;若被支配词与支配词的词性为名词与名词,则定中关系类情感依存关系的情感得分公式如下:S(ATT)=S(BW)*P(BW)+S(ZW)*P(ZW)(6)其中,S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性;若被支配词与支配词的词性为动词与名词或者形容词与名词,则定中关系类情感依存关系的情感得分公式如下:S(ATT)=S(BW)*P(BW)*P(ZW)(7)。7.根据权利要求3所述的行业文本情感获取方法,其特征在于,所述的状中关系类情感依存关系的情感得分获取方法,具体包括:若被支配词与支配词的词性为副词与动词或副词与形容词,且支配词为程度副词,则状中关系类情感依存关系的情感得...

【专利技术属性】
技术研发人员:刘焕勇李瑞梁吉光
申请(专利权)人:数据地平线广州科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1