情感分析方法、系统、计算机终端及存储介质技术方案

技术编号:23149942 阅读:19 留言:0更新日期:2020-01-18 13:48
本发明专利技术实施例涉及人工智能领域,公开了一种情感分析方法、系统、计算机终端及存储介质,该方法包括获取待分析文本内容,识别待分析文本内容中的目标对象;对待分析文本内容进行分词处理;将分词处理得到的词输入预训练的分词字典,得到对应每个词的词向量;采用情感词典优化词向量;将目标对象和优化后的词向量输入情感分析模型,计算得到待分析文本内容针对目标对象的情感倾向概率;该方法可以高效准确地计算分析结果,能实现较好地提取和判断文本对于目标对象的情感,适用性强。

Emotion analysis method, system, computer terminal and storage medium

【技术实现步骤摘要】
情感分析方法、系统、计算机终端及存储介质
本专利技术涉及人工智能领域,尤其涉及一种情感分析方法、系统、计算机终端及存储介质。
技术介绍
新闻是大多数人了解这个世界变化的有力途径,通过分析目标公司相关新闻中的情感倾向,公司可以知道大众对自己的喜恶风向,股民也可以通过公司舆情来辅助判断是否该买入和卖出股票。在各大门户网站的众多新闻中,如何通过技术手段准确地提取新闻中目标公司以及判断新闻中内容对目标公司是否利好,成为一个需要解决的问题。目前市场中的情感分析方案多采用基于规则词典或纯模型方式,针对的是文本整体的情感而不是针对目标的情感。这种方式存在正确率不高的问题,如标注的财经领域数据测试百度情感分析接口,正确率不到7成。
技术实现思路
本专利技术的目的在于针对现有技术的上述问题,提供一种情感分析方法、系统、计算机终端及存储介质用于解决现有技术的不足。具体地,本专利技术提供了一种情感分析方法,包括:获取待分析文本内容,识别所述待分析文本内容中的目标对象;对所述待分析文本内容进行分词处理;将分词处理得到的词输入预训练的分词字典,得到对应每个词的词向量;采用情感词典优化所述词向量;将所述目标对象和优化后的词向量输入情感分析模型,计算得到所述待分析文本内容针对所述目标对象的情感倾向概率。作为上述技术方案的进一步改进,所述方法还包括:建立针对所述目标对象的目标词典,采用所述目标词典筛选包括所述目标对象的名称的文本内容作为待分析文本集;计算所述待分析文本集中每一条待分析文本中针对所述目标对象的情感倾向概率,得到情感倾向概率集;根据所述情感倾向概率集确定所述待分析文本集针对所述目标对象的情感倾向。作为上述技术方案的进一步改进,所述方法还包括:为所述目标对象分配一个标识,所述识别所述待分析文本内容中的目标对象后用所述标识替换文本内容中的所述目标对象。作为上述技术方案的进一步改进,所述采用情感词典优化所述词向量包括:利用所述情感词典在通过所述计算得到的词向量中添加一个包括三个情感级别的情感类型维度,所述情感级别包括正面情感级别、负面情感级别、和中性情感级别;利用所述词向量中相应情感级别的预设情感分数值调整所述词向量。作为上述技术方案的进一步改进,所述识别所述待分析文本内容中的目标对象包括:将所述待分析文本内容输入预先训练好的实体识别模型,所述实体识别模型将所述待分析文本内容分为若干个字符,为每个字符分配初始向量,按照从前往后的第一顺序和从后往前的第二顺序同时计算各字符在文本中出现位置的相应概率,根据该概率确定各字符在文本内容中的位置,根据该位置识别出由字符组成的目标对象。作为上述技术方案的进一步改进,所述计算得到所述待分析文本内容中针对目标对象的情感倾向概率包括:将包括标识的分词和所述调整后的词向量输入情感分析模型,所述情感分析模型根据各分词调整后的词向量对包括标识的分词的词向量的倾向性计算得到所述各分词对所述标识的情感倾向概率。作为上述技术方案的进一步改进,所述分词字典的预训练包括:获取待分析文本内容所属领域的语料信息;将所述语料信息进行预处理后输入Word2vec算法得到对应各词的词向量,收集各词的词向量得到分词字典;所述预处理包括分句处理,基于分句处理结果进行分词处理并删除去掉词长度小于设定长度阈值的词。作为一个总的技术构思,本专利技术还提供一种情感分析系统,包括:获取单元,用于获取待分析文本内容,识别所述待分析文本内容中的目标对象;分词单元,用于对所述待分析文本内容进行分词处理;计算单元,用于将分词处理得到的词输入预训练的分词字典,得到对应每个词的词向量;优化单元,用于采用情感词典优化所述词向量;分析单元,用于将所述目标对象和优化后的词向量输入情感分析模型,计算得到所述待分析文本内容中针对所述目标对象的情感倾向概率。作为一个总的技术构思,本专利技术还提供一种计算机终端,包括:处理器和存储器;所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机终端执行根据所述的情感分析方法。作为一个总的技术构思,本专利技术还提供一种计算机可读存储存储介质,其存储有计算机程序,所述计算机程序被执行时实施所述的情感分析方法。与现有技术相比,本专利技术实施例提出了一种情感分析方法,通过对待分析文本内容进行分词处理后,计算每个分词的词向量,并进一步采用情感词典优化词向量,得到待分析文本内容针对每个目标对象的情感倾向概率;该方法可以高效准确地计算分析结果,能实现较好地提取和判断文本对于目标对象的情感,适用性强。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对本专利技术保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。图1示出了本专利技术中情感分析方法的流程图;图2示出了本专利技术中实体识别模型的分析流程图;图3示出了本专利技术中情感分析模型的分析流程图;图4示出了本专利技术中情感分析系统的结构示意图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有中性实施例,都属于本专利技术保护的范围。在下文中,可在本专利技术的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本专利技术的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关
中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本专利技术的各种实施例中被清楚地限定。需要说明的是,待分析的文本内容可以是获取的某一句话、某一个段落、或者某一篇文章,其类型可以是新闻、论文或者广告等中性类型的文本。如图1所示,本专利技术提供的情感分析方法,包括:101:获取待分析文本内容,识别所述待分析文本内容中的目标对象;...

【技术保护点】
1.一种情感分析方法,其特征在于,包括:/n获取待分析文本内容,识别所述待分析文本内容中的目标对象;/n对所述待分析文本内容进行分词处理;/n将分词处理得到的词输入预训练的分词字典,得到对应每个词的词向量;/n采用情感词典优化所述词向量;/n将所述目标对象和优化后的词向量输入情感分析模型,计算得到所述待分析文本内容针对所述目标对象的情感倾向概率。/n

【技术特征摘要】
1.一种情感分析方法,其特征在于,包括:
获取待分析文本内容,识别所述待分析文本内容中的目标对象;
对所述待分析文本内容进行分词处理;
将分词处理得到的词输入预训练的分词字典,得到对应每个词的词向量;
采用情感词典优化所述词向量;
将所述目标对象和优化后的词向量输入情感分析模型,计算得到所述待分析文本内容针对所述目标对象的情感倾向概率。


2.根据权利要求1所述的情感分析方法,其特征在于,所述方法还包括:
建立针对所述目标对象的目标词典,采用所述目标词典筛选包括所述目标对象的名称的文本内容作为待分析文本集;
计算所述待分析文本集中每一条待分析文本中针对所述目标对象的情感倾向概率,得到情感倾向概率集;
根据所述情感倾向概率集确定所述待分析文本集针对所述目标对象的情感倾向。


3.根据权利要求1所述的情感分析方法,其特征在于,还包括:
为所述目标对象分配一个标识,所述识别所述待分析文本内容中的目标对象后用所述标识替换文本内容中的所述目标对象。


4.根据权利要求3所述的情感分析方法,其特征在于,所述采用情感词典优化所述词向量包括:
利用所述情感词典在通过所述计算得到的词向量中添加一个包括三个情感级别的情感类型维度,所述情感级别包括正面情感级别、负面情感级别、和中性情感级别;
利用所述词向量中相应情感级别的预设情感分数值调整所述词向量。


5.根据权利要求1所述的情感分析方法,其特征在于,所述识别所述待分析文本内容中的目标对象包括:
将所述待分析文本内容输入预先训练好的实体识别模型,所述实体识别模型将所述待分析文本内容分为若干个字符,为每个字符分配初始向量,按照从前往后的第一顺序和从后往前的第二顺序同时计算各字符在文本中出现位置...

【专利技术属性】
技术研发人员:陈烨胡祎赵双喜曹蒙蒙
申请(专利权)人:上海烨睿信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1