文本极性识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号:21454152 阅读:23 留言:0更新日期:2019-06-26 04:50
本申请公开了一种文本极性识别方法、装置、设备及可读存储介质,涉及人工智能领域。该方法包括:获取目标文本内容;对目标文本内容进行分词处理,得到n个分词词汇;通过机器学习模型对n个分词词汇的词汇极性值进行识别,机器学习模型中包括极性词汇表,其中包括种子词汇和语料词汇,语料词汇的极性值是根据训练语料以及种子词汇的极性值确定的;根据分词词汇的极性值确定目标文本内容的极性。通过预先标注有极性值的种子词汇确定语料词汇的极性值,避免了由于词汇极性仅能通过人为标注,且极性词汇表中需要大量的参考词汇而导致的消耗大量人力资源以及时间资源的问题,语料词汇的极性值的标注效率较高。

【技术实现步骤摘要】
文本极性识别方法、装置、设备及可读存储介质
本申请实施例涉及人工智能领域,特别涉及一种文本极性识别方法、装置、设备及可读存储介质。
技术介绍
在人工智能领域,对文本内容进行处理时,可采用的处理方式包括文本翻译、文本极性分类、文本语义理解等方式,其中,文本分类是指根据文本内容对该文本内容的极性进行识别的方式,该极性用于对文本内容所表达的结果进行区分,如:在金融领域,当文本内容为上涨时,则表达的极性为正面极性,当文本内容为下跌时,则表达的极性为负面极性。相关技术中,在对文本内容的极性进行识别时,是通过预设神经网络模型进行识别的。而该预设神经网络模型中包括极性词汇表,该极性词汇表中包括标注有极性的词汇,根据该极性词汇表中的词汇对文本内容的极性进行识别。然而,通过上述技术进行文本分类时,由于预设神经网络模型中的极性词汇表中的词汇是通过人为标注词汇极性的,在对文本极性进行识别的过程中,极性词汇表中需要有大量的词汇参与识别以确保识别的准确性,而人为对词汇极性进行标注的效率较低,标注过程需要耗费大量的资源。
技术实现思路
本申请实施例提供了一种文本极性识别方法、装置、设备及可读存储介质,可以解决人为对词汇极性进行标注的效率较低,标注过程需要耗费大量的资源的问题。所述技术方案如下:一方面,提供了一种文本极性识别方法,所述方法包括:获取目标文本内容,所述目标文本内容为待识别极性的文本内容;对所述目标文本内容进行分词处理,得到n个分词词汇,n为正整数;通过机器学习模型对所述n个分词词汇的词汇极性值进行识别,其中,所述机器学习模型中包括与所述目标文本内容属于同一领域的极性词汇表,所述极性词汇表中包括标注有极性值的参考词汇,所述参考词汇中包括种子词汇和语料词汇,所述种子词汇的极性值为预先标注的,所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的;根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。另一方面,提供了一种文本极性识别装置,所述装置包括:获取模块,用于获取目标文本内容,所述目标文本内容为待识别极性的文本内容;处理模块,用于对所述目标文本内容进行分词处理,得到n个分词词汇,n为正整数;识别模块,用于通过机器学习模型对所述n个分词词汇的词汇极性值进行识别,其中,所述机器学习模型中包括与所述目标文本内容属于同一领域的极性词汇表,所述极性词汇表中包括标注有极性值的参考词汇,所述参考词汇中包括种子词汇和语料词汇,所述种子词汇的极性值为预先标注的,所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的;确定模块,用于根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的文本极性识别方法。另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的文本极性识别方法。另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述本申请实施例中提供的文本极性识别方法。本申请实施例提供的技术方案带来的有益效果至少包括:在对文本极性进行识别时,所应用的极性词汇表中的参考词汇中包括种子词汇和语料词汇,而语料词汇的极性值是通过预先标注有极性值的种子词汇确定的,也即通过种子词汇的极性值自动对语料词汇的极性值进行标注,避免了由于词汇极性仅能通过人为标注,且极性词汇表中需要大量的参考词汇而导致的消耗大量人力资源以及时间资源的问题,语料词汇的极性值的标注效率较高。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的实施环境的示意图;图2是本申请一个示例性实施例提供的文本极性识别方法的流程图;图3是基于图2示出的实施例提供的文本极性识别方法的数据流示意图;图4是基于图3示出的数据流提供的另一个文本极性识别方法的流程图;图5是基于图4示出的实施例提供的CBOW模型的应用示意图;图6是基于图4示出的实施例提供的文本分词后的训练样本示意图;图7是本申请另一个示例性实施例提供的文本极性识别方法的流程图;图8是基于图7示出的实施例提供的结合上下文词汇确定目标词汇的极性的流程图;图9是本申请一个示例性实施例提供的文本极性识别方法的系统流程示意图;图10是本申请一个示例性实施例提供的文本极性识别装置的结构框图;图11是本申请另一个示例性实施例提供的文本极性识别装置的结构框图;图12是本申请一个示例性实施例提供的服务器的结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。首先,对本申请实施例中涉及的名词进行简单介绍:极性:是指事物向特定方向发展的倾向或趋势,可选地,极性可以分为正面极性和负面极性,如:在金融领域中,金融产品的上涨对应正面极性,金融产品的下跌对应负面极性。可选地,极性还可以分为正面极性、负面极性和中间极性,示意性的,在金融领域中,当金融产品既未上涨,也未下跌时,则该金融产品的走势对应中间极性。可选地,正面极性用于表示发展情况较好的趋势,负面极性用于表示发展情况较差的趋势。可选地,本申请实施例中,以极性值的方式对词汇以及文本的极性进行表示,也即,以数值的方式对词汇以及文本的极性进行表示,可选地,该极性值可以通过2个值对正面极性和负面极性进行表示,如:1表示正面极性,-1表示负面极性;也可以通过不固定的值对在正面极性和负面极性之间的偏向进行表示,如:0.8、0.7表示偏向正面极性,-0.6、-0.8表示偏向负面极性。示意性的,在金融领域中,“利好、上涨、牛市”等词汇的极性值为1,“利空、下跌、熊市”等词汇的极性值为-1,其中,当极性值大于0.5时表示为正面极性,当极性值小于-0.5时表示为负面极性,当极性值在0.5与-0.5之间时表示为中间极性。可选地,上述极性值标注方式仅为示意性的举例,实际操作过程中,还可以以十分制的方式、百分制的方式对极性值进行标注等,本申请实施例对极性值的标注形式不做限定。在人工智能领域中,存在多种对文本内容进行处理的方式,其中,文本极性识别是一种通过对目标文本内容所属的极性进行识别的技术,而本申请提供的文本极性识别方法可以应用于如下场景中的至少一种:第一,该文本极性识别方法应用于金融应用程序中,该金融应用程序中推送有金融相关的新闻信息,通过获取新闻信息,并对新闻信息中的新闻内容进行极性识别,将识别得到的极性向用户进行展示,用户可以根据识别得到的极性对金融产品的走势或金融行业的整体发展情况进行分析及预测;第二,该文本极性识别方法应用于影视评价系统中,该影视评价系统可以是影本文档来自技高网...

【技术保护点】
1.一种文本极性识别方法,其特征在于,所述方法包括:获取目标文本内容,所述目标文本内容为待识别极性的文本内容;对所述目标文本内容进行分词处理,得到n个分词词汇,n为正整数;通过机器学习模型对所述n个分词词汇的词汇极性值进行识别,其中,所述机器学习模型中包括与所述目标文本内容属于同一领域的极性词汇表,所述极性词汇表中包括标注有极性值的参考词汇,所述参考词汇中包括种子词汇和语料词汇,所述种子词汇的极性值为预先标注的,所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的;根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。

【技术特征摘要】
1.一种文本极性识别方法,其特征在于,所述方法包括:获取目标文本内容,所述目标文本内容为待识别极性的文本内容;对所述目标文本内容进行分词处理,得到n个分词词汇,n为正整数;通过机器学习模型对所述n个分词词汇的词汇极性值进行识别,其中,所述机器学习模型中包括与所述目标文本内容属于同一领域的极性词汇表,所述极性词汇表中包括标注有极性值的参考词汇,所述参考词汇中包括种子词汇和语料词汇,所述种子词汇的极性值为预先标注的,所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的;根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。2.根据权利要求1所述的方法,其特征在于,所述极性词汇表是通过如下方法确定的:获取已标注有所述极性值的所述种子词汇;获取所述训练语料,其中,所述训练语料、所述种子词汇以及所述目标文本内容皆属于同一领域;对所述训练语料进行分词处理,得到所述语料词汇;提取所述种子词汇的第一词汇向量以及所述语料词汇的第二词汇向量;根据所述第一词汇向量和所述第二词汇向量之间的距离,以及所述种子词汇的所述极性值确定所述语料词汇的所述极性值;根据标注有所述极性值的所述语料词汇和所述种子词汇确定所述极性词汇表。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一词汇向量和所述第二词汇向量之间的距离,以及所述种子词汇的所述极性值确定所述语料词汇的所述极性值,包括:根据所述第一词汇向量和所述第二词汇向量之间的距离,确定与所述语料词汇相似度最高的目标种子词汇;将所述目标种子词汇与所述语料词汇的相似度和所述目标种子词汇的所述极性值的乘积,作为所述语料词汇的所述极性值。4.根据权利要求1所述的方法,其特征在于,所述通过机器学习模型对所述n个分词词汇的词汇极性值进行识别,包括:提取所述n个分词词汇的词向量;针对所述n个分词词汇中的目标词汇,确定所述目标词汇的上下文词汇的目标词向量之和;从所述极性词汇表中抽取k个所述参考词汇,并提取k个所述参考词汇的词向量,k为正整数;确定k个所述参考词汇的参考词向量之和;将所述目标词向量之和以及所述参考词向量之和代入损失函数,计算得到所述目标词汇的所述词汇极性值。5.根据权利要求4所述的方法,其特征在于,所述损失函数包括第一损失函数以及第二损失函数;将所述目标词向量之和以及所述参考词向量之和代入损失函数,计算得到所述目标词汇的所述词汇极性值,包括:将所述目标词向量之和以及所述参考词向量之和代入所述第一损失函数,计算得到所述目标词汇的第一极性值,其中,所述第一损失函数用于根据所述目标词向量之和与第一激励函数的乘积以及所述参考词向量之和与第二激励函数的乘积计算所述第一极性值;将所述目标词向量之和代入所述第二损失函数,计算得到所述目标词汇的第二极性值,其中,所述第二损失函数用于根据所述目标词向量之和与预测矩阵的乘积计算所述第二极性值;计算所述第一极性值和所述第二极性值之和,得到所述目标词汇的所述词汇极性值。6.根据权利要求4或5所述的方法,其特征在于,所述目标词汇的上下文词汇包括位于所述目标词汇之前距离所述目标词汇最近的两个词汇,以及位于所述目标词汇之后距离所述目标词汇最近的两个词汇。7.根据权利要求1至5任一所述的方法,其特征在于,所述方法应用于金融领域,所述目标文本内容以及所述极性词汇表皆属于所述金融领域,所述种子词汇包括从所述极性值标注为1的利好、上涨、牛市组成的群组中选择的至少一个,以及从所述极性值标注为-1的利空、下跌、熊市组成的群组中选择的至少一个,其中,当所述极性值大于0.5时表示为正面极性,当所述极性值小于-0.5时表示为负面极性,当所述极性值在0.5与-0.5之间时表示为中间极性;或,所述方法应用于影视评论领域,所述目标文本内容以及所述极性词汇表皆属于所述影视评论领域,所述种子词汇包括从所述极性值标注为1的佳片、好看、推荐组成的群组中选择的至少一个,以及从所述极性值标注为-1的无趣、低分、不推荐组成的群组中选择的至少一个,其中,当所述极性值大于0.5时表示为正面极性,当所述极性值小于-0.5时表示为负面极性,当所述极性值在0.5与-0.5之间时表示为中间极性;或,所述方法应用于购物评论领域,所述目标文本内容以及所述极性...

【专利技术属性】
技术研发人员:侯皓文
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1