文本极性识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号：21454152 阅读：23 留言：0更新日期：2019-06-26 04:50

本申请公开了一种文本极性识别方法、装置、设备及可读存储介质，涉及人工智能领域。该方法包括：获取目标文本内容；对目标文本内容进行分词处理，得到n个分词词汇；通过机器学习模型对n个分词词汇的词汇极性值进行识别，机器学习模型中包括极性词汇表，其中包括种子词汇和语料词汇，语料词汇的极性值是根据训练语料以及种子词汇的极性值确定的；根据分词词汇的极性值确定目标文本内容的极性。通过预先标注有极性值的种子词汇确定语料词汇的极性值，避免了由于词汇极性仅能通过人为标注，且极性词汇表中需要大量的参考词汇而导致的消耗大量人力资源以及时间资源的问题，语料词汇的极性值的标注效率较高。

全部详细技术资料下载

【技术实现步骤摘要】
文本极性识别方法、装置、设备及可读存储介质
本申请实施例涉及人工智能领域，特别涉及一种文本极性识别方法、装置、设备及可读存储介质。
技术介绍
在人工智能领域，对文本内容进行处理时，可采用的处理方式包括文本翻译、文本极性分类、文本语义理解等方式，其中，文本分类是指根据文本内容对该文本内容的极性进行识别的方式，该极性用于对文本内容所表达的结果进行区分，如：在金融领域，当文本内容为上涨时，则表达的极性为正面极性，当文本内容为下跌时，则表达的极性为负面极性。相关技术中，在对文本内容的极性进行识别时，是通过预设神经网络模型进行识别的。而该预设神经网络模型中包括极性词汇表，该极性词汇表中包括标注有极性的词汇，根据该极性词汇表中的词汇对文本内容的极性进行识别。然而，通过上述技术进行文本分类时，由于预设神经网络模型中的极性词汇表中的词汇是通过人为标注词汇极性的，在对文本极性进行识别的过程中，极性词汇表中需要有大量的词汇参与识别以确保识别的准确性，而人为对词汇极性进行标注的效率较低，标注过程需要耗费大量的资源。
技术实现思路
本申请实施例提供了一种文本极性识别方法、装置、设备及可读存储介质，可以解决人为对词汇极性进行标注的效率较低，标注过程需要耗费大量的资源的问题。所述技术方案如下：一方面，提供了一种文本极性识别方法，所述方法包括：获取目标文本内容，所述目标文本内容为待识别极性的文本内容；对所述目标文本内容进行分词处理，得到n个分词词汇，n为正整数；通过机器学习模型对所述n个分词词汇的词汇极性值进行识别，其中，所述机器学习模型中包括与所述目标文本内容属于同一领域的极性词汇表，所...

【技术保护点】
1.一种文本极性识别方法，其特征在于，所述方法包括：获取目标文本内容，所述目标文本内容为待识别极性的文本内容；对所述目标文本内容进行分词处理，得到n个分词词汇，n为正整数；通过机器学习模型对所述n个分词词汇的词汇极性值进行识别，其中，所述机器学习模型中包括与所述目标文本内容属于同一领域的极性词汇表，所述极性词汇表中包括标注有极性值的参考词汇，所述参考词汇中包括种子词汇和语料词汇，所述种子词汇的极性值为预先标注的，所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的；根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。

【技术特征摘要】
1.一种文本极性识别方法，其特征在于，所述方法包括：获取目标文本内容，所述目标文本内容为待识别极性的文本内容；对所述目标文本内容进行分词处理，得到n个分词词汇，n为正整数；通过机器学习模型对所述n个分词词汇的词汇极性值进行识别，其中，所述机器学习模型中包括与所述目标文本内容属于同一领域的极性词汇表，所述极性词汇表中包括标注有极性值的参考词汇，所述参考词汇中包括种子词汇和语料词汇，所述种子词汇的极性值为预先标注的，所述语料词汇的极性值是根据训练语料以及所述种子词汇的所述极性值确定的；根据所述n个分词词汇的所述词汇极性值确定所述目标文本内容的极性。2.根据权利要求1所述的方法，其特征在于，所述极性词汇表是通过如下方法确定的：获取已标注有所述极性值的所述种子词汇；获取所述训练语料，其中，所述训练语料、所述种子词汇以及所述目标文本内容皆属于同一领域；对所述训练语料进行分词处理，得到所述语料词汇；提取所述种子词汇的第一词汇向量以及所述语料词汇的第二词汇向量；根据所述第一词汇向量和所述第二词汇向量之间的距离，以及所述种子词汇的所述极性值确定所述语料词汇的所述极性值；根据标注有所述极性值的所述语料词汇和所述种子词汇确定所述极性词汇表。3.根据权利要求2所述的方法，其特征在于，所述根据所述第一词汇向量和所述第二词汇向量之间的距离，以及所述种子词汇的所述极性值确定所述语料词汇的所述极性值，包括：根据所述第一词汇向量和所述第二词汇向量之间的距离，确定与所述语料词汇相似度最高的目标种子词汇；将所述目标种子词汇与所述语料词汇的相似度和所述目标种子词汇的所述极性值的乘积，作为所述语料词汇的所述极性值。4.根据权利要求1所述的方法，其特征在于，所述通过机器学习模型对所述n个分词词汇的词汇极性值进行识别，包括：提取所述n个分词词汇的词向量；针对所述n个分词词汇中的目标词汇，确定所述目标词汇的上下文词汇的目标词向量之和；从所述极性词汇表中抽取k个所述参考词汇，并提取k个所述参考词汇的词向量，k为正整数；确定k个所述参考词汇的参考词向量之和；将所述目标词向量之和以及所述参考词向量之和代入损失函数，计算得到所述目标词汇的所述词汇极性值。5.根据权利要求4所述的方法，其特征在于，所述损失函数包括第一损失函数以及第二损失函数；将所述目标词向量之和以及所述参考词向量之和代入损失函数，计算得到所述目标词汇的所述词汇极性值，包括：将所述目标词向量之和以及所述参考词向量之和代入所述第一损失函数，计算得到所述目标词汇的第一极性值，其中，所述第一损失函数用于根据所述目标词向量之和与第一激励函数的乘积以及所述参考词向量之和与第二激励函数的乘积计算所述第一极性值；将所述目标词向量之和代入所述第二损失函数，计算得到所述目标词汇的第二极性值，其中，所述第二损失函数用于根据所述目标词向量之和与预测矩阵的乘积计算所述第二极性值；计算所述第一极性值和所述第二极性值之和，得到所述目标词汇的所述词汇极性值。6.根据权利要求4或5所述的方法，其特征在于，所述目标词汇的上下文词汇包括位于所述目标词汇之前距离所述目标词汇最近的两个词汇，以及位于所述目标词汇之后距离所述目标词汇最近的两个词汇。7.根据权利要求1至5任一所述的方法，其特征在于，所述方法应用于金融领域，所述目标文本内容以及所述极性词汇表皆属于所述金融领域，所述种子词汇包括从所述极性值标注为1的利好、上涨、牛市组成的群组中选择的至少一个，以及从所述极性值标注为-1的利空、下跌、熊市组成的群组中选择的至少一个，其中，当所述极性值大于0.5时表示为正面极性，当所述极性值小于-0.5时表示为负面极性，当所述极性值在0.5与-0.5之间时表示为中间极性；或，所述方法应用于影视评论领域，所述目标文本内容以及所述极性词汇表皆属于所述影视评论领域，所述种子词汇包括从所述极性值标注为1的佳片、好看、推荐组成的群组中选择的至少一个，以及从所述极性值标注为-1的无趣、低分、不推荐组成的群组中选择的至少一个，其中，当所述极性值大于0.5时表示为正面极性，当所述极性值小于-0.5时表示为负面极性，当所述极性值在0.5与-0.5之间时表示为中间极性；或，所述方法应用于购物评论领域，所述目标文本内容以及所述极性...

【专利技术属性】
技术研发人员：侯皓文，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人