一种基于神经网络的鱼病描述情感词的提取方法技术

技术编号:33706517 阅读:17 留言:0更新日期:2022-06-06 08:30
一种基于神经网络的鱼病描述情感词的提取方法,其属于情感词分析的技术领域。该方法是在先验知识的基础之上,通过神经网络去学习文本语义信息中的情感知识的部分,从而辅助远程疾病诊断。具体表现为,在输入端由用户提供的一系列鱼病描述,然后加上人工标注的鱼病方面类别和情感极性构成数据集传入预训练模型,转化为词向量,传入序列模型处理语句中的时序关系。最后把处理好的语义信息传入分类模型中去,完成鱼病描述中情感词的提取和分析。与现有的基于专家系统的鱼病诊断方法相比,本发明专利技术是为了减少对先验知识和规则的依赖,去提取语义信息中的情感词部分。义信息中的情感词部分。义信息中的情感词部分。

【技术实现步骤摘要】
一种基于神经网络的鱼病描述情感词的提取方法


[0001]本专利技术涉及基于方面的情感词分析的
,尤其涉及一种基于神经网络的鱼病描述情感词的提取方法。

技术介绍

[0002]随着计算机技术的发展,使用互联网的人数高速增长,截止目前为止,全球手机用户超过50亿,互联网用户也达到45亿。这其中社交媒体用户有42亿。这些数字占了世界总人口的多数。可以想象互联网每天都会产生难以想象的数量。这种级别的数据给了人工智能高速发展的机会,同时人工智能也深深改变了我们的生活方式。
[0003]自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要方向,是一门研究如何让机器理解人类语言的学科,研究能实现人与计算机之间用自然语言进行有效交互的方法。同时随着网络使用人数的增加,越来越多的人可以再社交平台上发表自己的观点,分享自己的想法。因此在诸多开放性的平台上,有着众多带有情感色彩和倾向性的言论。这些言论的分析对于现实有种重大意义。不仅可以预测客户的喜好,人民的感情基调,同时可以对风险进行预估。所以现阶段情感分析任务十分关键。
[0004]近年来,情感分析成为了NLP中最活跃的研究方向之一,在信息检索,文本挖掘中有着广泛应用。由于互联网作为一个表达和分享的重要社交平台,他给用户带来了丰富的包含了情感倾向的话题。而文本情感分析是对这类带有情感倾向的文本进行分析,处理,归纳和推理的过程。其中基于方面的情感分析子任务帮助商家和企业获得有价值的反馈信息,从而改善他们的产品。到目前为止,对基于方面的情感分析主要在常规领域内的文本数据集。很少有人去关注鱼类疾病等专业领域的包含人类情感倾向的文本,但是这类文本描述中越来越多的会使用到人类情感倾向的形容词,程度词来表达专业人员的观点和想法。这些带有大量情感倾向的鱼类疾病描述文本使得我们能够完成对不同方面的情感提取和分析。

技术实现思路

[0005]本专利技术的目的在于针对现有技术的不足,提供一种借助神经网络的方式来进行鱼病描述的语义分析,特别是着眼于文本中的情感词。本专利技术基于预训练模型进行文本向量化,序列模型处理文本时序关系,分类模型完成方面和情感极性预测。而在数据处理上,设置了专用的数据迭代器,符合模型输入格式。在输出端,输出结果是预先定义好的方面集合和情感极性集合。在这一过程,除开数据准备和标注过程是人工进行,其余部分都是自动进行的。
[0006]本专利技术提供的一种基于神经网络的鱼病描述情感词的提取方法,具体实现过程如下:
[0007]第一步:基于线下鱼病诊断过程,进行方面和情感极性划分。首先是根据现实依据,在诊断过程中主要是临床表现为主,时空因素为辅。所以我们将鱼病描述划分为两大
类:1.临床因素,2.时空因素。然后是具体分析所收集的文本数据特征,予以细分,其中临床因素由体表,体内,体态,体格和鱼鳃五个方面组成,时空因素由环境和时节两部分组成。然后是对于情感极性划分我们在参考文本数据之后,发现由于现实问题是鱼病诊断,所以文本中都是中性或者消极描述,所以结合具体问题我们将情感极性划分为积极,中性,偏消极,消极这四种。综上所述,鱼病描述由7个方面组成,情感极性由四种程度组成。
[0008]环境:指的是鱼所处的周围环境,水体环境和地理环境等。
[0009]时节:指的是鱼每年所处的的季节,月份和每日所处的早晚等。
[0010]体表:指的是皮肤上的病症表现和口部特征。
[0011]体内:指的是鱼体内特征,如肠胃,内脏。
[0012]体态:指的是鱼的外部表现,如:进食表现,活跃表现等
[0013]体格:指的是鱼的体长,重量,胖瘦等
[0014]鱼鳃:指的是鱼鳃这一部位的状态。
[0015]第二步:是对数据集的处理,把收集到的鱼类疾病描述进行预处理,剔除空格和非中文字符。然后进行人工标注方面类别和情感极性,本方法采用的是三人标注同一数据集,标注结果由得票数多的决定。在这之后,从数据分布,数据标注分布和数据组内相关系数三个方面对数据集。最后把整个数据集按照6:2:2,划分为训练集,验证集和测试集,到这里就完成。
[0016]第三步:结合神经网络,进行文本向量化,文本时序处理,分类预测。
[0017]A.首先我们需要把三份数据集整合成三个数据迭代器,迭代器的配置按照BERT模型的规格传入(中文BERT模型所需句子长度最长为32),同时考虑设备所能提供的算力,我们把Batch的大小设为8,即一次只传入8个句子。在通过BERT模型之后,文本变会被转化为文本向量。
[0018]B.由于是文本向量,其包含了大量时序信息,所以我们需要将转化后的文本向量传入序列模型中(BiLSTM+Attention)中处理,与此同时模型的参数在不断优化。在考虑的设备算力,我们吧BiLSTM的隐藏层大小设置为512。
[0019]C.最后,由于问题本身是一个情感分析的任务,是属于分类任务的范畴,所以我们在序列模型之后选择普通的layer层作为分类层。
[0020]第四步:具体应用过程,在整个模型通过训练后达到一个参数最优的状态。此时,便可把具体的病鱼描述按句传入模型,模型便可输出病鱼描述的方面和情感色彩,得到便是病鱼描述的语义信息用于辅助鱼病诊断。
[0021]本专利技术的有益效果是:现有远程鱼病诊断方法都依赖于专家的先验知识和系统规则制定上。这一过程忽略了数据信息,而本专利技术就是为了提取数据信息中情感信息部分。在已有系统的基础上结合神经网络,使得能够自动识别鱼病描述中方面和情感极性。与现有的方法相比,本专利技术优化现有的鱼病诊断专家系统和填充基于语义信息鱼病诊断的空白。同时本专利技术也减少了人工参与,提高了效率。我们发现在我们使用简单的BERT+特征提取的方式去训练分类器,都能达到81%

84%效果,这证明了我们提出的数据集有很高质量。
附图说明
[0022]图1是一种基于神经网络的鱼病描述情感词的提取方法流程图。
[0023]图2是一种基于神经网络的鱼病描述情感词的提取方法模型结构图。
具体实施方式
[0024]下面结合附图和具体实施例对本专利技术作进一步详细说明。
[0025]如图1所示,为本专利技术提出一种基于神经网络的鱼病描述情感词方法,包括以下步骤:
[0026]第一步:基于线下鱼病诊断过程,进行方面和情感极性划分。首先是根据现实依据,在诊断过程中主要是临床表现为主,时空因素为辅。所以我们将鱼病描述划分为两大类:1.临床因素,2.时空因素。然后是具体分析所收集的文本数据特征,予以细分,其中临床因素由体表,体内,体态,体格和鱼鳃五个方面组成,时空因素由环境和时节两部分组成。然后是对于情感极性划分我们在参考文本数据之后,发现由于现实问题是鱼病诊断,所以文本中都是中性或者消极描述,所以结合具体问题我们将情感极性划分为积极,中性,偏消极,消极这四种。综上所述,鱼病描述由7个方面组成,情感极性由四种程度组成,具体数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的鱼病描述情感词的提取方法,其特征在于,主要包含以下步骤:S1.基于线下鱼病诊断过程,进行方面类别和情感极性划分;S11.方面类别划分根据在诊断过程中临床表现为主,时空因素为辅的前提,将鱼病描述划分为两大类:临床因素和时空因素;具体分析所收集的文本数据特征,予以细分;其中临床因素包括体表、体内、体态、体格和鱼鳃五个方面,时空因素包括环境和时节两部分;S13.情感极性划分结合参考文本与具体问题,将情感极性划分为积极、中性、偏消极、消极;因此,鱼病描述的方面包括体表、体内、体态、体格、鱼鳃、环境和时节共7个方面类别,情感极性包括积极、中性、偏消极、消极四种;S2.对数据集的处理:S21.把收集到的鱼类疾病描述进行预处理,剔除空格和非中文字符;S22.进行人工标注方面类别和情感极性,采用三人标注同一数据集,标注结果由得票数多的决定;S23.从数据分布、数据标注分布和数据组内相关系数三个方面对数据集进行数据分析,并将数据集按照6:2:2划分为训练集、验证集和测试集;S3.基于神经网络的鱼病描述情感词方法模型包括三大部分:一是语义嵌入层,得到向量化后的文本表示;二是语义决策层,通过序列模型获得深层语义信息;三是分类层,用于预测情感类别和情感极性;具体包括以下内容:S31.语义嵌入层:把训练集、验证集和测试集三份数据集整合成三个数据迭代器,迭代器的配置按照BERT模型的规格传入,设置Batch为8,即一次只传入8个句子;把迭代器中的数据传入BERT模型转化为文本向量,具体操作步骤如下:(1)传入一个Batch大小的文本序列T={t0,t1,t2,t3,t4,t5,t6,t7},每个t={w1,w2,w3,w4,...,wn}由n个词组成;(2)文本序列T中的每个文本序列t会通过利用BERT被映射到一个维度固定的向量空间,获得其初始的word embedding,文本序列t中每个词组w会根据其所属句子和所处句中位置获得一个segment embedding和position embedding;(3)把三个向量相加获得每个词组w的输入向量x;Bert中一共有12层transformer,每个transformer中有Encoder和Decoder分别对传入词向量进行编码和解码;在编码和解码过程中不断通过前馈神经网络和归一化;最终在输出端得到一个768维度词向量;hi=Bert(xi)i∈(1,N)
ꢀꢀꢀꢀ...

【专利技术属性】
技术研发人员:张思佳吴杰丛子涵姜鑫于英囡孙华刘明剑
申请(专利权)人:大连海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1