【技术实现步骤摘要】
一种基于义原的自然语言情感分类方法
本专利技术涉及一种基于义原的自然语言情感分类方法,属于自然语言处理中的信息分类
技术介绍
自然语言情感分类任务是给定一段自然语言文本,返回这个自然语言文本正负向倾向。例如“读书是一件很有趣的事情”,这句话传递出的是一种正向的情感倾向。自然语言情感分类是是近年来学术界和工业界研究的热点。它能够帮助用户快速的分析并且提取相关的带有情感色彩的评价信息。这与传统的文本分类任务不同,传统的文本分类主要研究的是文本中的客观内容,而情感分类主要针对的是文本中的主观内容,能够输出是否支持某种观点的信息。现有的自然语言情感分类方法,主要是通过构建极性词表的方法来实现情感分类,由于一些文本中的词的正负极性不明显,导致这样的方法难以对其进行分类。为了缓解这样的问题,本专利技术通过启发式的假设句子中的义原信息的正负向极性是文本中蕴含情感信息的重要特征,将文本映射到义原所在空间中,从而利用义原本身所包含的极性信息来进行情感分类。提出了一种基于义原的自然语言情感分类方法。我们提出的一 ...
【技术保护点】
1.一种基于义原的自然语言情感分类方法,其特征在于:包括义原正负向极性的标注和文本情感分类,具体包括以下步骤:/n步骤1:提取义原的极性特征;/n步骤1.1:对HowNet知识库中所有义原标注其属于正向极性还是负向极性,输出标注后的义原列表L:S
【技术特征摘要】
1.一种基于义原的自然语言情感分类方法,其特征在于:包括义原正负向极性的标注和文本情感分类,具体包括以下步骤:
步骤1:提取义原的极性特征;
步骤1.1:对HowNet知识库中所有义原标注其属于正向极性还是负向极性,输出标注后的义原列表L:Si→Yi;
其中Yi的取值为0或1,分别表示该词极性为负向和正向;
步骤1.2:将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原Si进行匹配,输出将词映射到正负向极性的字典D:Ci→Yi;
步骤2:将数据集中的文本进行分词;
步骤2.1:使用Stanford分词开源工具将句子进行分词;
步骤2.2:将分词后的句子进行正负向情感标注,从而构建训练集样本,具体为:如果句子中只有一个分词后的词能与字典D中的某个词Ci匹配,则将该文本标记为当前Ci对应的Yi;如果句子中有多个分词后的词能与字典中的某个词Ci匹配,则将该文本标记为占比更高的Yi;如果句子中没有分词后的词能与字典中的某个词Ci匹配,则将当前文本从训练集中移至测试集中;
步骤2.3:获取训练集输入,具体为:将训练集中的每个样本(Xi,Yi)中的Xi使用BERT的预训练词向量对整个文本进行编码,得到的句子向量作为模型的输入;
步骤3:进行模型训练;
步骤3.1:将步骤1.5中获取到的输入句子向量ei联合对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。