基于长短时和自注意力神经网络的微博话题标签确定方法技术

技术编号：22308287 阅读：16 留言：0更新日期：2019-10-16 08:23

本发明专利技术公开了一种基于长短时和自注意力神经网络的微博话题标签确定方法，依次包括以下步骤：A：对含有话题标签的微博进行统计并经预处理得到微博内容和话题标签；B：构建基于长短时和自注意力的神经网络模型并进行正向训练和网络参数训练，得到训练后的基于长短时和自注意力的神经网络模型；C：将待确定话题标签的微博数据输入到经过训练后的基于长短时和自注意力的神经网络模型中得到话题标签。本发明专利技术能够对以文本信息为主要内容的微博内容进行准确的话题标签确认，为网络舆情监测、话题引导等任务的准确完成提供技术基础。

Topic tagging of microblog based on long-term and self attention neural networks

全部详细技术资料下载

【技术实现步骤摘要】
基于长短时和自注意力神经网络的微博话题标签确定方法
本专利技术涉及自然语言处理
，尤其涉及一种基于长短时和自注意力神经网络的微博话题标签确定方法。
技术介绍
微博作为最重要的中文社交媒体平台，每日活跃人数达到1亿人次，因此针对微博信息的自动化处理对于舆情监测、话题引导等任务具有重要的作用。由于微博信息大多为文本信息，现有的自动化处理方法往往无法达到理想的效果，因此亟需一种能够对文本信息为主的微博信息进行分析处理，推导出较为准确的微博话题标签的方法，为网络舆情监测、话题引导等任务的准确完成提供技术基础。
技术实现思路
本专利技术的目的是提供一种基于长短时和自注意力神经网络的微博话题标签确定方法，能够对以文本信息为主要内容的微博内容进行准确的话题标签确认，为网络舆情监测、话题引导等任务的准确完成提供技术基础。本专利技术采用下述技术方案：基于长短时和自注意力神经网络的微博话题标签确定方法，依次包括以下步骤：A：对含有话题标签的微博进行统计后得到微博数据，然后通过预处理将微博数据转化为向量数据，再将经预处理后的微博数据划分为微博内容和该微博内容所使用的话题标签；B：构建基于长短时和自注意力的神经网络模型，然后将步骤A中得到的经预处理和微博数据划分后得到的微博内容和该微博内容所使用的话题标签，输入到神经网络模型进行正向训练，然后通过随时间反向传播算法训练网络参数，经若干次训练和参数调节后，得到训练后的基于长短时和自注意力的神经网络模型；C：将待确定话题标签的微博数据按照步骤A进行预处理，然后将处理后所得到的向量数据输入到经过训练后的基于长短时和自注意力的神经网络模...

【技术保护点】
1.基于长短时和自注意力神经网络的微博话题标签确定方法，其特征在于，依次包括以下步骤：A：对含有话题标签的微博进行统计后得到微博数据，然后通过预处理将微博数据转化为向量数据，再将经预处理后的微博数据划分为微博内容和该微博内容所使用的话题标签；B：构建基于长短时和自注意力的神经网络模型，然后将步骤A中得到的经预处理和微博数据划分后得到的微博内容和该微博内容所使用的话题标签，输入到神经网络模型进行正向训练，然后通过随时间反向传播算法训练网络参数，经若干次训练和参数调节后，得到训练后的基于长短时和自注意力的神经网络模型；C：将待确定话题标签的微博数据按照步骤A进行预处理，然后将处理后所得到的向量数据输入到经过训练后的基于长短时和自注意力的神经网络模型中，最后根据经过训练后的基于长短时和自注意力的神经网络模型得到该待确定话题标签的微博的话题标签。

【技术特征摘要】
1.基于长短时和自注意力神经网络的微博话题标签确定方法，其特征在于，依次包括以下步骤：A：对含有话题标签的微博进行统计后得到微博数据，然后通过预处理将微博数据转化为向量数据，再将经预处理后的微博数据划分为微博内容和该微博内容所使用的话题标签；B：构建基于长短时和自注意力的神经网络模型，然后将步骤A中得到的经预处理和微博数据划分后得到的微博内容和该微博内容所使用的话题标签，输入到神经网络模型进行正向训练，然后通过随时间反向传播算法训练网络参数，经若干次训练和参数调节后，得到训练后的基于长短时和自注意力的神经网络模型；C：将待确定话题标签的微博数据按照步骤A进行预处理，然后将处理后所得到的向量数据输入到经过训练后的基于长短时和自注意力的神经网络模型中，最后根据经过训练后的基于长短时和自注意力的神经网络模型得到该待确定话题标签的微博的话题标签。2.根据权利要求1所述的基于长短时和自注意力神经网络的微博话题标签确定方法，其特征在于，所述的步骤A中，对微博数据的预处理包含以下步骤：A1：对微博数据中每一条微博的文本内容进行切分，得到每一个单独的单词；A2：收集中文新闻数据、中文网页数据、英文网页数据以及网络文档数据集，并使用收集到的中文新闻数据、中文网页数据、英文网页数据以及网络文档数据集分别训练中文词向量模型和英文词向量模型，用于将每个中文单词和英文单词转化为300维的向量数据；A3：依次对步骤A1中每条微博数据切分后所得到的每个单独的单词进行判断，如果所得到的单独的单词为中文，则使用训练好的中文词向量模型得到该单词的300维向量数据；如果所得到的单独的单词为英文，则使用训练好的英文词向量模型得到该单词的300维向量数据；最后将得到的每个单词的300维向量数据按照微博中各个单词的排列顺序依次排列，作为训练数据的输入数据；A4：依次对步骤A1中每条微博数据切分后所得到的单独的单词进行话题标签标注，如果该单词是话题标签词则标注为1，如果不是话题标签则标注为0；A5：将步骤A4中经过话题标签标注的每条微博数据的标注结果1或0按照所对应的微博的单词顺序排列，得到训练数据的标注结果。3.根据权利要求2所述的基于长短时和自注意力神经网络的微博话题标签确定方法，其特征在于：所述的步骤B中，构建基于长短时和自注意力的神经网络模型，然后将步骤A3中得到的训练数据的输入数据及步骤A5中得到的训练数据的标注结果，输入到神经网络模型进行正向训练，然后通过随时间反向传播...

【专利技术属性】
技术研发人员：沈亚田，孙俊，张磊，韩道军，
申请(专利权)人：河南大学，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人