基于多头注意力机制的涉案微博评论的评价对象抽取方法技术

技术编号：25397004 阅读：24 留言：0更新日期：2020-08-25 23:02

本发明专利技术涉及基于多头注意力机制的涉案微博评论的评价对象抽取方法，首先收集涉案微博正文和微博评论；标记涉案微博评论的评价对象；获取涉案微博评论的字符向量、获取词向量、名词词性相关的词性向量、上下文向量和案件要素向量；将获取的字符向量和词向量进行拼接，并采用多头注意力机制获取词性向量和上下文向量的相关性，同时计算最大的案件要素和词性向量的相似概率权重；将获取得到的拼接向量、相关性权重和最大相似度概率权重进行点乘，得到的结果作为BiLSTM模型的输入，然后经过条件随机场CRF得到最后的序列标签，即抽取结果。本发明专利技术取得了较好的抽取效果，在两个典型的涉案微博评论数据集比基线模型分别提高了1％和1.9％。

全部详细技术资料下载

【技术实现步骤摘要】
基于多头注意力机制的涉案微博评论的评价对象抽取方法
本专利技术涉及基于多头注意力机制的涉案微博评论的评价对象抽取方法，属于数据挖掘

技术介绍
随着自媒体时代的到来、我国新媒体的蓬勃发展和网络舆情的深入，部分法院所审理的焦点案件在网络上迅速发酵，引发社会的广泛争议，甚至左右司法审判，严重影响社会稳定。在此背景下，国家也在推行智慧法院的建设，司法部门通过实时有效的掌握并正确引导网络舆情有助于确保法院依法独立行使审判权，维护社会公平正义。而微博作为社会大众自由评论的社交媒体之一，其用户量庞大，发展较快，其中不少司法相关的案件会在微博中引起激烈讨论。因此本文采用微博中的涉案事件，即涉案微博作为本文的研究重点。故涉案微博评论的评价对象抽取旨在：针对于案件相关的微博话题评论，将评论中的评价对象抽取出来，为涉案舆情的发展趋势预测做基础性工作。
技术实现思路
本专利技术提供了基于多头注意力机制的涉案微博评论的评价对象抽取方法，以用于解决目前涉案微博评论中大众评论的评价对象与涉案不相关的问题和大众在对涉案微博评论的评价对象进行评论时表述不一致的问题。本专利技术的技术方案是：基于多头注意力机制的涉案微博评论的评价对象抽取方法，所述方法的具体步骤如下：Step1、收集涉案微博正文和微博评论，对微博评论进行去重、筛选；作为本专利技术的优选方案，所述Step1中，使用Scrapy作为爬取工具，模仿用户操作，登录微博，根据页面数据的XPath路径制定模板获取涉及案件的微博正文和微博评论。r>此优选方案设计是本专利技术的重要组成部分，主要为本专利技术收集语料过程，为本专利技术抽取微博评论中的评价对象提供了数据支撑。Step2、根据微博正文所涉及的案件，对筛选后的微博评论设置该案件的案件要素，标记涉案微博评论的评价对象，将标记好的微博评论语料按比例分为训练语料、测试语料和验证语料；Step3、获取涉案微博评论的字符向量，并通过jieba工具对标记后的微博评论进行分词和词性标注，然后获取词向量、名词词性相关的词性向量、上下文向量和案件要素向量；Step4、将获取的字符向量和词向量进行拼接，并采用多头注意力机制获取词性向量和上下文向量的相关性，同时计算最大的案件要素和词性向量的相似概率权重；Step5、将获取得到的拼接向量、相关性权重和最大相似度概率权重进行点乘，得到的结果作为BiLSTM模型的输入，然后经过条件随机场CRF得到最后的序列标签，即抽取结果。作为本专利技术的优选方案，所述Step2的具体步骤为：Step2.1、涉案微博评论的评价对象的标注体系采用了json格式的标记文本，通过json格式的文件，对涉案微博评论进行B(begin)、I(inside)和O(outside)序列标注，其中B(begin)表示评价对象的起始位置，I(inside)表示评价对象的内容，O(outside)表示微博评论中的其他部分，即标记出评价对象，并保存成json格式的文件；Step2.2、将标记的数据集按照8:1:1的比例切分为训练集、测试集和验证集；其中，涉及到的案件要素包括何事、何时、何地、何物和何人。作为本专利技术的优选方案，所述Step3的具体步骤为：Step3.1、采用jieba工具对标记后的微博评论进行分词，并进行词性标注，通过分词后，根据已有的微博词向量，将微博的一句评论用微博词向量进行表征。同时，对于需要抽取的评价对象一般是一些名词性实体，因此通过jieba根据对名词性相关的实体选择出来，然后通过微博将选择出来的名词性相关的词性表征出来；Step3.2、根据目前现有的微博词向量，获取得到字符向量，以及分词后的词向量，名词词性相关的词性向量和上下文向量；Step3.3、根据已有的微博向量获取案件要素的向量。由图2可以看出，给定一句涉案微博评论的评论C＝{c1,c2...cm}(S＝{w1,w2...wT}),和案件要素A＝{a1,a2...an}，其中ci表示一句评论中的第i个字，wi表示一句评论中第i个词，ai表示评论涉及的第i个案件要素。通过中文分词工具jieba可以将一句话切分成若干个词，同时利用其词性标注功能，将每句评论中名词相关的词标记出来，得到词性ePOS＝{n1,n2...np}。字符嵌入和词嵌入分别将构成评论的字和词表征到高维向量空间中，获得微博评论的最终表征X＝{x1,x2,...xT}，其中字和字符都用已经预训练好的微博中文词向量来表征，POS是词性标记的简称，partofspeech。此优选方案设计是本专利技术的重要组成部分，主要为本专利技术提供向量编码的过程，结合微博词向量，进而提升模型的性能。本专利技术利用双向长短记忆神经网络预测抽取评价对象，通过多头注意力机制计算词性向量和上下文的相关性，通过最大相似度概率权重计算案件要素和词向量的相似度，再输入到双向长短记忆神经网络，最后经过条件随机场预测出评价对象；其中：作为本专利技术的优选方案，所述Step4的具体步骤为：Step4.1、将得到的字符向量和词性向量通过两个高速网络分别输出两个长度相同的序列，然后再进行拼接；Step4.2、将得到上下文向量和词性向量根据多头注意力机制的定义，即把上下文与词性表征作为输入，且都有自己的原始Value，将名词词性特征作为Query，上下文作为Key,并将Query与各个Key的相似性作为权重，计算出多头注意力机制的相关性权重；结合词性特征以及上下文的语义信息，可以有效的缓解抽取任务中的带有前缀或者后缀的问题，而导致抽取不准确的问题。Step4.3、根据Step3获取得到的案件要素向量和微博评论的词向量根据相似度计算公式，得到相似度概率权重，并选择出最大的概率权重。所述Step5中，将通过词性向量和字符向量拼接后得到向量与最大相似概率权重和相关性权重进行点乘后作为BiLSTM模型的输入G＝{g1,g2,...gm}，模型首先进入一个LSTM层，通过公式(1)计算得到遗忘门，输入门和输出门。其中W是输入层到隐藏层的参数矩阵，U是隐藏层到隐藏层的自循环参数矩阵，b为偏置参数矩阵，σ为sigmoid函数。然后通过遗忘门ft和输入门it来控制忘记多少历史信息和保存多少新信息从而更新内部记忆细胞状态其计算公式(2)所示：接着通过输出门控制输出的结果，从而得隐状态ht，如公式(3)所示：在完成LSTM后，本文还从后向运行了LSTM来生成后向隐向量并将前向和后向隐向量进行了拼接，记为ht，如公式(4)所示：最后进入条件随机场进行抽取，其中条件随机场对模型的输出起到条件约束的作用，最后得到抽取的结果。本专利技术的有益效果是：1、本专利技术的基于多头注意力机制的涉案微博评论的评价对象抽取方法，利用案件要素与涉案微博评论中的评价对象的相干性，解决在涉案微博评论中，大众对于评价对象与案件不相关的问题；2、本专利技术的基于多头注意力机制的涉案微博评论本文档来自技高网...

【技术保护点】
1.基于多头注意力机制的涉案微博评论的评价对象抽取方法，其特征在于：/n所述方法的具体步骤如下：/nStep1、收集涉案微博正文和微博评论，对微博评论进行去重、筛选；/nStep2、根据微博正文所涉及的案件，对筛选后的微博评论设置该案件的案件要素，标记涉案微博评论的评价对象，将标记好的微博评论语料按比例分为训练语料、测试语料和验证语料；/nStep3、获取涉案微博评论的字符向量，并通过jieba工具对标记后的微博评论进行分词和词性标注，然后获取词向量、名词词性相关的词性向量、上下文向量和案件要素向量；/nStep4、将获取的字符向量和词向量进行拼接，并采用多头注意力机制获取词性向量和上下文向量的相关性，同时计算最大的案件要素和词性向量的相似概率权重；/nStep5、将获取得到的拼接向量、相关性权重和最大相似度概率权重进行点乘，得到的结果作为BiLSTM模型的输入，然后经过条件随机场CRF得到最后的序列标签，即抽取结果。/n

【技术特征摘要】
1.基于多头注意力机制的涉案微博评论的评价对象抽取方法，其特征在于：
所述方法的具体步骤如下：
Step1、收集涉案微博正文和微博评论，对微博评论进行去重、筛选；
Step2、根据微博正文所涉及的案件，对筛选后的微博评论设置该案件的案件要素，标记涉案微博评论的评价对象，将标记好的微博评论语料按比例分为训练语料、测试语料和验证语料；
Step3、获取涉案微博评论的字符向量，并通过jieba工具对标记后的微博评论进行分词和词性标注，然后获取词向量、名词词性相关的词性向量、上下文向量和案件要素向量；
Step4、将获取的字符向量和词向量进行拼接，并采用多头注意力机制获取词性向量和上下文向量的相关性，同时计算最大的案件要素和词性向量的相似概率权重；
Step5、将获取得到的拼接向量、相关性权重和最大相似度概率权重进行点乘，得到的结果作为BiLSTM模型的输入，然后经过条件随机场CRF得到最后的序列标签，即抽取结果。

2.根据权利要求1所述的基于多头注意力机制的涉案微博评论的评价对象抽取方法，其特征在于：所述Step1中，使用Scrapy作为爬取工具，模仿用户操作，登录微博，根据页面数据的XPath路径制定模板获取涉及案件的微博正文和微博评论。

3.根据权利要求1所述的基于多头注意力机制的涉案微博评论的评价对象抽取方法，其特征在于：所述Step2的具体步骤为：
Step2.1、涉案微博评论的评价对象的标注体系采用了json格式的标记文本，分别...

【专利技术属性】
技术研发人员：余正涛，赵培莲，毛存礼，相艳，郭军军，黄于欣，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人