基于阅读理解的观点挖掘方法及装置制造方法及图纸

技术编号:29835700 阅读:20 留言:0更新日期:2021-08-27 14:25
本发明专利技术公开了基于阅读理解的观点挖掘方法,包括:构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;从待抽取事件文本中抽取事件观点文本;将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场;以及,基于阅读理解的观点挖掘装置。本发明专利技术具有使观点挖掘结果更加准确的优点。

【技术实现步骤摘要】
基于阅读理解的观点挖掘方法及装置
本专利技术涉及自然语言处理领域。更具体地说,本专利技术涉及一种基于阅读理解的观点挖掘方法及装置。
技术介绍
观点挖掘包含观点抽取(Identify)和极性分类(Classify)两个步骤。现有的观点抽取研究的主要方法是基于规则的模型,这类方法根据事件的文本特性和实际需求,设计专门的触发词,结合命名实体识别技术识别人名,组织机构等观点关键信息,设计观点提取规则提取事件中的专家观点。但是这类模型需要根据实际需求设计提取规则,属于无监督的模型,缺乏对整体事件文档的语义信息的理解,无法从事件全局的角度理解观点的指向性评价对象、具体情感、具体立场。而现有的极性分类主要采用传统的机器学习分类模型,如支持向量机(SVM)、BERT等。这些模型只考虑了输入的句子每个词语中携带的情感或立场信息,但是在句子的上下文中同样包含大量的情感信息。此外,以往的模型中情感和立场的分类是一个独立的过程,但是情感和立场往往存在隐性的协同关系。
技术实现思路
本专利技术的一个目的是提供一种基于阅读理解的观点挖掘方法,其在理解事件文本的整体语义的基础上,对事件文本进行观点文本抽取,并构建领域情感观点知识库对预训练语言模型进行训练,使观点挖掘结果更加准确。为了实现根据本专利技术的目的和其它优点,提供了一种基于阅读理解的观点挖掘方法,包括:构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;从待抽取事件文本中抽取事件观点文本;将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场。优选的是,所述的基于阅读理解的观点挖掘方法,所述领域情感观点知识库的构建方法,具体包括,S11、收集领域语料,并对其进行分词,去重和去噪处理,获得领域情感语料库;S12、在通用情感词典的基础上,对所述领域情感语料库中的领域情感观点词进行抽取、去重和分类,获得领域情感观点词本体,并对所述领域情感观点词本体进行扩充,生成所述领域情感观点知识库,其中,扩充方法包括同义词集扩充和互信息计算;S13、计算所述领域情感观点知识库中收录的领域情感观点词和未收录的情感观点词之间的相似度,若相似度超过预设阈值,则将所述未收录的情感观点词作为对应的所述收录的领域情感观点词的别称进行收录,并更新所述领域情感观点知识库,否则,不进行收录。优选的是,所述的基于阅读理解的观点挖掘方法,所述预训练语言模型的训练方法,具体包括,S21、获取所述领域情感观点知识库和所述事件观点训练文本集中的任一个事件观点训练文本;S22、检测所述事件观点训练文本中的每个词是否在所述领域情感观点知识库内,若这个词在所述领域情感观点知识库内,则这个词被认为是领域情感观点词,将所述事件观点训练文本中的这个词Mask,即将该词替换为特殊字符[MASK],作为所述预训练语言模型的输入,并对所述预训练语言模型的输出结果进行评判;S23、重复S21、S22,持续对所述预训练语言模型进行训练,使得所述预训练语言模型能够预测出输入文本中被Mask的信息,即获得所述情感预训练语言模型。优选的是,所述的基于阅读理解的观点挖掘方法,采用机器阅读理解模型并结合观点规则处理模版从所述待抽取事件文本中抽取所述事件观点文本,具体包括,S31、获取所述待抽取事件文本;S32、根据事件观点抽取问题模板匹配问题,获得问题文本;S33、对所述待抽取事件文本和所述问题文本进行中文分词,并通过BERT的预训练向量进行embedding,得到所述待抽取事件文本和所述问题文本的语义空间向量表示;S34、对中文分词后的每个单词进行分段位置嵌入;S35、将embedding后的所述待抽取事件文本和所述问题文本使用BERT的通用特殊拼接符号[sep]进行拼接;S36、将拼接后的文本输入多层transformer,获得观点抽取答案文本;S37、将所述观点抽取答案文本与所述待抽取事件文本进行比对,并通过观点规则处理模版进行筛选,去掉错误的观点抽取答案文本,即获得所述事件观点文本。优选的是,所述的基于阅读理解的观点挖掘方法,所述观点规则处理模板的筛选方法具体包括,对所述观点抽取答案文本通过LTP进行语义依存分析,获得所述观点抽取答案文本的语义依存分析树;判断所述观点抽取答案文本是否为陈述句;找到所述语义依存分析树的根节点,判断所述根节点的词性是否为动词;找到根节点下的主语子节点和宾语子节点,判断主语子节点是否是专有名词,判断宾语子节点是否连接一个子句;若上述判断中有一条不满足,则筛选掉该观点抽取答案文本。优选的是,所述的基于阅读理解的观点挖掘方法,在将所述事件观点文本输入所述情感预训练语言模型前,将所述情感预训练语言模型最后的softmax层裁剪掉,然后输入所述事件观点文本,得到中间层的向量输出。优选的是,所述的基于阅读理解的观点挖掘方法,将所述中间层的向量输出进行编码,再输入TextCNN,并通过softmax层转换为多分类任务,进行句子特征提取和分类,其中,所述多分类任务包括情感分类和立场分类,分类标签从所述领域情感观点知识库中获取。优选的是,所述的基于阅读理解的观点挖掘方法,还包括,从所述事件观点文本中抽取观点主体信息,获得待抽取事件文本中观点主体发表观点的情感和立场。本专利技术还提供了一种基于阅读理解的观点挖掘装置,其特征在于,包括:处理器;存储器,其存储有可执行指令;其中,所述处理器被配置为执行所述可执行指令,以执行权利要求1~8任一所述的基于阅读理解的观点挖掘方法。本专利技术至少包括以下有益效果:第一,本专利技术通过对相关事件的专家与专门机构的评论展开对相关事件的观点抽取,并实现对观点主导对象关于热点事件所持立场和情感在不同的时间段的深层次与多维度分析。第二、机器阅读任务从事件文本中获取事件的整体语义信息,面向关于事件的文本问题,从文本中抽取正确的文本片段信息作为答案。本专利技术设计基于阅读理解式观点抽取模型融合了基于规则的观点抽取模型和机器阅读模型,机器阅读理解模型阅读事件的文本获取事件的整体语义信息,将具体的多个观点抽取任务转换为阅读理解的具体实际问题,基于场景化事件的设计阅读理解模型,输出事件文本中的答案片段,并进行处理作为具体抽取出来事件的观点,使得抽取的观点的情感和立场能代表事件文本整体的情感立场信息,进而使得观点挖掘结果更加准确。本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。附图说明图1是根据本专利技术一个实施例的基于阅读理解的观点挖掘方法的流程示本文档来自技高网...

【技术保护点】
1.基于阅读理解的观点挖掘方法,其特征在于,包括:/n构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;/n基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;/n从待抽取事件文本中抽取事件观点文本;/n将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场。/n

【技术特征摘要】
1.基于阅读理解的观点挖掘方法,其特征在于,包括:
构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;
基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;
从待抽取事件文本中抽取事件观点文本;
将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场。


2.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,所述领域情感观点知识库的构建方法,具体包括,
S11、收集领域语料,并对其进行分词,去重和去噪处理,获得领域情感语料库;
S12、在通用情感词典的基础上,对所述领域情感语料库中的领域情感观点词进行抽取、去重和分类,获得领域情感观点词本体,并对所述领域情感观点词本体进行扩充,生成所述领域情感观点知识库,其中,扩充方法包括同义词集扩充和互信息计算;
S13、计算所述领域情感观点知识库中收录的领域情感观点词和未收录的情感观点词之间的相似度,若相似度超过预设阈值,则将所述未收录的情感观点词作为对应的所述收录的领域情感观点词的别称进行收录,并更新所述领域情感观点知识库,否则,不进行收录。


3.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,所述预训练语言模型的训练方法,具体包括,
S21、获取所述领域情感观点知识库和所述事件观点训练文本集中的任一个事件观点训练文本;
S22、检测所述事件观点训练文本中的每个词是否在所述领域情感观点知识库内,若这个词在所述领域情感观点知识库内,则这个词被认为是领域情感观点词,将所述事件观点训练文本中的这个词Mask,即将该词替换为特殊字符[MASK],作为所述预训练语言模型的输入,并对所述预训练语言模型的输出结果进行评判;
S23、重复S21、S22,持续对所述预训练语言模型进行训练,使得所述预训练语言模型能够预测出输入文本中被Mask的信息,即获得所述情感预训练语言模型。


4.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,采用机器阅读理解模型并结合观点规则处理模版从所述待抽取事件文本中抽取所述事件观点文本,具体包括,
S31、获取...

【专利技术属性】
技术研发人员:陈志鹏刘春阳张旭王鹏董善为李倩虞世城李建欣
申请(专利权)人:国家计算机网络与信息安全管理中心北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1