【技术实现步骤摘要】
基于阅读理解的观点挖掘方法及装置
本专利技术涉及自然语言处理领域。更具体地说,本专利技术涉及一种基于阅读理解的观点挖掘方法及装置。
技术介绍
观点挖掘包含观点抽取(Identify)和极性分类(Classify)两个步骤。现有的观点抽取研究的主要方法是基于规则的模型,这类方法根据事件的文本特性和实际需求,设计专门的触发词,结合命名实体识别技术识别人名,组织机构等观点关键信息,设计观点提取规则提取事件中的专家观点。但是这类模型需要根据实际需求设计提取规则,属于无监督的模型,缺乏对整体事件文档的语义信息的理解,无法从事件全局的角度理解观点的指向性评价对象、具体情感、具体立场。而现有的极性分类主要采用传统的机器学习分类模型,如支持向量机(SVM)、BERT等。这些模型只考虑了输入的句子每个词语中携带的情感或立场信息,但是在句子的上下文中同样包含大量的情感信息。此外,以往的模型中情感和立场的分类是一个独立的过程,但是情感和立场往往存在隐性的协同关系。
技术实现思路
本专利技术的一个目的是提供一种基于阅读理解的观点挖掘方法,其在理解事件文本的整体语义的基础上,对事件文本进行观点文本抽取,并构建领域情感观点知识库对预训练语言模型进行训练,使观点挖掘结果更加准确。为了实现根据本专利技术的目的和其它优点,提供了一种基于阅读理解的观点挖掘方法,包括:构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;基于所述领域情感观点知识库和事件观点训 ...
【技术保护点】
1.基于阅读理解的观点挖掘方法,其特征在于,包括:/n构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;/n基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;/n从待抽取事件文本中抽取事件观点文本;/n将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场。/n
【技术特征摘要】
1.基于阅读理解的观点挖掘方法,其特征在于,包括:
构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;
基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;
从待抽取事件文本中抽取事件观点文本;
将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场。
2.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,所述领域情感观点知识库的构建方法,具体包括,
S11、收集领域语料,并对其进行分词,去重和去噪处理,获得领域情感语料库;
S12、在通用情感词典的基础上,对所述领域情感语料库中的领域情感观点词进行抽取、去重和分类,获得领域情感观点词本体,并对所述领域情感观点词本体进行扩充,生成所述领域情感观点知识库,其中,扩充方法包括同义词集扩充和互信息计算;
S13、计算所述领域情感观点知识库中收录的领域情感观点词和未收录的情感观点词之间的相似度,若相似度超过预设阈值,则将所述未收录的情感观点词作为对应的所述收录的领域情感观点词的别称进行收录,并更新所述领域情感观点知识库,否则,不进行收录。
3.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,所述预训练语言模型的训练方法,具体包括,
S21、获取所述领域情感观点知识库和所述事件观点训练文本集中的任一个事件观点训练文本;
S22、检测所述事件观点训练文本中的每个词是否在所述领域情感观点知识库内,若这个词在所述领域情感观点知识库内,则这个词被认为是领域情感观点词,将所述事件观点训练文本中的这个词Mask,即将该词替换为特殊字符[MASK],作为所述预训练语言模型的输入,并对所述预训练语言模型的输出结果进行评判;
S23、重复S21、S22,持续对所述预训练语言模型进行训练,使得所述预训练语言模型能够预测出输入文本中被Mask的信息,即获得所述情感预训练语言模型。
4.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,采用机器阅读理解模型并结合观点规则处理模版从所述待抽取事件文本中抽取所述事件观点文本,具体包括,
S31、获取...
【专利技术属性】
技术研发人员:陈志鹏,刘春阳,张旭,王鹏,董善为,李倩,虞世城,李建欣,
申请(专利权)人:国家计算机网络与信息安全管理中心,北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。