当前位置: 首页 > 专利查询>南京大学专利>正文

一种结合逻辑推理的辩论对分类方法及设备技术

技术编号:38129364 阅读:9 留言:0更新日期:2023-07-08 09:35
本发明专利技术公开了一种结合逻辑推理的辩论对分类方法及设备,所述方法包括:对现有辩论对数据对进行数据增强;使用增强过后的数据训练交叉编码模型M,用于预测辩论对之间的关系;利用交叉编码模型M对无标签的辩论对之间的关系进行预测,赋予其伪标签,利用反绎学习结合半监督学习获得符合逻辑规则的修正后的伪标签;使用修正过后的伪标签更新交叉编码模型M,再次用交叉编码模型M对无标签的辩论对之间的关系进行预测,获得伪标签数据,直至无标签数据均得以运用。本发明专利技术实现了以少量有标签数据和大量无标签数据完成模型训练和模型分类,并实现了将机器学习数据驱动和逻辑规则知识驱动进行结合,能够更快速准确地完成辩论对分类工作。作。作。

【技术实现步骤摘要】
一种结合逻辑推理的辩论对分类方法及设备


[0001]本专利技术涉及自然语言处理
,具体涉及对话系统中辩论对分类方法及设备。

技术介绍

[0002]辩论机器人有广泛的应用场景,例如,在论文打分系统中,可以用辩论机器人对论文论点论据之间的逻辑关系进行判定,以此为依据之一来对论文打分。辩论机器人在识别及攻击假新闻的场景中同样具有用武之地,通过对消息之间的关系进行判定,来判断其是否符合逻辑条理,从而辨别出逻辑混乱前言不搭后语的假消息。在反驳论点的抽取研究中,可用辩论机器人对目标论点和论点池里的论点进行关系判定,从而帮助抽取反驳论点。在自动辩论机领域同样有用处,辩论机器人可以帮助抽取论点对之间的关系,从而帮助论点文本生成,对其关系风向等有一个限制的作用,即划定范围。在挖掘法律文件的领域中,辩论机器人中很重要的关系判定功能可以发挥用处,法律文件因为其固有的特点,条文之间的逻辑关系是非常清晰的,通过对法律条文之间的关系进行挖掘,以此为窗口进行法律文件的数据挖掘工作。
[0003]辩论机器人的重要工作是进行辩论文本挖掘,根据相关辩论文本之间的基本信息利用自然语言处理技术识别辩论点之间的关系,形成辩论对。目前大多数关于论点关系分类的工作着力于分析单个辩论文本中辩论单元之间的关系,而这些都是取自同一个文本。现有的辩论分类工作,大部分基于深度学习模型,小部分使用马尔可夫逻辑网络结合知识规则协助分类。通常,使用概率软逻辑(PSL)和一阶逻辑来编码逻辑规则,并将编码的逻辑与深度学习技术BERT结合,来训练深度学习模型;其中对每一项逻辑规则,都会训练本地分类器,用这种方式将逻辑规则结合进数据驱动的框架,因此该技术需要海量的有标签数据来训练不同的本地分类器,训练工程量大,且深度学习框架作为黑箱模型使用,不具有解释性。

技术实现思路

[0004]专利技术目的:本专利技术提出了一种结合逻辑推理的辩论对分类方法及设备,至少部分地解决现有技术的问题。
[0005]技术方案:为了实现上述目的,本专利技术采用如下技术方案:
[0006]第一方面,一种结合逻辑推理的辩论对分类方法,包括如下步骤:
[0007]根据辩论关系逻辑规则对现有辩论对语句对进行数据增强;
[0008]使用增强过后的数据训练交叉编码模型M,用于预测辩论对之间的关系;
[0009]利用交叉编码模型M对无标签的辩论对之间的关系进行预测,赋予其伪标签,利用反绎学习结合半监督学习获得符合逻辑规则的修正后的伪标签;
[0010]使用修正过后的伪标签更新交叉编码模型M,再次用交叉编码模型M对无标签的辩论对之间的关系进行预测,获得伪标签数据,直至无标签数据均得以运用。
[0011]进一步地,所述辩论关系逻辑规则如下:
[0012]Support(A,B)∧Support(A,C)

Support(B,C)
[0013]Attack(A,B)∧Attack(A,C)

Support(B,C)
[0014]Support(A,B)∧Attack(A,C)

Attack(B,C)
[0015]Attack(A,B)∧Support(A,C)

Attack(B,C)
[0016]其中,A、B、C表示任意三句辩论语句,support表示两个语句之间的内在关系是逻辑支持,Attack表示两个语句之间的内在关系是逻辑反对或逻辑反驳;
[0017]根据逻辑规则对现有辩论对语句对进行数据增强包括:对于现有辩论对语句中任意三句辩论语句,在存在第一语句和第二语句的关系,以及第二语句和第三语句的关系,但不存在第一语句和第三语句的关系的情况下,根据上述四条规则推导出第一语句和第三语句的关系,并补充进数据集。
[0018]进一步地,交叉编码模型M为深度学习框架sbert框架中的Cross

Encoder模型,所述Cross

Encoder模型由Bert模型以及多层感知器组成,所述Bert模型是用于提取语句的文本特征,所述多层感知器根据Bert模型所提取的特征对文本对进行分类;给定有标签的辩论对,基于梯度下降的方式训练交叉编码模型,所述有标签的辩论对为数据增强后的辩论对语句,所述标签为语句之间的关系。
[0019]进一步地,所述方法还包括:使用保序回归算法对交叉编码模型所输出的置信度进行校正。
[0020]进一步地,所述利用反绎学习结合半监督学习获得符合逻辑规则的修正后的伪标签包括:
[0021]根据交叉编码模型输出的预测置信度对辩论对进行排序,选取置信度符合指定条件的部分伪标签;
[0022]将所选择的辩论对的伪标签转为布尔数值,其中支持关系为0,反驳关系为1,置信度低于指定阈值的关系设为未知;
[0023]使用命题逻辑书写的SAT和MAXSAT算法,来进行辩论对之间的逻辑推导,在同一个话题内若存在不满足逻辑规则的辩论对,则修改置信度低的辩论关系,得到修正后的翻转值,即0被修正为1,1被修正为0,从而使得在一个话题内,在全部的辩论对之间,全部的逻辑推理规则都能被满足,同时将合适的1值或0值赋予曾经的未知标签上,进行覆盖,由此得到了经过修正的伪标签。
[0024]第二方面,一种计算机设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如本专利技术第一方面所述的结合逻辑推理的辩论对分类方法的步骤。
[0025]第三方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本专利技术第一方面所述的结合逻辑推理的辩论对分类方法的步骤。
[0026]有益效果:本专利技术根据四条基本逻辑原则对数据进行增强,获得扩充后更丰富的数据集,通过反绎学习实现了将机器学习数据驱动和逻辑规则知识驱动进行结合,修正伪标签,提高准确度。本专利技术实现了当数据集为少量有标签数据和大量无标签数据时,模型的训练和模型分类能力的仍有较为理想的效果。利用本专利技术的方法能够更快速准确地完成辩
论对分类工作。
附图说明
[0027]图1是本专利技术的结合逻辑推理的辩论对分类方法流程图;
[0028]图2是本专利技术的逻辑规则下不符合实际的情况示意;
[0029]图3是本专利技术的反绎学习结合半监督学习的处理过程;
[0030]图4是本专利技术的反绎学习的示例过程。
具体实施方式
[0031]下面结合附图对本专利技术的技术方案做出更进一步的说明。
[0032]参照图1,本专利技术提出的一种结合逻辑推理的辩论对分类方法,包括以下步骤:
[0033]步骤S1,对现有辩论对数据对进行数据增强。
[0034]这里所述现有辩论对数据,是通过对某一话题的文本、语音等自然语言的处理提取出的辩论语句。所述的辩论对指的是存在支持(su本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合逻辑推理的辩论对分类方法,其特征在于,包括以下步骤:根据辩论关系逻辑规则对现有辩论对语句对进行数据增强;使用增强过后的数据训练交叉编码模型M,用于预测辩论对之间的关系;利用交叉编码模型M对无标签的辩论对之间的关系进行预测,赋予其伪标签,利用反绎学习结合半监督学习获得符合逻辑规则的修正后的伪标签;使用修正过后的伪标签更新交叉编码模型M,再次用交叉编码模型M对无标签的辩论对之间的关系进行预测,获得伪标签数据,直至无标签数据均得以运用。2.根据权利要求1所述的方法,其特征在于,所述辩论关系逻辑规则如下:Support(A,B)∧Support(A,C)

Support(B,C)Attack(A,B)∧Attack(A,C)

Support(B,C)Support(A,B)∧Attack(A,C)

Attack(B,C)Attack(A,B)∧Support(A,C)

Attack(B,C)其中,A、B、C表示任意三句辩论语句,support表示两个语句之间的内在关系是逻辑支持,Attack表示两个语句之间的内在关系是逻辑反对或逻辑反驳;根据逻辑规则对现有辩论对语句对进行数据增强包括:对于现有辩论对语句中任意三句辩论语句,在存在第一语句和第二语句的关系,以及第二语句和第三语句的关系,但不存在第一语句和第三语句的关系的情况下,根据上述四条规则推导出第一语句和第三语句的关系,并补充进数据集。3.根据权利要求1所述的方法,其特征在于,交叉编码模型M为深度学习框架sbert框架中的Cross

Encoder模型,所述Cross

Encod...

【专利技术属性】
技术研发人员:高雨婷王云飞阮锦绣赵一铮葛存菁
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1