【技术实现步骤摘要】
一种矛盾语块边界识别的方法及装置
本专利技术涉及信息处理
,特别涉及一种矛盾语块边界识别的方法及装置。
技术介绍
当两个拥有共同实体的句子不能同时为真时,这两个句子相互矛盾。矛盾语块为导致句子矛盾的最小语言单元。矛盾语块边界识别,是给定相互矛盾的两句话,分别找出导致矛盾的语块位置的任务。正确理解文本矛盾是自然语言理解中的一项重要环节,然后现有的工作大多关注文本矛盾检测,即存在性判断,并未进一步探究矛盾的具体位置,使得文本矛盾检测缺乏可解释性。
技术实现思路
本专利技术提供一种矛盾语块边界识别的方法及装置,所述技术方案如下:根据本专利技术实施例的第一方面,提供了一种矛盾语块边界识别的方法,包括:获取带矛盾语块标注的数据集;对所述带矛盾语块标注的数据集预处理,以得到标注后数据;通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;根据所述每个字符最终的标签确定矛盾语块的边界。在一个实施例中,所述带矛盾语块标注的数据集中的 ...
【技术保护点】
1.一种矛盾语块边界识别的方法,其特征在于,包括:/n获取带矛盾语块标注的数据集;/n对所述带矛盾语块标注的数据集预处理,以得到标注后数据;/n通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;/n根据所述每个字符最终的标签确定矛盾语块的边界。/n
【技术特征摘要】
1.一种矛盾语块边界识别的方法,其特征在于,包括:
获取带矛盾语块标注的数据集;
对所述带矛盾语块标注的数据集预处理,以得到标注后数据;
通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;
根据所述每个字符最终的标签确定矛盾语块的边界。
2.如权利要求1所述的方法,其特征在于,
所述带矛盾语块标注的数据集中的每一条标准数据分为四列,第一列和第二列分别为第一原始句子和第二原始句子,第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块。
3.如权利要求2所述的方法,其特征在于,所述对所述带矛盾语块标注的数据集预处理,以得到标注后数据,包括:
将所述第一原始句子和所述第二原始句子通过预设分隔符拼接在一起,以得到拼接后的数据;
获取预设标签,其中,所述预设标签为O、B-First、I-First、B-Second、I-Second;
通过所述预设标签对所述拼接后的数据进行标注,以得到所述标注后的数据。
4.如权利要求1所述的方法,其特征在于,所述通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签,包括:
将所述标注后的数据传输至所述BERT中,以得到所述标注后的数据中每个字符对应的状态特征;
根据所述每个字符对应的状态特征确定所述每个字符对应的状态分数;
将所述每个字符对应的状态分数输入至所述CRF中进行计算,以得到计算结果;
根据所述计算结果确定所述每个字符的最终标签。
5.如权利要求3所述的方法,其特征在于,所述矛盾语块包括第一原始句子中矛盾语块和第二原始句子中矛盾语块,所述根据所述每个字符最终的标签确定矛盾语块的边界,包括:
确定最终标签为B-First和I-First分别对应的字符为所述第一原始句子中矛盾语块的边界;
确定最终标签为B-Second和I-Second分别对应的字符为所述第二原始句子中矛盾语块的边界。
<...
【专利技术属性】
技术研发人员:姜姗,
申请(专利权)人:云知声智能科技股份有限公司,厦门云知芯智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。