【技术实现步骤摘要】
用于数据集创建的方法、电子设备和计算机程序产品
[0001]本公开的实施例一般地涉及数据处理系统,并且更特别地,涉及一种用于数据集创建的方法、电子设备和计算机程序产品。
技术介绍
[0002]利用外部知识系统进行推理是人工智能多年来致力于追求的方向。常见的做法是将自然语言进行语义解析,再利用形式逻辑进行推理。这种做法中存在语义解析带来的错误传播以及形式逻辑的表达能力有限的问题。
[0003]迄今为止,尚未有工作提出基于自然语言的推理生成任务,因此与自然语言推理方面相关的数据集是缺乏的。然而,自然语言推理在针对语言模型的训练方面的意义十分重要。
技术实现思路
[0004]根据本公开的示例实施例,提供了一种用于数据集创建的方案。
[0005]在本公开的第一方面,提供了一种由计算机实现的方法。该方法包括获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句;生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句,所述多个结论语句指示所述一组第一前提语句和所述一组第二前提 ...
【技术保护点】
【技术特征摘要】
1.一种由计算机实现的方法,包括:获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句;生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句,所述多个结论语句指示所述一组第一前提语句和所述一组第二前提语句之间的相关性;以及至少基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句确定目标数据集。2.根据权利要求1所述的方法,其中获取所述一组第二前提语句包括:提取所述一组第一前提语句中的各一个关键词;以及基于所述各一个关键词和所述一组第一前提语句的语义获取所述一组第二前提语句。3.根据权利要求1所述的方法,其中生成所述结论语句包括:获取一组参考前提语句之间的关联关系;以及如果确定基于所述关联关系成功地推断出所述一组第一前提语句中的第一部分第一前提语句和所述一组第二前提语句中的第一部分第二前提语句之间的相关性,则生成用于描述所述相关性的结论语句。4.根据权利要求3所述的方法,还包括:如果确定基于所述关联关系未成功地推断出所述一组第一前提语句中的第二部分第一前提语句和所述一组第二前提语句中的第二部分第二前提语句之间的相关性,则生成所述相关性不具备有效结论的指示。5.根据权利要求1所述的方法,其中确定所述目标数据集包括:如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断,对所述第一目标前提语句进行变化;生成指示经变化的第一目标前提语句和所述第二目标前提语句之间的相关性的结论语句;以及基于经变化的第一目标前提语句、所述第二目标前提语句以及所述结论语句确定所述目标数据集。6.根据权利要求1所述的方法,其中确定所述目标数据集包括:如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断,对所述第二目标前提语句进行变化;生成指示所述第一目标前提语句和经变化的第二目标前提语句之间的相关性的结论语句;以及基于所述第一目标前提语句、所述经变化的第二目标前提语句以及所述结论语句确定所述目标数据集。7.根据权利要求1所述的方法,其中确定所述目标数据集包括:如果确定所述一组第一前提语句中的第一目标前提语句和所述一组第二前提语句中的第二目标前提语句之间的相关性能够被推断,对所述第一目标前提语句和所述第二目标前提语句进行变化;生成指示经变化的第一目标前提语句和经变化的第二目标前提语句之间的相关性的结论语句;以及基于所述经变化的第一目标前提语句、所述经变化第二目标前提语句以及所述结论语
句确定所述目标数据集。8.根据权利要求5至7中任一项所述的方法,其中对所述第一目标前提语句和第二目标前提语句中的至少一项进行变化包括:从所述第一目标前提语句和第二目标前提语句中的至少一项所包含的语段中确定可变换语义的目标变换语段;对所述目标变换语段执行以下操作中的至少一项:同义语段替换;反义语段替换;上位语段替换;下位语段替换;否定语段替换;双重否定语段替换;以及反向翻译语段替换。9.根据权利要求1所述的方法,其中确定所述目标数据集包括:对基于所述一组第一前提语句、所述一组第二前提语句与所述多个结论语句生成的初始数据集进行校验;如果确定所述多个结论语句中的部分结论语句出现错误,通过删除所述出现错误的部分结论语句和与所述出现错误的部分结论语句相关联的所述一组第一前提语句的相应部分和所述一组第二前提语句的相应部分来更新所述初始数据集;以及将经更新的初始数据集确定为所述目标数据集。10.根据权利要求1所述的方法,其中所述一组第一前提语句和所述一组第二前提语句包括自然语言语句。11.一种电子设备,包括:至少一个处理单元;以及至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令在由所述至少一个处理单元执行时使所述设备执行以下动作:获取一组第一前提语句以及与所述一组第一前提语句相关联的一组第二前提语句;生成与所述一组第一前提语句和所述一组第二前提语句相关联的多个结论语句,所述多个结论语句指...
【专利技术属性】
技术研发人员:张欣勃,袁莉萍,周浩,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。