【技术实现步骤摘要】
文本序列生成方法、预训练方法、存储介质及程序产品
[0001]本申请实施例涉及计算机
,尤其涉及一种文本序列生成方法、语言模型的预训练方法、存储介质及程序产品。
技术介绍
[0002]语言模型(Language Model)可以预测具有一定长度的文本出现的概率,预训练语言模型进行微调后在自然语言处理任务中有广泛应用,如语音识别,机器翻译,词性标注,句法分析和信息检索等。
[0003]然而现有的基于知识的预训练语言模型都主要注重事实知识的学习,但并未注重逻辑规则的学习,这使得预训练语言模型的逻辑推理能力较差,极大地限制了预训练语言模型的应用。
技术实现思路
[0004]有鉴于此,本申请实施例提供一种文本序列生成方案以及一种语言模型的预训练方法,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种文本序列生成方法,包括:获取知识图谱中的逻辑子图,其中,所述逻辑子图为三角子图或者所述逻辑子图由至少两个三角子图拼接,所述三角子图中包括三个实体且任意两个实体之间具有实体关系 ...
【技术保护点】
【技术特征摘要】
1.一种文本序列生成方法,包括:获取知识图谱中的逻辑子图,其中,所述逻辑子图为三角子图或者所述逻辑子图由至少两个三角子图拼接,所述三角子图中包括三个实体且任意两个实体之间具有实体关系;确定所述逻辑子图中包括的多个实体对,其中,所述实体对中的元素包括两个实体及其之间的实体关系;将多个所述实体对分别进行序列化处理,得到包括两个实体及其之间的实体关系对应描述文本的多个短句;根据多个所述短句生成与所述逻辑子图对应的文本序列,所述文本序列用于对语言模型进行逻辑推理的预训练。2.根据权利要求1所述的方法,其中,所述获取知识图谱中的逻辑子图,包括:针对所述知识图谱中的目标实体,确定与所述目标实体之间具有实体关系多个候选实体;从所述多个候选实体中确定出具有实体关系的至少一组候选实体,确定由一组候选实体以及所述目标实体组成的三角子图;根据所述三角子图确定所述逻辑子图。3.根据权利要求2所述的方法,其中,若所述逻辑子图由至少两个三角子图拼接,则所述根据所述三角子图确定所述逻辑子图,包括:确定所述三角子图对应的候选逻辑子图;针对所述候选逻辑子图中的第一实体,从所述知识图谱中确定与所述第一实体之间具有实体关系的第二实体,其中,所述第二实体为所述候选逻辑子图之外的实体;确定所述第二实体是否与所述候选逻辑子图中除所述第一实体之外的实体之间存在实体关系;若存在,则根据所述第二实体更新所述候选逻辑子图,以将所述第二实体增加至所述候选逻辑子图中,得到所述逻辑子图。4.根据权利要求3所述的方法,其中,所述确定所述第二实体是否与所述候选逻辑子图中除所述第一实体之外的实体之间存在实体关系,包括:从所述候选逻辑子图中确定与所述第一实体间存在实体关系的第三实体;确定所述第二实体是否与所述第三实体之间存在实体关系。5.根据权利要求1所述的方法,其中,若所述逻辑子图由至少两个三角子图拼接,则所述逻辑子图中的相邻两个三角子图之间共边。6.根据权利要求1所述的方法,其中,将多个所述实体对分别进行序列化处理,得到包括两个实体及其之间的实体关系对应描述文本的多个短句,包括:针对任意实体对,使用掩码拼接所述实体对中的两个实体及其实体关系对应的描述文本,得到所述实体对所对应的短句。7.一种语言模型的预训练方法,包括:获取知识图谱中的逻辑子图,其中,所述逻辑子图为三角子图或者所述逻辑子图由至少两个三角子图拼接,所述三...
【专利技术属性】
技术研发人员:刘林林,李昕,何瑞丹,邴立东,司罗,沙菲克爵蒂,
申请(专利权)人:南洋理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。