当前位置: 首页 > 专利查询>中山大学专利>正文

一种领域语言模型的确定方法和相关装置制造方法及图纸

技术编号:37396298 阅读:13 留言:0更新日期:2023-04-30 09:24
本申请实施例公开了一种领域语言模型的确定方法和相关装置,在需要获取针对专业领域的语言模型时,获取该专业领域的知识图谱,通过在知识图谱中以规定的路径数量遍历出待定节点周边的关联节点集合,可从图结构化的知识图谱中转化出序列化的图谱知识语料,图谱知识语料可以被语言模型所理解并学习到其中携带的专业领域知识,从而可以使用已经完成了通用语言预训练的预训练语言模型直接基于序列化的图谱知识语料进行领域训练,使已经掌握通用语言知识的预训练语言模型学习到该专业领域的语言知识,不仅训练所需语料量要求更低,而且由于预训练语言模型已经完成了预训练,整体训练耗时也更低,大大提高了确定领域语言模型的效率,降低了时间成本。降低了时间成本。降低了时间成本。

【技术实现步骤摘要】
一种领域语言模型的确定方法和相关装置


[0001]本申请涉及数据处理领域,特别是涉及一种领域语言模型的确定方法和相关装置。

技术介绍

[0002]自然语言处理技术在通用领域有广泛的应用,例如利用通用语言模型进行内容搜索、智能问答等服务。
[0003]然而,专业领域相对于通用领域来说,具有大量在本领域中体现特定含义的专业术语,通用语言模型难以在专业领域中起到较好的应用。为此,相关技术中采用通过收集足量的专业领域中训练语料后,对初始化的语言模型进行该专业领域的针对性训练,才能得到适用该专业领域的语言模型。
[0004]然而,这种方式需要耗费时间收集专业领域的训练语料,而且整体训练非常耗时,导致需要付出大量的时间成本才能得到所需的语言模型,上述相关技术难以适应目前的互联网快速发展。

技术实现思路

[0005]为了解决上述技术问题,本申请提供了一种领域语言模型的确定方法和相关装置,整体训练耗时更低,大大提高了确定领域语言模型的效率,降低了时间成本。
[0006]本申请实施例公开了如下技术方案:
[0007]一方面,本申请实施例提供了一种领域语言模型的确定方法,所述方法包括:
[0008]获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;
[0009]基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点;
[0010]根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料;
[0011]通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,所述预训练语言模型为完成了预训练的通用语言模型。
[0012]另一方面,本申请实施例提供了一种领域语言模型的确定装置,所述装置包括获取单元、遍历单元、序列化单元和训练单元:
[0013]所述获取单元,用于获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;
[0014]所述遍历单元,用于基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为所述
知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点;
[0015]所述序列化单元,用于根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料;
[0016]所述训练单元,用于通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,所述预训练语言模型为完成了预训练的通用语言模型。
[0017]又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
[0018]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0019]所述处理器用于根据所述程序代码中的指令执行以上方面所述的方法。
[0020]又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行以上方面所述的方法。
[0021]又一方面,本申请实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行权以上方面所述的方法。
[0022]由上述技术方案可以看出,在需要获取针对专业领域的语言模型时,获取该专业领域的知识图谱,该知识图谱中通过实体节点和实体节点间的路径标识了该专业领域中专业词汇和专业词汇间的关联关系。通过在知识图谱中以规定的路径数量遍历出待定节点周边的关联节点集合,并基于待定节点、关联节点集合和之间的关联关系,可以从图结构化的知识图谱中转化出序列化的图谱知识语料,这种序列化的图谱知识语料可以被语言模型所理解并学习到其中携带的专业领域知识,从而可以使用已经完成了通用语言预训练的预训练语言模型直接基于序列化的图谱知识语料进行领域训练,使已经掌握通用语言知识的预训练语言模型学习到该专业领域的语言知识,相对于相关技术中对完全初始化的语言模型的训练方式,不仅训练所需语料量要求更低,而且由于预训练语言模型已经完成了预训练,整体训练耗时也更低,大大提高了确定领域语言模型的效率,降低了时间成本。
附图说明
[0023]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本申请实施例提供的一种领域语言模型的确定场景示意图;
[0025]图2为本申请实施例提供的一种领域语言模型的确定方法的方法流程图;
[0026]图3为本申请实施例提供的一种知识图谱的示意图;
[0027]图4为本申请实施例提供的一种通过领域语言模型进行内容搜索的场景示意图;
[0028]图5为本申请实施例提供的一种通过领域语言模型进行智能客服的场景示意图;
[0029]图6为本申请实施例提供的一种基于预训练语言模型进行领域训练的示意图;
[0030]图7为本申请实施例提供的一种领域语言模型的确定装置的装置结构图;
[0031]图8为本申请实施例提供的一种终端设备的结构图;
[0032]图9为本申请实施例提供的一种服务器的结构图。
具体实施方式
[0033]下面结合附图,对本申请的实施例进行描述。
[0034]针对专业领域的语言模型,需要收集足量的专业领域语料并重新训练初始化的语言模型后才能得到,总体耗时很长,难以适应互联网产品的更新、迭代速度。
[0035]为此,本申请实施例提供了一种领域语言模型的确定方法和相关装置,通过对专业领域的知识图谱的序列化处理,得到大量的图谱知识语料,根据这些语料直接对已经完成通用语言预训练的预训练语言模型进行领域训练,就能得到适用于该专业领域的领域语言模型。
[0036]本申请实施例所提供的领域语言模型的确定方法可以通过计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
[0037]本申请实施例提供的领域语言模型的确定方法可基于人工智能实现,人工智能(Artif本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种领域语言模型的确定方法,其特征在于,所述方法包括:获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点;根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料;通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,所述预训练语言模型为完成了预训练的通用语言模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料,包括:将所述待定节点作为关联队列的首节点,并依据所述待定节点在所述知识图谱中的拓扑关系,将遍历得到的所述关联节点作为队列节点加入所述关联队列,所述队列节点用于标识所对应关联节点以及与所述待定节点间的关联关系;根据所述关联队列的出队顺序,将所述关联队列的全部或部分队列节点进行序列化得到所述多个图谱知识语料。3.根据权利要求2所述的方法,其特征在于,目标知识语料为所述多个图谱知识语料中的一个图谱知识语料,所述目标知识语料为将所述关联队列的部分队列节点进行序列化得到的;所述根据所述关联队列的出队顺序,将所述关联队列的全部或部分队列节点进行序列化得到多个图谱知识语料,包括:根据所述队列节点间相对于所述待定节点的父子节点关系,从所述关联队列中采样部分队列节点;基于所述部分队列节点的出队顺序进行序列化得到所述目标知识语料。4.根据权利要求3所述的方法,其特征在于,所述队列节点中包括第一节点和第二节点,所述第一节点为所述第二节点的父节点,所述根据所述队列节点间相对于所述待定节点的父子节点关系,从所述关联队列中采样部分队列节点,包括:若所述第一节点被采样到所述部分队列节点中,所述第二节点属于可被采样的队列节点;若所述第一节点未被采样到所述部分队列节点中,所述第二节点属于不可被采样的队列节点。5.根据权利要求1所述的方法,其特征在于,所述通过所述多个图谱知识语料对已经完成预训练的预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,包括:通过遮盖所述图谱知识语料中的部分实体节点和/或关联关系,得到图谱训练样本,所述图谱知识语料中的被遮盖部分作为所对应图谱训练样本的样本标签;通过所述预训练语言模型提取所述图谱训练样本的特征向量,并通过分类器对所述图谱训练样本中被遮盖部分的预测结果;根据所述预测结果与所述样本标签间的差异对所述预训练语言模型进行参数调整,得
到针对所述专业领域的领域语言模型。6.根据权利要求5所述的方法,其特征在于,所述通过遮盖所述图谱知识语料中的部分实体节点和/或关联关系,得到图谱训练样本,包括:若所述图谱知识语料中包括多个关联关系,通过N种遮盖方式对所述图谱知识语料进行遮盖处理,得到与所述N种遮盖方式一一对应的N个图谱训练样本,所述N种遮盖方式分别指示遮盖的部分实体节点和/或关联关系不完全相同。7.根据权利要求1

【专利技术属性】
技术研发人员:刘文阁程轶刘亚飞蔡庆玲梁小丹郑冶枫王巨宏
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1