【技术实现步骤摘要】
一种领域语言模型的确定方法和相关装置
[0001]本申请涉及数据处理领域,特别是涉及一种领域语言模型的确定方法和相关装置。
技术介绍
[0002]自然语言处理技术在通用领域有广泛的应用,例如利用通用语言模型进行内容搜索、智能问答等服务。
[0003]然而,专业领域相对于通用领域来说,具有大量在本领域中体现特定含义的专业术语,通用语言模型难以在专业领域中起到较好的应用。为此,相关技术中采用通过收集足量的专业领域中训练语料后,对初始化的语言模型进行该专业领域的针对性训练,才能得到适用该专业领域的语言模型。
[0004]然而,这种方式需要耗费时间收集专业领域的训练语料,而且整体训练非常耗时,导致需要付出大量的时间成本才能得到所需的语言模型,上述相关技术难以适应目前的互联网快速发展。
技术实现思路
[0005]为了解决上述技术问题,本申请提供了一种领域语言模型的确定方法和相关装置,整体训练耗时更低,大大提高了确定领域语言模型的效率,降低了时间成本。
[0006]本申请实施例公开了如下技术方案:
[0007]一方面,本申请实施例提供了一种领域语言模型的确定方法,所述方法包括:
[0008]获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;
[0009]基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种领域语言模型的确定方法,其特征在于,所述方法包括:获取专业领域的知识图谱,所述知识图谱包括用于标识所述专业领域中专业词汇的实体节点,连接所述实体节点的路径用于标识所连接实体节点间的关联关系;基于从所述实体节点中确定出的待定节点,在所述知识图谱中遍历得到与所述待定节点对应的关联节点集合,所述关联节点集合中的关联节点为所述知识图谱中与所述待定节点间的路径数量小于或等于K的实体节点;根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料;通过所述多个图谱知识语料对预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,所述预训练语言模型为完成了预训练的通用语言模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述待定节点、所述关联节点集合以及所述待定节点与所述关联节点间的关联关系,序列化得到多个图谱知识语料,包括:将所述待定节点作为关联队列的首节点,并依据所述待定节点在所述知识图谱中的拓扑关系,将遍历得到的所述关联节点作为队列节点加入所述关联队列,所述队列节点用于标识所对应关联节点以及与所述待定节点间的关联关系;根据所述关联队列的出队顺序,将所述关联队列的全部或部分队列节点进行序列化得到所述多个图谱知识语料。3.根据权利要求2所述的方法,其特征在于,目标知识语料为所述多个图谱知识语料中的一个图谱知识语料,所述目标知识语料为将所述关联队列的部分队列节点进行序列化得到的;所述根据所述关联队列的出队顺序,将所述关联队列的全部或部分队列节点进行序列化得到多个图谱知识语料,包括:根据所述队列节点间相对于所述待定节点的父子节点关系,从所述关联队列中采样部分队列节点;基于所述部分队列节点的出队顺序进行序列化得到所述目标知识语料。4.根据权利要求3所述的方法,其特征在于,所述队列节点中包括第一节点和第二节点,所述第一节点为所述第二节点的父节点,所述根据所述队列节点间相对于所述待定节点的父子节点关系,从所述关联队列中采样部分队列节点,包括:若所述第一节点被采样到所述部分队列节点中,所述第二节点属于可被采样的队列节点;若所述第一节点未被采样到所述部分队列节点中,所述第二节点属于不可被采样的队列节点。5.根据权利要求1所述的方法,其特征在于,所述通过所述多个图谱知识语料对已经完成预训练的预训练语言模型进行领域训练,得到针对所述专业领域的领域语言模型,包括:通过遮盖所述图谱知识语料中的部分实体节点和/或关联关系,得到图谱训练样本,所述图谱知识语料中的被遮盖部分作为所对应图谱训练样本的样本标签;通过所述预训练语言模型提取所述图谱训练样本的特征向量,并通过分类器对所述图谱训练样本中被遮盖部分的预测结果;根据所述预测结果与所述样本标签间的差异对所述预训练语言模型进行参数调整,得
到针对所述专业领域的领域语言模型。6.根据权利要求5所述的方法,其特征在于,所述通过遮盖所述图谱知识语料中的部分实体节点和/或关联关系,得到图谱训练样本,包括:若所述图谱知识语料中包括多个关联关系,通过N种遮盖方式对所述图谱知识语料进行遮盖处理,得到与所述N种遮盖方式一一对应的N个图谱训练样本,所述N种遮盖方式分别指示遮盖的部分实体节点和/或关联关系不完全相同。7.根据权利要求1
‑
技术研发人员:刘文阁,程轶,刘亚飞,蔡庆玲,梁小丹,郑冶枫,王巨宏,
申请(专利权)人:中山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。