提升知识系统中自然语言处理准确性的方法、设备及介质技术方案

技术编号:42067282 阅读:19 留言:0更新日期:2024-07-19 16:50
本发明专利技术公开一种提升知识系统中自然语言处理准确性的方法、设备及介质,方法包括:步骤1,将待处理知识系统的自然语言构建为待补全知识图谱;步骤2,获取每个三元组的语义模式;步骤3,用语义模式对三元组填充合适的词获得多个语义完整的候选句子;步骤4,添加提示句得出将任务形式转为掩蔽语言建模预训练任务的多个带有完整语义的提示句作为正、负训练样本;步骤5,将正、负训练样本输入预训练语言模型,用交叉熵损失训练预训练语言模型直到满足训练条件;步骤6,用训练好预训练语言模型补全待补全知识图谱;步骤7,处理补全后的知识图谱得出处理结果。该方法提升了智能知识系统中对应知识图谱的自然语言处理的准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其涉及一种提升知识系统中自然语言处理准确性的方法。


技术介绍

1、自然语言处理是很多智能应用系统的基础,如智能问答系统、智能推荐系统、智能会话代理系统等,而自然语言处理常以知识图谱作为处理的主要数据结构,近年来,知识图谱也在自然语言处理的实际应用中取得了巨大成功。

2、知识图谱通常以头实体h、关系r、尾实体t三元组的形式组织事实知识,尽管知识图谱在自然语言处理中取得了巨大的成就,但仍然存在不完整性问题,即知识图谱中缺少许多事实三元组。开发知识图谱自动补全技术是为了减少手工补全的高成本。三元组分类是实现知识图谱自动补全的一项关键技术,旨在确定是否将未知的头实体h、关系r、尾实体t补充到已有知识图谱中,进而实现知识图谱的自动补全。现有的三元组分类方法主要分为两类:基于嵌入的方法和基于文本的方法。基于嵌入的方法通常基于图中的结构信息来学习每个实体和关系的低维表示。然而,基于嵌入的方法通常难以处理结构信息稀缺的稀疏知识图谱。为了解决这个问题,基于文本的方法通常基于三元组的文本信息并引入bert等预训练语言模型。然而,因本文档来自技高网...

【技术保护点】

1.一种提升知识系统中自然语言处理准确性的方法,其特征在于,包括:

2.根据权利要求1所述的提升知识系统中自然语言处理准确性的方法,其特征在于,所述步骤1中,根据知识系统中待处理的自然语言构建的知识图谱包括:百科知识系统对应的百科知识图谱、用户关联知识系统对应的用户关联知识图谱、医学知识系统对应的医学知识图谱、论文引用知识系统对应的论文引用知识图谱中的任一种。

3.根据权利要求1所述的提升知识系统中自然语言处理准确性的方法,其特征在于,所述步骤2中,通过将获取的三元组数据中每一个三元组输入语义模式感知模块,由语义模式感知模块按以下方式获取输入的各三元组的语义模式,...

【技术特征摘要】

1.一种提升知识系统中自然语言处理准确性的方法,其特征在于,包括:

2.根据权利要求1所述的提升知识系统中自然语言处理准确性的方法,其特征在于,所述步骤1中,根据知识系统中待处理的自然语言构建的知识图谱包括:百科知识系统对应的百科知识图谱、用户关联知识系统对应的用户关联知识图谱、医学知识系统对应的医学知识图谱、论文引用知识系统对应的论文引用知识图谱中的任一种。

3.根据权利要求1所述的提升知识系统中自然语言处理准确性的方法,其特征在于,所述步骤2中,通过将获取的三元组数据中每一个三元组输入语义模式感知模块,由语义模式感知模块按以下方式获取输入的各三元组的语义模式,包括:

4.根据权利要求1至3任一项所述的提升知识系统中自然语言处理准确性的方法,其特征在于,所述步骤3中,通过将步骤2获取的每个三元组的语义模式输入语义补充模块,由语义补充模块按以下方式对三元组填充合适的词获得语义完整的候选句子后从中选择多个合理的候选句子,包括:

5.根据权利要求1至3任一项所述的提升知识系统中自然语言处理准确性的方法,其特征在于,所述步骤4中,通过多提示模块在步骤3选择的多个合理的候选句子后面均添加“that is [mask]”作为提示句得出带有[mask]标签的提示句作为正训练样本,该正训练样本的[mask]标签对应的单词...

【专利技术属性】
技术研发人员:王杰陈瀚铸方彬彬石志皓吴枫
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1