一种垂直领域规则常识知识获取方法及系统技术方案

技术编号：33836016 阅读：19 留言：0更新日期：2022-06-16 11:52

本发明专利技术涉及人工智能技术领域，公开了一种垂直领域规则常识知识获取方法及系统，该获取方法，包括以下步骤：S1，规则常识知识建模规范制定；S2，规则常识知识获取网络基础模型构建；S3，规则常识知识获取网络完整模型构建。本发明专利技术解决了现有技术存在的规则常识知识获取效率较低、准确率较低、成本较高等问题。成本较高等问题。成本较高等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种垂直领域规则常识知识获取方法及系统

[0001]本专利技术涉及人工智能
，具体是一种垂直领域规则常识知识获取方法及系统。

技术介绍

[0002]目前，人工智能相关技术已经在自然语言处理、图像识别、音视频合成等多个领域得到了较好的应用效果，其本质上是通过大规模数据训练模型，使得模型能够根据数据特征的不同“学会区分”。但是，通过这种方式得到的智能处理算法模型深受数据质量影响，当数据分布稍有偏差，如部分文本缺失、图像加入轻微噪声等时，模型便会区分错误，其泛化性和鲁棒性较差，更不用说让模型执行逻辑推理、场景理解、决策分析等高阶任务，也难以在未知情形下进行迁移和适应。究其原因，是由于传统机器学习算法没有引入多类型的知识，所以在人工智能领域，知识的重要性愈发凸显。
[0003]在纷繁多样的知识中，有一类特殊的知识——规则常识知识，其获取、表示与处理一直以来是人工智能领域的一大核心难题。众多研究者们发现，一些对于只有几岁的儿童来说非常容易做到的事情，用人工智能的方法经过多年研究仍然无法有效处理。人工智能专家德雷福斯(Dreyfus Hubert)认为：常识问题是实现通用人工智能的最大障碍，如果常识问题解决了，人工智能的研究也就完成了。由此可见，规则常识知识的引入对于人工智能相关技术的突破有着非常重要的意义。对于规则常识知识而言，目前学术界和工业界还没有一个统一公认的定义，一般抽象地描述为，规则常识知识是几乎所有人都能依此感知、理解和判断共享事物，人们都可以合理地期望而不需辩论。同时，在不同的垂直领域，如医疗、金融...

【技术保护点】

【技术特征摘要】
1.一种垂直领域规则常识知识获取方法，其特征在于，包括以下步骤：S1，规则常识知识建模规范制定：根据规则常识知识的涵盖范畴以及规则常识知识对于下游任务的支撑需求，对规则常识知识进行分类并制定建模规范；S2，规则常识知识获取网络基础模型构建：利用语言预训练模型从文本学习中具备的语言知识能力，构建规则常识知识获取网络基础模型；并设计符合规则常识知识获取要求的预训练推理任务，向规则常识知识获取网络基础模型输入部分已知领域的规则常识知识从而对规则常识知识获取网络基础模型进行微调，促使规则常识知识获取网络基础模型学习到与规则常识知识相关的内涵从而具备生成规则常识知识的能力；S3，规则常识知识获取网络完整模型构建：围绕规则常识知识在下游推理任务中的使用方式的特殊性，对规则常识知识获取网络基础模型进行训练，实现符合人类认知的规则常识知识的获取。2.根据权利要求1所述的一种垂直领域规则常识知识获取方法，其特征在于，步骤S2包括以下步骤：S21，输入层表示：利用原始输入文本，得到规则常识知识获取网络的输入表示；S22，网络模型编码：充分学习文本中的每个词之间的语义关联，得到文本的上下文语义表示；S23，网络模型参数优化：计算交叉熵损失，不断优化规则常识知识获取网络基础模型参数，当交叉熵损失小于设定阈值时停止优化，得到最终的规则常识知识获取网络基础模型参数。3.根据权利要求2所述的一种垂直领域规则常识知识获取方法，其特征在于，步骤S3中，设计的预训练推理任务包括：掩码语言模型任务、下一句预测任务。4.根据权利要求3所述的一种垂直领域规则常识知识获取方法，其特征在于，步骤S3中，执行掩码语言模型任务时，将输入统一规定为两段文本拼接的形式。5.根据权利要求4所述的一种垂直领域规则常识知识获取方法，其特征在于，步骤S21中，假设原始输入文本为x1x2…
x
i
…
x
n
，通过掩码操作后的输入文本为x'1x'2…
x'
i
…
x'
n
，对掩码后的输入文本进行处理，得到规则常识知识获取网络的输入表示v，的计算公式为：v＝InputRepresentation(X)，其中，X＝[CLS]x'1x'2…
x'
i
…
x'
n
[SEP]，x
i
表示输入文本的第i个词，x
′
i
表示经过掩码处理后的第i个词，[CLS]表示文本序列开始的特殊标记，[SEP]表示文本序列之间的分隔标记。6.根据权利要求5所述的一种垂直领域规则常识知识获取方法，其特征在于，步骤S22中，输入表示v经过4层Transformer，借助自注意力机制充分学习文本中的每个词之间的语义关联，最终得到文本的上下文语义表示，计算公式为：其中，h
[l]
∈R
N
×
d
...

【专利技术属性】
技术研发人员：刘鑫，崔莹，李春豹，刘万里，黄刘，陈莹，
申请(专利权)人：中国电子科技集团公司第十研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人