当前位置: 首页 > 专利查询>辉达公司专利>正文

使用从结构化数据库中提取的自然语言表达来预训练语言模型制造技术

技术编号:39723289 阅读:10 留言:0更新日期:2023-12-17 23:28
本公开涉及使用从结构化数据库中提取的自然语言表达来预训练语言模型

【技术实现步骤摘要】
使用从结构化数据库中提取的自然语言表达来预训练语言模型

技术介绍

[0001]各种语言模型已被证明对诸如问答

情感分析和总结之类的任务是有效的

这些模型通常针对特定领域进行训练,使用非常大的数据集或人工注释的数据集,因此这些模型可能难以扩展

为了获得这些模型的功能,通常会进行预训练,以便针对特定领域微调模型

但是,新颖的搜索或域外的搜索通常结果不佳,从而限制了这些模型在没有必要训练数据的新应用中的使用

附图说明
[0002]将参照附图描述根据本公开的各种实施例,其中:
[0003]图1图示了根据至少一个实施例的示例训练和查询处理环境;
[0004]图2图示了根据至少一个实施例的示例搜索环境;
[0005]图
3A
示出了根据至少一个实施例的示例数据集;
[0006]图
3B

3E
示出了根据至少一个实施例的示例记录;
[0007]图
4A
示出了根据至少一个实施例的用于训练机器学习系统的示例流程图;
[0008]图
4B
示出了根据至少一个实施例的用于使用机器学习系统进行训练和搜索的示例流程图;
[0009]图5示出了根据至少一个实施例的使用机器学习系统进行训练和搜索的示例流程图;
[0010]图6示出了根据至少一个实施例的用于生成纯文本数据集的示例流程图;
[0011]图7示出了根据至少一个实施例的示例数据中心系统;
[0012]图8示出了根据至少一个实施例的计算机系统;
[0013]图9示出了根据至少一个实施例的计算机系统;
[0014]图
10
示出了根据一个或更多个实施例的图形处理器的至少部分;以及
[0015]图
11
示出了根据一个或更多个实施例的图形处理器的至少部分

具体实施方式
[0016]根据各种实施例的方法提供了用于在纯文本转换期间维持数据库内的层次和结构关系以供训练学习模型使用的系统和方法

因此,与传统的语义搜索技术相比,搜索的改进有助于从数据语料库中识别新信息

各种实施例可以克服与利用去噪目标来训练一个或更多个模型的传统训练方法相关联的问题

去噪目标是有限的,尤其是在尝试识别新信息时,因为它可能会忽略原始数据中存在的结构信息

此信息可以包括来自人工审阅者的重要工作或注释,并且会因传统评估而丢失

此外,系统和方法也可以扩展到多于文本类数据,并且可以利用存储在结构化数据库中的信息,例如关系数据库

以这种方式,当出于训练目的将信息转换为纯文本时可以保留结构,这可以使语言模型的预训练能够从这些关系中受益,从而在使用语言模型时提供改进的搜索结果

[0017]各种实施例能够使用自然语言搜索实现新发现,而无需使用大型人工注释的数据集

此外,可以通过利用与数据库相关联的层次或结构信息来提供对语义搜索的改进

实施例提供了在转换的纯文本数据上预训练的语言模型

例如,可以从不同的结构化或关系数据库或数据源获取文本数据并对其进行处理以保留该关联结构,同时也可以将其转换为纯文本以用于训练目的

根据该信息对模型进行预训练,使模型能够学习原始数据中存在的层次结构和关系

然后,该语言模型可用于处理一个或更多个不同域内的信息,然后提供对各种输入查询的响应

在某些实施例中,转换纯文本数据可以是自动化过程,例如表格到文本的转换过程,或者可以特定于特定域

在至少一个实施例中,由于语言模型的改进训练
(
例如,包括复杂

分层

关系

交织等的训练
)
,可以针对域内文本提供搜索结果的改进

因此,语言模型可以接收查询,理解查询,搜索域内信息,然后找到典型搜索引擎会失败的相关项目

[0018]实施例还可以针对从一个或更多个结构数据库
(
例如关系数据库
)
以及其他选项生成文本

系统和方法可以包括一个或更多个自动化过程,该过程可以接收数据库的一个或更多个部分作为输入,并且从该输入中,至少部分地基于数据库内的信息来确定不同组件之间的关系

例如,数据库可以对项目进行分组或以其他方式分类
(
例如,按世代
/
祖先分组

按父
/
子关系分组等
)。
各种实施例可以评估这些关系,然后生成与表内的关系相关联的一个或更多个记录,这些记录可以对应于对训练目的可能有用的纯文本信息

例如,数据库可以包括与药物类别

作用方法和驱动该作用方法的化合物列表有关的信息

评估后,纯文本信息,例如“化合物
A
是一种
A
激活剂
。”或“化合物
A
被归类为
B
类药物
。”,可能会生成

然后可以在预训练语言模型中使用这些关系,从而可以通过利用被评估数据库中还提供的结构关系来改进域内搜索

[0019]环境
100
图示了在诸如关系数据库等的数据库中维持层次结构以训练语言模型以改进对查询的搜索结果响应的过程流,如图1所示

在该示例中,环境
100
可以在包括一个或更多个处理器和一个或更多个存储器的一个或更多个计算机系统上执行

计算机系统可以是分布式计算环境
(
例如,云计算环境
)
的一部分,其中环境
100
的一个或更多个系统被托管或以其他方式在不同系统上执行

应当理解,虽然各种组件可以被图示为不同的模块或子系统,但各种实施例可以将各种模块或子系统的一个或更多个特征结合到其他相关的模块或子系统中

[0020]在至少一种环境中,信息集与一个或更多个数据库
102
相关联

在各种实施例中,信息集可以包括可以以某种类型的层次或关系方式被格式化或存储的数据,例如关系数据库

表等

与数据库
102
相关联的各个信息集可以包括由人工审阅者或通过与数据库软件系统相关联的规则准备或以其他方式指定的丰富格式
(
例如,以将信息输入到信息集中
)。
结果,数据库内的信息可以提供可能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种计算机实现的方法,包括:将来自结构化数据库的多个数据条目转换成纯文本语料库,所述纯文本语料库包括所述多个数据条目中的两个或更多个数据条目之间的至少一个关系的至少一个自然语言表示;至少部分地使用所述纯文本语料库更新语言模型的一个或更多个参数;使用语言模型接收查询,所述查询与对应于所述纯文本语料库的域相关联;以及使用所述语言模型并且响应于确定所述查询与对应于所述纯文本语料库的所述域相关联而生成对所述查询的响应,其中所述查询或所述响应中的至少一个包括所述两个或更多个数据条目中的第一数据条目,并且其中,所述响应是至少基于所述第一数据条目和所述两个或更多个数据条目中的所述第一数据条目与另一数据条目之间的所述至少一个关系的至少一个纯文本表示而生成的
。2.
如权利要求1所述的计算机实现的方法,其中将来自结构化数据库的多个数据条目转换成纯文本语料库还包括:生成所述纯文本语料库的两个或更多个部分之间的关系的所述自然语言表示,所述纯文本语料库的所述两个或更多个部分对应于来自所述结构化数据库的所述两个或更多个数据条目
。3.
如权利要求1所述的计算机实现的方法,还包括:响应于接收到所述查询,在搜索域中搜索,所述搜索域与所述语言模型外部的搜索引擎相关联
。4.
如权利要求1所述的计算机实现的方法,其中所述查询是自然语言查询
。5.
如权利要求1所述的计算机实现的方法,其中所述结构化数据库是非纯文本数据库
。6.
如权利要求5所述的计算机实现的方法,其中所述结构化数据库是关系数据库
。7.
如权利要求1所述的计算机实现的方法,还包括:确定一组数据库中的第一结构化数据库的域对应于目标域,其中转换所述多个数据条目包括转换从所述第一结构化数据库提取的数据
。8.
如权利要求1所述的计算机实现的方法,还包括:使用数据存储来存储所述纯文本语料库;以及至少部分地基于来自所述数据存储的所述纯文本语料库而微调所述语言模型
。9.
一种系统,包括:一个或更多个处理器,用于:识别结构化数据集中的信息之间的至少一个关联;处理所述信息,从而维持所述至少一个关联;从所述信息生成一个或更多个域的训练集;接收与所述一个或更多个域相关联的输入查询,与所述输入查询相关联的语言模型至少使用所述训练集来至少部分地进行训练;使用所述语言模型生成对所述输入查询的响应
。10.
如权利要求9所述的系统,其中所述关联对...

【专利技术属性】
技术研发人员:辛后昌A
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1