【技术实现步骤摘要】
使用从结构化数据库中提取的自然语言表达来预训练语言模型
技术介绍
[0001]各种语言模型已被证明对诸如问答
、
情感分析和总结之类的任务是有效的
。
这些模型通常针对特定领域进行训练,使用非常大的数据集或人工注释的数据集,因此这些模型可能难以扩展
。
为了获得这些模型的功能,通常会进行预训练,以便针对特定领域微调模型
。
但是,新颖的搜索或域外的搜索通常结果不佳,从而限制了这些模型在没有必要训练数据的新应用中的使用
。
附图说明
[0002]将参照附图描述根据本公开的各种实施例,其中:
[0003]图1图示了根据至少一个实施例的示例训练和查询处理环境;
[0004]图2图示了根据至少一个实施例的示例搜索环境;
[0005]图
3A
示出了根据至少一个实施例的示例数据集;
[0006]图
3B
‑
3E
示出了根据至少一个实施例的示例记录;
[0007]图
4A
示出了根据至少一个实施例的用于训练机器学习系统的示例流程图;
[0008]图
4B
示出了根据至少一个实施例的用于使用机器学习系统进行训练和搜索的示例流程图;
[0009]图5示出了根据至少一个实施例的使用机器学习系统进行训练和搜索的示例流程图;
[0010]图6示出了根据至少一个实施例的用于生成纯文本数据集的示例流程图;
[0011]图7示出了根 ...
【技术保护点】
【技术特征摘要】
1.
一种计算机实现的方法,包括:将来自结构化数据库的多个数据条目转换成纯文本语料库,所述纯文本语料库包括所述多个数据条目中的两个或更多个数据条目之间的至少一个关系的至少一个自然语言表示;至少部分地使用所述纯文本语料库更新语言模型的一个或更多个参数;使用语言模型接收查询,所述查询与对应于所述纯文本语料库的域相关联;以及使用所述语言模型并且响应于确定所述查询与对应于所述纯文本语料库的所述域相关联而生成对所述查询的响应,其中所述查询或所述响应中的至少一个包括所述两个或更多个数据条目中的第一数据条目,并且其中,所述响应是至少基于所述第一数据条目和所述两个或更多个数据条目中的所述第一数据条目与另一数据条目之间的所述至少一个关系的至少一个纯文本表示而生成的
。2.
如权利要求1所述的计算机实现的方法,其中将来自结构化数据库的多个数据条目转换成纯文本语料库还包括:生成所述纯文本语料库的两个或更多个部分之间的关系的所述自然语言表示,所述纯文本语料库的所述两个或更多个部分对应于来自所述结构化数据库的所述两个或更多个数据条目
。3.
如权利要求1所述的计算机实现的方法,还包括:响应于接收到所述查询,在搜索域中搜索,所述搜索域与所述语言模型外部的搜索引擎相关联
。4.
如权利要求1所述的计算机实现的方法,其中所述查询是自然语言查询
。5.
如权利要求1所述的计算机实现的方法,其中所述结构化数据库是非纯文本数据库
。6.
如权利要求5所述的计算机实现的方法,其中所述结构化数据库是关系数据库
。7.
如权利要求1所述的计算机实现的方法,还包括:确定一组数据库中的第一结构化数据库的域对应于目标域,其中转换所述多个数据条目包括转换从所述第一结构化数据库提取的数据
。8.
如权利要求1所述的计算机实现的方法,还包括:使用数据存储来存储所述纯文本语料库;以及至少部分地基于来自所述数据存储的所述纯文本语料库而微调所述语言模型
。9.
一种系统,包括:一个或更多个处理器,用于:识别结构化数据集中的信息之间的至少一个关联;处理所述信息,从而维持所述至少一个关联;从所述信息生成一个或更多个域的训练集;接收与所述一个或更多个域相关联的输入查询,与所述输入查询相关联的语言模型至少使用所述训练集来至少部分地进行训练;使用所述语言模型生成对所述输入查询的响应
。10.
如权利要求9所述的系统,其中所述关联对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。