用广义词汇表标记训练和评估机器学习模型的系统和方法技术方案

技术编号:28421451 阅读:66 留言:0更新日期:2021-05-11 18:29
公开了使用用于文档处理的广义词汇表标记来训练和评估机器学习模型的系统和方法。本文描述了用于使用广义词汇表标记来训练和评估用于文档处理计算应用的机器学习(ML)模型的技术。在一些实施例中,ML系统为多个文档中的非文本内容确定标记集合。ML系统生成包含非文本内容的标记集合的固定长度的词汇表。ML系统还至少部分地基于固定长度的词汇表中的哪些标记在相应文档中出现而为文档的训练数据集中的每个相应文档生成相应的特征向量。ML系统至少部分地基于训练数据集中每个相应文档的相应特征向量来训练ML模型。

【技术实现步骤摘要】
用广义词汇表标记训练和评估机器学习模型的系统和方法相关申请;通过引用并入本申请与2019年7月29日提交的题为“SYSTEMSANDMETHODSFOROPTIMIZINGMACHINELEARNINGMODELSBYSUMMARIZINGLISTCHARACTERISTICSBASEDONMULTI-DIMENSIONALFEATUREVECTORS”的美国申请No.16/524,440相关,该申请在此通过引用并入本文。
本公开涉及机器学习系统和应用。具体地,本公开涉及基于从文档语料库(documentcorpus)中的文档构造的词汇表(vocabulary)来训练(train)、调整(tune)和评估(evaluate)机器学习模型。
技术实现思路
机器学习涉及计算系统通过其在运行时进行推理和调节,而不是依靠静态指令集来执行任务的技术。机器学习具有广泛的应用,诸如调整搜索引擎结果、诊断医疗状况、识别图像、推荐相关项目、预测资源利用率、通过虚拟助手响应自然语言输入,以及改进自主驾驶车辆,等等。在许多应用中,文本文档的训本文档来自技高网...

【技术保护点】
1.存储指令的一个或多个非暂态计算机可读介质,所述指令在由一个或多个硬件处理器执行时,使得:/n接收存储非文本内容的多个文档;/n确定用于所述非文本内容的标记集合;/n生成固定长度的词汇表,所述固定长度的词汇表包含用于所述非文本内容的所述标记集合;/n对于文档的训练数据集中的每个相应文档,至少部分地基于所述固定长度的词汇表中的哪些标记在该相应文档中出现而生成相应的特征向量;/n至少部分地基于所述训练数据集中每个相应文档的相应特征向量来训练机器学习模型。/n

【技术特征摘要】
20191108 US 16/678,2801.存储指令的一个或多个非暂态计算机可读介质,所述指令在由一个或多个硬件处理器执行时,使得:
接收存储非文本内容的多个文档;
确定用于所述非文本内容的标记集合;
生成固定长度的词汇表,所述固定长度的词汇表包含用于所述非文本内容的所述标记集合;
对于文档的训练数据集中的每个相应文档,至少部分地基于所述固定长度的词汇表中的哪些标记在该相应文档中出现而生成相应的特征向量;
至少部分地基于所述训练数据集中每个相应文档的相应特征向量来训练机器学习模型。


2.如权利要求1所述的一个或多个非暂态计算机可读介质,其中,所述非文本内容包括图像、视频或超链接中的至少一者。


3.如权利要求1所述的一个或多个非暂态计算机可读介质,其中,所述标记集合包括以下各项中的一项或多项:(a)与在所述多个文档中的两个或更多个文档中检测到的图像对应的图像标记,(b)与在所述多个文档中的两个或更多个文档中检测到的视频对应的视频标记,或者(c)与在所述多个文档中的两个或更多个文档中检测到的超链接对应的超链接标记;其中每个相应文档的相应特征向量是基于所述图像标记、所述视频标记或所述超链接标记中的一个或多个在该相应文档中的出现而生成的。


4.如权利要求3所述的一个或多个非暂态计算机可读介质,其中,每个相应文档的相应特征向量还是基于所述图像标记、所述视频标记或所述超链接标记中的一个或多个在该相应文档中的相应频率或计数而生成的。


5.如权利要求1所述的一个或多个非暂态计算机可读介质,其中,所述标记集合包括与以下各项中的一项或多项对应的标记:(a)在所述多个文档中的两个或更多个文档中检测到的特定图像类别;(b)在所述多个文档中的两个或更多个文档中检测到的特定视频类别,或者(c)在所述多个文档中的两个或更多个文档中检测到的特定超链接类别;其中每个相应文档的相应特征向量是基于所述特定图像类别、所述特定视频类别或所述特定超链接类别中的一个或多个在该相应文档中的出现而生成的。


6.如权利要求5所述的一个或多个非暂态计算机可读介质,其中,每个相应文档的相应特征向量还是基于所述特定图像类别、所述特定视频类别或所述特定超链接类别中的一个或多个在该相应文档中的相应频率或计数而生成的。


7.如权利要求1所述的一个或多个非暂态计算机可读介质,其中,所述标记集合中的每个相应标记与权重相关联,所述权重是至少部分地基于该相应标记在所述多个文档中的频率而确定的。


8.如权利要求7所述的一个或多个非暂态计算机可读介质,其中,相应标记的权重与该相应标记在所述多个文档中的频率成反相关。


9.如权利要求1所述的一个或多个非暂态计算机可读介质,其中,所述固定长度的词汇表还包括用于在所述多个文档中检测到的文本内容的第二标记集合。


10.如权利要求1所述的一个或多个非暂态计算机可读介质,其中,所述训练数据集包括所述多个文档。


11.如权利要求1所述的一个或多个非暂态计算机可读介质,其中,所述训练数据集中的每个相应文档的相应特征向量的长度等于所述词汇表的固定长度。


12.如权利要求1所述的一个或多个非暂态计算机可读介质,其...

【专利技术属性】
技术研发人员:S·卡鲁锐
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1