【技术实现步骤摘要】
【国外来华专利技术】用于创建可变长度输入的固定长度表示的过程
[0001]本公开涉及自动编码器,更具体地涉及训练并利用自动编码器来创建可变长度输入的固定长度表示。
技术介绍
[0002]
技术介绍
[0003]Web代表着许多公司在进行风险评估、营销以及其他商业目的而开发有意义的见解时所采用的大量数据源。在许多情况下,公司依赖机器学习算法从已收集的数据中提取这些有意义的见解。然而,机器学习算法通常需要以结构化方式输入数据,因此,利用从Web获得的数据作为机器学习算法的输入可能是成问题的,因为网站的内容表示为HTML,这是基于文本的语法,因为是非结构化的且长度可变而评价不好。创建一种解决方案便利且容易地实现利用Web数据作为机器学习算法的输入将会是有益的。
附图说明
[0004]图1图示根据一个实施例的自动编码器系统。
[0005]图2和图3是图示根据一个实施例的,图1的转换程序在训练图1的自动编码器时的操作的流程图。
[0006]图4是图示根据一个实施例的用于训练图1的自动编码器的过程的流程图。
[0007]图5是图示根据一个实施例的用于训练图1的自动编码器的过程的多次特定迭代的描述。
[0008]图6是图示根据一个实施例的,图1的转换程序在利用训练之后的图1的自动编码器中根据可变长度标记语言片段创建固定长度表示的操作的流程图。
[0009]图7是图示根据一个实施例的,图1的根据可变长度标记语言片段创建固定长度表示以输入到模型的过程的流程图。
[0010]图8是说明根 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算机系统,包括:一个或多个计算机可读存储器,所述一个或多个计算机可读存储器存储程序指令;以及一个或多个处理器,所述一个或多个处理器被配置为执行所述程序指令以使所述系统执行包括以下项的操作:识别从网站的标记语言文档中提取的第一标记语言部分是否对应于第一可操作元素,其中,所述第一标记语言部分是可变长度表示;响应于识别出所述第一标记语言部分对应于所述第一可操作元素,利用递归神经网络(RNN)编码器来创建对应于所述第一标记语言部分的第一代码表示;识别与一个或多个预定义的目标对应的第一附加信息;创建最终的固定长度标记语言表示,其包括所述第一代码表示和所述第一附加信息;以及将所述最终的固定长度标记语言表示输入到模型中。2.根据权利要求1所述的计算机系统,所述操作还包括:响应于识别出所述第一标记语言部分对应于所述第一可操作元素,创建对应于所述第一标记语言部分的第一嵌入式令牌序列。3.根据权利要求1所述的计算机系统,其中,所述第一附加信息包括与所述网站上的网络爬虫的活动相关联的信息,或与所述标记语言文档中的一个或多个元素对应的信息。4.根据权利要求3所述的计算机系统,其中,与所述标记语言文档中的一个或多个元素对应的信息包括将物品添加到数字购物车的指示,并且其中,所述一个或多个预定义的目标包括由所述网络爬虫访问所述网站的结帐页面。5.根据权利要求1所述的计算机系统,所述操作还包括:从所述模型接收输出,所述输出提供有关是否应该选择所述第一可操作元素的指示,其中,所述输出是基于对所述第一附加信息和所述一个或多个预定义的目标的分析来确定的。6.根据权利要求1所述的计算机系统,所述操作还包括:在识别出所述第一标记语言部分对应于所述第一可操作元素之前,校准所述RNN自动编码器,其中,所述RNN自动编码器包括RNN编码器和RNN解码器,并且其中,校准所述RNN自动编码器包括:响应于识别出对应于第二可操作元素的第二标记语言部分,创建对应于所述第二标记语言部分的第二嵌入式令牌序列;响应于创建所述第二嵌入式令牌序列,利用所述RNN编码器创建与所述第二嵌入式令牌序列对应的第二代码表示;响应于将所述第二代码表示输入到RNN解码器中,接收第一组一个或多个概率向量;根据所述第一组一个或多个概率向量确定第一输出;通过将所述RNN解码器的所述第一输出与所述第二嵌入式令牌序列进行比较来确定损耗值;以及基于所确定的损耗值,调整与所述RNN自动编码器相关联的一个或多个权重值。7.根据权利要求6所述的计算机系统,其中,校准所述RNN自动编码器还包括:
响应于识别出对应于第三可操作元素的第三标记语言部分,创建对应于所述第三标记语言部分的第三嵌入式令牌序列;响应于创建所述第三嵌入式令牌序列,利用所述RNN编码器创建与所述第三嵌入式令牌序列对应的第三代码表示;将所述第三代码表示输入到所述RNN解码器中,并且基于将第二输出与所述第三嵌入式令牌序列进行比较,确定所述第二输出与所述第三嵌入式令牌序列之间存在收敛,所述第二输出是根据由所述RNN解码器输出的第二组一个或多个概率向量创建的;以及基于确定所述第二输出与所述第三嵌入式令牌序列之间存在收敛,确定不需要对与所述RNN自动编码器相关联的所述一个或多个权重值进行调整。8.一种非暂时性计算机可读介质,存储计算机可执行指令,响应于所述计算机可执行指令被一个或多个硬件处理器执行,使所述一个或多个硬件处理器执行包括以下项的操作:识别出从网站的标记语言文档中提取的第一标记语言部分对应于第一可操作元素,其中,所述第一标记语言部分是可变长度表示;响应于所述识别出所述第一标记语言部分对应于所述第一可操作元素,利用递归神经网络(RNN)编码器来创建对应于所述第一标记语言部分的第一代码表示;识别与一个或多个预定义的目标对应的第一附加信息;创建最终的固定长度标记语言表示,其包含所述第一代码表示和所述第一附加信息;以及将所述最终的固定长度标记语言表示输入到模型中,其中,所述模型只能接收固定长度输入。9.根据权利要求8所述的非暂时性计算机可读介质,所述操作还包括:响应于识别出所述第一标记语言部分对应于所述第一可操作元素,创建对应于所述第一标记语言部分的第一嵌入式令牌序列。10.根据权利要求8所述的非暂时性计算机可读介质,其中,所述第一附加信息包括与所述网站上的网络爬虫的活动相关联的信息,或与所述标记语言文档中的一个或多个元素对应的信息。11.根据权利要求8所述的非暂时性性计算机可读介质,其中,所述第一标记语言部分是超文本标记语言(HTML)或可扩展标记语言(XML)。12.根据权利要求8所述的非暂...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。