当前位置: 首页 > 专利查询>贝宝公司专利>正文

用于创建可变长度输入的固定长度表示的过程制造技术

技术编号:32506306 阅读:16 留言:0更新日期:2022-03-02 10:20
一种计算机系统识别从网站的标记语言文档中提取的第一标记语言部分对应于第一可操作元素,其中所述第一标记语言部分是可变长度表示。响应于所述识别出所述第一标记语言部分对应于所述第一可操作元素,所述计算机系统利用递归神经网络(RNN)编码器来创建对应于所述第一标记语言部分的第一代码表示。所述计算机系统识别与一个或多个预定义的目标对应的第一附加信息。所述计算机系统创建最终的固定长度标记语言表示,其包含所述第一代码表示和所述第一附加信息。所述计算机系统将所述最终的固定长度标记语言表示输入到模型中。固定长度标记语言表示输入到模型中。固定长度标记语言表示输入到模型中。

【技术实现步骤摘要】
【国外来华专利技术】用于创建可变长度输入的固定长度表示的过程


[0001]本公开涉及自动编码器,更具体地涉及训练并利用自动编码器来创建可变长度输入的固定长度表示。

技术介绍

[0002]
技术介绍

[0003]Web代表着许多公司在进行风险评估、营销以及其他商业目的而开发有意义的见解时所采用的大量数据源。在许多情况下,公司依赖机器学习算法从已收集的数据中提取这些有意义的见解。然而,机器学习算法通常需要以结构化方式输入数据,因此,利用从Web获得的数据作为机器学习算法的输入可能是成问题的,因为网站的内容表示为HTML,这是基于文本的语法,因为是非结构化的且长度可变而评价不好。创建一种解决方案便利且容易地实现利用Web数据作为机器学习算法的输入将会是有益的。
附图说明
[0004]图1图示根据一个实施例的自动编码器系统。
[0005]图2和图3是图示根据一个实施例的,图1的转换程序在训练图1的自动编码器时的操作的流程图。
[0006]图4是图示根据一个实施例的用于训练图1的自动编码器的过程的流程图。
[0007]图5是图示根据一个实施例的用于训练图1的自动编码器的过程的多次特定迭代的描述。
[0008]图6是图示根据一个实施例的,图1的转换程序在利用训练之后的图1的自动编码器中根据可变长度标记语言片段创建固定长度表示的操作的流程图。
[0009]图7是图示根据一个实施例的,图1的根据可变长度标记语言片段创建固定长度表示以输入到模型的过程的流程图。
[0010]图8是说明根据一个实施例的图1的自动编码器的硬件部件的框图。
具体实施方式
[0011]本公开的实施例提供一种系统、方法和程序产品。一种计算机系统识别从网站的标记语言文档中提取的第一标记语言部分对应于第一可操作元素,其中所述第一标记语言部分是可变长度表示。响应于所述识别出所述第一标记语言部分对应于所述第一可操作元素,所述计算机系统利用递归神经网络(RNN)编码器来创建对应于所述第一标记语言部分的第一代码表示。所述计算机系统识别与一个或多个预定义的目标对应的第一附加信息。所述计算机系统创建最终的固定长度标记语言表示,其包含所述第一代码表示和所述第一附加信息。所述计算机系统将所述最终的固定长度标记语言表示输入到模型中。
[0012]再者,响应于识别出第一标记语言部分对应于第一可操作元素,计算机系统创建对应于所述第一标记语言部分的第一嵌入式令牌序列。响应于创建所述第一嵌入式令牌序
列,所述计算机系统利用递归神经网络(RNN)编码器创建与所述第一嵌入式令牌序列对应的第一代码表示。所述计算机系统将第一代码表示输入到RNN解码器中并接收第一输出。所述计算机系统通过将RNN解码器输出的概率向量(或相应的输出令牌序列)与所述第一嵌入式令牌序列比较来确定损耗值。基于所确定的损耗值,所述计算机系统调整与所述RNN编码器相关联的一个或多个权重值。
[0013]在示例实施例中,本公开描述一种根据一个实施例的解决方案,其描述用于训练递归神经网(RNN)自动编码器以根据可变长度标记语言片段的输入来输出固定长度标记语言表示的过程。本公开描述一种解决方案,其包括利用网络爬虫来识别标记语言(例如超文本标记语言(HTML)或可扩展标记语言(XML))内的可操作元素,以及进一步创建与可操作元素对应的令牌序列。本公开描述创建用于令牌序列的嵌入,并且附加地,通过RNN编码器输入嵌入式令牌以创建所述可操作元素的代码表示。然后,本公开描述将所述可操作元素的代码表示输入到所述RNN解码器中并确定一系列概率向量(对应于期望的令牌序列的每个令牌的概率向量)。再者,本公开描述根据所述一系列概率向量确定了输出令牌序列,并且附加地确定是否所述输出嵌入式令牌序列与所述输入嵌入式令牌序列之间是否存在收敛。本公开还描述将概率向量(或对应输出嵌入式令牌序列)与期望嵌入式令牌序列进行比较,以识别损耗值(与期望的输出比较时),并且附加地,更新与所述RNN自动编码器关联的权重。可以重复该过程,并且可以持续相应地调整所述权重,直到所述RNN解码器的输出与所述RNN编码器的输入之间存在收敛为止。
[0014]再者,本公开描述一种根据一个实施例的用于利用训练的RNN编码器以根据可变长度标记语言片段的输入来输出固定长度标记语言表示的过程。在示例实施例中,本公开识别标记语言(例如HTML或XML)内的可操作元素,并且进一步地预处理标记语言(如上文所述)并利用RNN编码器来创建可操作元素的固定长度标记语言表示的表示。再者,本公开描述识别与可操作元件对应的附加信息,并利用所述附加信息(如果有的话)来创建所述可操作元素的最终的固定长度标记语言表示。再者,本公开描述将固定长度标记语言表示输入到模型中,例如机器学习模型,并获得输出。
[0015]如上文陈述,机器学习算法通常需要以结构化方式输入数据,并且因此,使用从Web上获得的数据作为机器学习的输入是成问题的。本公开描述一种利用RNN处理顺序数据的强大功能以及自动编码器重现来自短代码的输入以产生用于序列的RNN编码器的强大功能的过程。如下文所述,结合附图,利用训练的RNN编码器可以用于创建HTML片段的固定长度表示(从而创建可变长度HTML代码与固定长向量表示之间的映射)。现在将参考附图详细描述本公开的实施例。
[0016]图1图示根据一个实施例的自动编码器系统100。在示例实施例中,自动编码器系统100包括通过网络130互连的服务器110、Web服务器120、服务器140和服务器150。
[0017]在示例实施例中,网络130是因特网,表示用于支持连接到因特网的设备之间的通信的网络和网关的全球集合。网络130可以包括例如有线、无线或光纤连接。在其他实施例中,网络130可以实现为内联网、蓝牙网络、局域网(LAN)或广域网(WAN)。一般来说,网络130可以是将支持计算设备,例如服务器110与服务器140之间进行通信的连接和协议的任何组合。
[0018]在示例实施例中,Web服务器120包括网站122。在示例实施例中,Web服务器120可
以是台式计算机、膝上型计算机、平板计算机、移动设备、手持设备、瘦客户端或能够往返于其他计算设备,如服务器110经网络130接收和发送数据的任何其他电子设备或计算系统。尽管未示出,但是可选地,Web服务器120可以包括执行相同的软件以便按前端服务器和负载均衡器所分布的统一地处理请求的服务器集群。在示例实施例中,Web服务器120是针对支持托管在Web服务器120上的网站,如网站122,以及支持与托管在Web服务器120上的网站相关的网络请求而进行了优化的计算设备。Web服务器120结合附图予以更详细地描述。
[0019]在示例实施例中,网站122是文件的集合,包括例如HTML文件、CSS文件、图像文件和JavaScript文件。网站122还可以包括其他资源文件,如音频文件和视频文件。网站122结合附图予以更详细地描述。
[0020]在示例实施例中,服本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机系统,包括:一个或多个计算机可读存储器,所述一个或多个计算机可读存储器存储程序指令;以及一个或多个处理器,所述一个或多个处理器被配置为执行所述程序指令以使所述系统执行包括以下项的操作:识别从网站的标记语言文档中提取的第一标记语言部分是否对应于第一可操作元素,其中,所述第一标记语言部分是可变长度表示;响应于识别出所述第一标记语言部分对应于所述第一可操作元素,利用递归神经网络(RNN)编码器来创建对应于所述第一标记语言部分的第一代码表示;识别与一个或多个预定义的目标对应的第一附加信息;创建最终的固定长度标记语言表示,其包括所述第一代码表示和所述第一附加信息;以及将所述最终的固定长度标记语言表示输入到模型中。2.根据权利要求1所述的计算机系统,所述操作还包括:响应于识别出所述第一标记语言部分对应于所述第一可操作元素,创建对应于所述第一标记语言部分的第一嵌入式令牌序列。3.根据权利要求1所述的计算机系统,其中,所述第一附加信息包括与所述网站上的网络爬虫的活动相关联的信息,或与所述标记语言文档中的一个或多个元素对应的信息。4.根据权利要求3所述的计算机系统,其中,与所述标记语言文档中的一个或多个元素对应的信息包括将物品添加到数字购物车的指示,并且其中,所述一个或多个预定义的目标包括由所述网络爬虫访问所述网站的结帐页面。5.根据权利要求1所述的计算机系统,所述操作还包括:从所述模型接收输出,所述输出提供有关是否应该选择所述第一可操作元素的指示,其中,所述输出是基于对所述第一附加信息和所述一个或多个预定义的目标的分析来确定的。6.根据权利要求1所述的计算机系统,所述操作还包括:在识别出所述第一标记语言部分对应于所述第一可操作元素之前,校准所述RNN自动编码器,其中,所述RNN自动编码器包括RNN编码器和RNN解码器,并且其中,校准所述RNN自动编码器包括:响应于识别出对应于第二可操作元素的第二标记语言部分,创建对应于所述第二标记语言部分的第二嵌入式令牌序列;响应于创建所述第二嵌入式令牌序列,利用所述RNN编码器创建与所述第二嵌入式令牌序列对应的第二代码表示;响应于将所述第二代码表示输入到RNN解码器中,接收第一组一个或多个概率向量;根据所述第一组一个或多个概率向量确定第一输出;通过将所述RNN解码器的所述第一输出与所述第二嵌入式令牌序列进行比较来确定损耗值;以及基于所确定的损耗值,调整与所述RNN自动编码器相关联的一个或多个权重值。7.根据权利要求6所述的计算机系统,其中,校准所述RNN自动编码器还包括:
响应于识别出对应于第三可操作元素的第三标记语言部分,创建对应于所述第三标记语言部分的第三嵌入式令牌序列;响应于创建所述第三嵌入式令牌序列,利用所述RNN编码器创建与所述第三嵌入式令牌序列对应的第三代码表示;将所述第三代码表示输入到所述RNN解码器中,并且基于将第二输出与所述第三嵌入式令牌序列进行比较,确定所述第二输出与所述第三嵌入式令牌序列之间存在收敛,所述第二输出是根据由所述RNN解码器输出的第二组一个或多个概率向量创建的;以及基于确定所述第二输出与所述第三嵌入式令牌序列之间存在收敛,确定不需要对与所述RNN自动编码器相关联的所述一个或多个权重值进行调整。8.一种非暂时性计算机可读介质,存储计算机可执行指令,响应于所述计算机可执行指令被一个或多个硬件处理器执行,使所述一个或多个硬件处理器执行包括以下项的操作:识别出从网站的标记语言文档中提取的第一标记语言部分对应于第一可操作元素,其中,所述第一标记语言部分是可变长度表示;响应于所述识别出所述第一标记语言部分对应于所述第一可操作元素,利用递归神经网络(RNN)编码器来创建对应于所述第一标记语言部分的第一代码表示;识别与一个或多个预定义的目标对应的第一附加信息;创建最终的固定长度标记语言表示,其包含所述第一代码表示和所述第一附加信息;以及将所述最终的固定长度标记语言表示输入到模型中,其中,所述模型只能接收固定长度输入。9.根据权利要求8所述的非暂时性计算机可读介质,所述操作还包括:响应于识别出所述第一标记语言部分对应于所述第一可操作元素,创建对应于所述第一标记语言部分的第一嵌入式令牌序列。10.根据权利要求8所述的非暂时性计算机可读介质,其中,所述第一附加信息包括与所述网站上的网络爬虫的活动相关联的信息,或与所述标记语言文档中的一个或多个元素对应的信息。11.根据权利要求8所述的非暂时性性计算机可读介质,其中,所述第一标记语言部分是超文本标记语言(HTML)或可扩展标记语言(XML)。12.根据权利要求8所述的非暂...

【专利技术属性】
技术研发人员:亚登
申请(专利权)人:贝宝公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1