【技术实现步骤摘要】
训练方法、数据处理方法、装置、设备、介质和程序产品
[0001]本公开涉及人工智能领域,更具体地涉及一种训练方法、数据处理方法、装置、设备、介质和程序产品。
技术介绍
[0002]在互联网上获取文本信息时,不仅仅获取到文本信息本身,同时会需要获取文本自身的结构化元数据。
[0003]相关技术中,可以通过手写规则进行信息爬取,例如对于不同的网页通过使用不同的正则表达式进行数据的抽取。还可以预先将文本处理为纯文本,然后人工对纯文本中的结构化元数据进行标注,来训练深度学习模型。
[0004]上述手写规则的方式兼容性低,对于不同的网页需要写不同的正则表达式,效率较低。而利用纯文本训练深度学习模型的方式依赖大规模的人工数据标注,训练成本较高。因此,提出一种兼备低成本和高效率的自动化数据处理方式,是当前亟待解决的问题。
技术实现思路
[0005]鉴于上述问题,本公开提供了一种提高数据处理效率的训练方法、数据处理方法、装置、设备、介质和程序产品。
[0006]本公开实施例的一个方面,提供了一种数据处 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理模型的训练方法,包括:获取第一网页,其中,所述第一网页的源代码中包括第一代码标签和待处理的第一文本内容,所述第一文本内容包括M个文本段,M为大于或等于1的整数;将第一文本段关联的第二代码标签和第一位置信息中的至少一个,与所述第一文本段的文本相组合,获得第一输入向量,其中,所述第一文本段为所述M个文本段中的任一个,所述第一代码标签包括所述第二代码标签,所述第一位置信息为所述第一文本段在所述M个文本段中的位置信息;将所述第一输入向量和所述第一文本段的要素标签作为训练样本,来训练所述数据处理模型。2.根据权利要求1所述的方法,其中,所述方法还包括获得所述第一文本段的要素标签,具体包括:确定所述第一文本段的要素类别;确定所述第一文本段在所述要素类别中的第二位置信息;基于所述要素类别和所述第二位置信息标注所述要素标签。3.根据权利要求1所述的方法,其中,所述获得第一输入向量包括获得文本向量,具体包括:将所述第一文本段的文本输入预训练模型,其中,所述预训练模型包括预先训练完成的自然语言处理模型;获得所述预训练模型输出的所述文本向量。4.根据权利要求3所述的方法,其中,所述获得第一输入向量包括获得代码标签向量,具体包括:确定关联所述第一文本内容的S种第一代码标签,其中,所述S种第一代码标签包括所述第二代码标签;对所述S种第一代码标签中每种第一代码标签进行向量编码;根据所述向量编码后的结果,获得所述第二代码标签的所述代码标签向量。5.根据权利要求3或4中任一项所述的方法,其中,所述获得第一输入向量包括获得位置向量,具体包括:确定所述第一文本段在所述M个文本段中的第一顺序,其中,所述第一位置信息包括所述第一顺序;基于所述第一顺序获得所述位置向量。6.根据权利要求1所述的方法,其中,所述数据处理模型包括双向长短期记忆网络层和全连接层,所述训练所述数据处理模型包括:将所述第一输入向量作为所述双向长短期记忆网络层的输入;将所述双向长短期记忆网络层的输出作为所述全连接层的输入;基于所述全连接层的输出与所述要素标签计算获得损失函数,来根据所述损失函数更新所述数据处理模型的参数,其中,所述全连接层的输出包括所述第一文本段的预测要素标签。7.根据权利要求6所述的方法,其中,所述数据处理模型还包括归一化层,在将所述第一输入向量作为所述双向长短期记忆网络层的输入之前,还包括:
通过所述归一化层对所述第一输入向量进行归一化处理。8.根据权利要求6所述的方法,其中,所述数据处理模型还包括弃权层,在...
【专利技术属性】
技术研发人员:罗奕康,聂砂,崔震,戴菀庭,张士存,
申请(专利权)人:建信金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。