短链接生成方法、系统和电子设备技术方案

技术编号:31084971 阅读:14 留言:0更新日期:2021-12-01 12:36
本申请涉及短链接的领域,具体地涉及一种短链接生成方法、系统和电子设备,其采用语义理解模型来对短链接的文本进行语义理解以得到短链接的标签,并且本申请考虑到短链接的文本是基于长链接的文本通过生成算法自动生成的,因此在语义理解模型中,充分利用了长链接的文本信息和短链接的文本信息两者以在短链接的生成阶段中对于该短链接进行需要唤起的APP进行标注。这样,基于所述短连接的标注能够支持不同APP的唤起功能。支持不同APP的唤起功能。支持不同APP的唤起功能。

【技术实现步骤摘要】
短链接生成方法、系统和电子设备


[0001]本申请涉及短链接的领域,且更为具体地,涉及一种短链接生成方法、系统和电子设备。

技术介绍

[0002]短链接是指通讯双方有数据交互时,就建立一个链接,数据发送完成后,则断开此链接,即每次链接只完成一项业务的发送。短链接具有不需要长期占用通道,且对于业务频率不高的场合能节省通道使用率的优点。并且现今实现技术语言Java,相关技术使用Nginx,SpringBoot,Redis,MySQL。采用自定义算法、缓存处理等方式保证短链接转换处理快速。
[0003]但是,在实际的应用过程中,通过手机Push、短信等方式发送URL链接过长会引起字符集转化、参数太长而占用网络资源,短信长度太长而导致分条发送等各种问题。并且现有的技术导致URL链接字符过多,这就会占用短信等内容长度。因此,如何实现同一套短链接系统支持不同APP唤起功能是需要考虑的问题。
[0004]因此,期望一种短链接生成方案。

技术实现思路

[0005]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种短链接生成方法、系统和电子设备,其采用语义理解模型来对短链接的文本进行语义理解以得到短链接的标签,并且本申请考虑到短链接的文本是基于长链接的文本通过生成算法自动生成的,因此在语义理解模型中,充分利用了长链接的文本信息和短链接的文本信息两者以在短链接的生成阶段中对于该短链接进行需要唤起的APP进行标注。这样,基于所述短连接的标注能够支持不同APP的唤起功能。
[0006]根据本申请的一个方面,提供了一种短链接生成方法,其包括:
[0007]训练阶段,包括:
[0008]获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本;
[0009]将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;
[0010]将所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本;
[0011]通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型;以及
[0012]预测阶段,包括:
[0013]获取待编码的长链接文本;
[0014]将所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列;
[0015]将所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短连接文本;
[0016]将所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值;以及
[0017]将所述分类特征向量通过多标签分类器以对所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。
[0018]根据本申请的另一方面,提供了一种短链接生成系统,其包括:
[0019]训练模块,包括:
[0020]数据集获取单元,用于获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本;
[0021]训练用特征向量序列生成单元,用于将所述数据集获取单元获得的所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;
[0022]解码单元,用于将所述训练用特征向量序列生成单元获得的所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本;
[0023]训练单元,用于通过最小化所述解码单元获得的所述解码短链接文本和所述数据集获取单元获得的所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型;以及
[0024]预测模块,包括:
[0025]待编码文本获取单元,用于获取待编码的长链接文本;
[0026]语义理解模型处理单元,用于将所述待编码文本获取单元获得的所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列;
[0027]解码器模型处理单元,用于将所述语义理解模型处理单元获得的所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短连接文本;
[0028]分类特征向量生成单元,用于将所述语义理解模型处理单元获得的所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值;以及
[0029]分类器处理单元,用于将所述分类特征向量生成单元获得的所述分类特征向量通过多标签分类器以对所述解码器模型处理单元获得的所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。
[0030]根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的短链接生成方法。
[0031]与现有技术相比,本申请的实施例提供了一种短链接生成方法、系统和电子设备,其采用语义理解模型来对短链接的文本进行语义理解以得到短链接的标签,并且本申请考
虑到短链接的文本是基于长链接的文本通过生成算法自动生成的,因此在语义理解模型中,充分利用了长链接的文本信息和短链接的文本信息两者以在短链接的生成阶段中对于该短链接进行需要唤起的APP进行标注。通过这样的方式,可以使得对于短链接文本进行基于语义标注的效果更好。
附图说明
[0032]通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0033]图1为根据本申请实施例的短链接生成方法中训练阶段的流程图。
[0034]图2为根据本申请实施例的短链接生成方法中预测阶段的流程图。
[0035]图3为根据本申请实施例的短链接生成方法中训练阶段的架构示意图。
[0036]图4为根据本申请实施例的短链接生成方法中预测阶段的架构示意图。
[0037]图5为根据本申请实施例的短链接生成方法中,将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列的流程图。
[0038]图6为根据本申请实施例的短链接生成方法中,通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型的流程图。
[0039]图7为根据本申请实施例的短链接本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短链接生成方法,其特征在于,包括:训练阶段,包括:获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本;将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;将所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本;通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型;以及预测阶段,包括:获取待编码的长链接文本;将所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列;将所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短连接文本;将所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值;以及将所述分类特征向量通过多标签分类器以对所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。2.根据权利要求1所述的短链接生成方法,其中,将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,包括:使用所述语义理解模型的词嵌入层将所述训练用长连接文本中的每个词转化为词向量以获得词向量序列;以及使用所述语义理解模型的Bert模型对所述词向量序列进行处理以获得所述训练用特征向量序列。3.根据权利要求1所述的短链接生成方法,其中,通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型,包括:计算所述解码短链接文本和所述训练集中的真实短连接文本交叉熵损失函数值作为损失函数值;以及基于所述损失函数值来训练所述语义理解模型和所述解码器模型。4.根据权利要求3所述的短链接生成方法,其中,所述解码器模型为由多个全连接层组成的深度全连接神经网络模型。5.根据权利要求1所述的短链接生成方法,其中,将所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,包括:所述转换器以如下公式所述特征向量序列中每个特征向量的掩码转换值;
所述公式为:其中F
i
为每个特征向量,F
j
是特征向量序列中F
i
以外的特征向量,∑
j≠i
(
·
)表示对所有特征向量F
j
求和,表示F
i
与F
j
之间的距离,且α表示F
i
是否在预测编码过程被掩码。6.根据权利要求5所述的短链接生成方法,其中,如果F
i
在预测编码过程被掩码,则取...

【专利技术属性】
技术研发人员:张雪涛
申请(专利权)人:深圳万顺叫车云信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1