深度学习序列标注方法、装置及计算机可读存储介质制造方法及图纸

技术编号:26792127 阅读:18 留言:0更新日期:2020-12-22 17:07
本发明专利技术涉及一种人工智能,提供一种深度学习序列标注方法、装置及计算机可读存储介质,其中方法包括:利用初始化的embedding层将待处理文本的句子中的每个字进行预处理,获取所述待处理文本中的每个字的字向量;通过bi‑lstm层对所述字向量进行处理,获取所述待处理文本的文本特征;通过softmax层对所述文本特征进行处理,获取所述文本特征的预测标注位置;通过loss层对所述文本特征的预测标注位置进行处理,完成所述待处理文本的序列标注。本发明专利技术提高在深度学习中序列标注的准确性。

【技术实现步骤摘要】
深度学习序列标注方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种基于损失函数的深度学习序列标注方法、装置、电子设备及计算机可读存储介质。
技术介绍
在机器学习和深度学习应用中,数据不平衡是一个非常常见的问题,尤其在自然语言处理任务中。例如:在自然语言处理的序列标注任务中,对命名实体识别采用BIEOS标注时,文本中大部分数据会标为O(即不是命名实体),O与其他类别(标注为B、I、E、S)的数量相差非常明显,这种显著的不平衡在普通的loss下会导致模型倾向于负例,但是实际上在标注任务中正确标注正例更为重要,因此一般采用macro-F1这种同时注重各个标签的准确与召回的评价函数来进行评测,并且负例过多会导致模型难以学习到困难样本(标注为正例的样本),会在损失函数的推动下遗忘对困难样本的学习。为了解决不平衡问题,采取非常多的解决方法,例如:从数据的角度进行数据抽样、对大类数据欠采样、对小类数据过采样、利用smote生成数据、对数据进行回译、以及在损失函数中对小类样本的损失进行手动或者自动加权等,这些举措在一定程度上缓解了数据不平衡带来的模型对困难样本难学习的问题。但上述解决标注不平衡问题的方式,忽视损失函数本身的特点带来的问题,其中,给损失函数加权是一种从表层去解决的思路,本质上损失函数始终平等的看待每个样本,无论正负标签,普通loss(如交叉熵)始终都是将样本推向1或者0,但实际上,对标注某个字分类而言,将样本分为正负只需要样本的分为正负的概率大于或小于0.5即可,不需要花费更多注意力来极致的推向0或者1。这种极致的推向是导致模型在不平衡数据上失效的原因。为解决上述问题,本专利技术亟需提供一种新的基于损失函数的深度学习序列标注方法、装置、电子设备及计算机可读存储介质。
技术实现思路
本专利技术提供一种深度学习序列标注方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高在深度学习中序列标注的准确性。为实现上述目的,本专利技术提供的一种深度学习序列标注方法,所述方法包括:利用初始化的embedding层对待处理文本的句子中的每个字进行预处理,获取所述待处理文本中的每个字的字向量;通过bi-lstm层对所述字向量进行处理,获取所述待处理文本的文本特征;通过softmax层对所述文本特征进行处理,获取所述文本特征的预测标注位置;通过loss层对所述文本特征的预测标注位置进行处理,完成所述待处理文本的序列标注。可选地,所述利用初始化的embedding层将待处理文本的句子中的每个字进行预处理,获取所述待处理文本中的每个字的字向量,包括如下步骤:利用初始化的embedding层将所述待处理文本的句子中的每个字由one-hot向量映射为低维稠密的字向量,得到所述待处理文本中的每个字的字向量。可选地,所述通过bi-lstm层对所述字向量进行处理,获取所述待处理文本的文本特征,包括如下步骤:将所述待处理文本中的句子的每个字的字向量作为双向lstm各个时间步的输入;将正向lstm输出的隐状态向量与反向lstm的在各个位置输出的隐状态向量进行按位置拼接,得到完整的隐状态向量;对所述完整的隐状态向量进行处理,获取所述待处理文本的文本特征。可选地,所述通过softmax层对所述文本特征进行处理,获取所述文本特征的预测标注位置,包括如下步骤:对所述文本特征进行softmax计算,计算所述待处理文本中句子的每个字预测为某一个标注标签的归一化概率;将计算得到的最大概率标注为预测标签,完成所述待处理文本中待标注位置的分类。可选地,所述对所述文本特征进行softmax计算,计算所述待处理文本中句子的每个字预测为某一个标注标签的归一化概率,包括如下步骤:所述softmax计算公式为:其中,i表示K中某个分类,gi表示该分类的值,K∈(0,n)。可选地,所述通过loss层对所述文本特征的预测标注位置进行处理,完成所述待处理文本的序列标注,包括如下步骤:根据loss损失函数计算所述预测标注位置与真实标签位置的损失值;根据所述损失值,对深度学习模型进行反复训练,直至所述深度学习模型收敛,所述深度学习模型训练完成;通过训练完成的深度学习模型对所述待处理文本进行处理,获取所述待处理文本的序列标注。可选地,所述根据loss损失函数计算所述预测标注位置与真实标签位置的损失值,采用的loss损失函数的具体公式如下:其中,1-pi1表示自动缩放系数;pi1表示预测为1的概率;yi1则是标注为1的概率;∈为平滑项。为了解决上述问题,本专利技术还提供一种深度学习序列标注装置,所述装置包括:字向量获取模块,用于利用初始化的embedding层对待处理文本的句子中的每个字进行预处理,获取所述待处理文本中的每个字的字向量;文本特征获取模块,用于通过bi-lstm层对所述字向量进行处理,获取所述待处理文本的文本特征;预测标注位置获取模块,用于通过softmax层对所述文本特征进行处理,获取所述文本特征的预测标注位置;序列标注完成模块,用于通过loss层对所述文本特征的预测标注位置进行处理,完成所述待处理文本的序列标注。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的深度学习序列标注方法。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的深度学习序列标注方法。本专利技术实施例通过初始化的embedding层将待处理文本的句子中的每个字进行预处理,获取所述待处理文本中的每个字的字向量;通过bi-lstm层对所述字向量进行处理,获取所述待处理文本的文本特征;通过softmax层对所述文本特征进行处理,获取所述文本特征的预测标注位置;通过loss层对所述文本特征的预测标注位置进行处理,完成所述待处理文本的序列标注。本专利技术通过DSC系数原理的损失函数对待处理文本进行序列标注,这种loss损失函数使得深度学习模型训练时更关注困难样本,在整体上提高标注的准确性。附图说明图1为本专利技术一实施例提供的深度学习序列标注方法的流程示意图;图2为本专利技术一实施例提供的深度学习序列标注装置的模块示意图;图3为本专利技术一实施例提供的实现深度学习序列标注方法的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本文档来自技高网
...

【技术保护点】
1.一种深度学习序列标注方法,其特征在于,所述方法包括:/n利用初始化的embedding层对待处理文本的句子中的每个字进行预处理,获取所述待处理文本中的每个字的字向量;/n通过bi-lstm层对所述字向量进行处理,获取所述待处理文本的文本特征;/n通过softmax层对所述文本特征进行处理,获取所述文本特征的预测标注位置;/n通过loss层对所述文本特征的预测标注位置进行处理,完成所述待处理文本的序列标注。/n

【技术特征摘要】
1.一种深度学习序列标注方法,其特征在于,所述方法包括:
利用初始化的embedding层对待处理文本的句子中的每个字进行预处理,获取所述待处理文本中的每个字的字向量;
通过bi-lstm层对所述字向量进行处理,获取所述待处理文本的文本特征;
通过softmax层对所述文本特征进行处理,获取所述文本特征的预测标注位置;
通过loss层对所述文本特征的预测标注位置进行处理,完成所述待处理文本的序列标注。


2.如权利要求1所述的深度学习序列标注方法,其特征在于,所述利用初始化的embedding层将待处理文本的句子中的每个字进行预处理,获取所述待处理文本中的每个字的字向量,包括如下步骤:
利用初始化的embedding层将所述待处理文本的句子中的每个字由one-hot向量映射为低维稠密的字向量,得到所述待处理文本中的每个字的字向量。


3.如权利要求1所述的深度学习序列标注方法,其特征在于,所述通过bi-lstm层对所述字向量进行处理,获取所述待处理文本的文本特征,包括如下步骤:
将所述待处理文本中的句子的每个字的字向量作为双向lstm各个时间步的输入;
将正向lstm输出的隐状态向量与反向lstm的在各个位置输出的隐状态向量进行按位置拼接,得到完整的隐状态向量;
对所述完整的隐状态向量进行处理,获取所述待处理文本的文本特征。


4.如权利要求1所述的深度学习序列标注方法,其特征在于,所述通过softmax层对所述文本特征进行处理,获取所述文本特征的预测标注位置,包括如下步骤:
对所述文本特征进行softmax计算,计算所述待处理文本中句子的每个字预测为某一个标注标签的归一化概率;
将计算得到的最大概率标注为预测标签,完成所述待处理文本中待标注位置的分类。


5.如权利要求4所述的深度学习序列标注方法,其特征在于,所述对所述文本特征进行softmax计算,计算所述待处理文本中句子的每个字预测为某一个标注标签的归一化概率,包括如下步骤:
所述softmax计算公式为:


【专利技术属性】
技术研发人员:孙思
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1