【技术实现步骤摘要】
基于深度学习算法的债券信息解析方法、装置及电子设备
[0001]本专利技术涉及数据处理
,尤其涉及一种基于深度学习算法的债券信息解析方法、装置及电子设备。
技术介绍
[0002]在文本处理中,一个通用的需求是将一段文本中有价值的信息提取出来,比如在订购酒店的需求,需要将非结构的文本信息中的地点,时间等关键信息抽取出来。在金融债券领域中也同样存在这种需求,从非结构化的文本信息中提取有价值的信息。
[0003]在自然语言处理领域,命名实体识别是一个相对比较成熟的序列标注任务,根据输入的句子,预测出其中具有特定意义的实体的过程,例如债券名,债券代码,机构名。现有的深度学习算法,比较经典的技术有LSTM+CRF,Bert+CRF,Bert+BiLSTM+CRF等序列标注模型。
[0004]现有的预训练模型建立在构造语言模型上,目标是学习笼统的文本表征,缺点是忽视了命名实体识别中丰富的知识。比如Bert模型的预训练过程是随机遮掩句子中的一些单词,再对这些单词进行预测,这种方式不能很好的将命名实体中的实体信息,边界 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习算法的债券信息解析方法,其特征在于,所述方法包括:预先构建深度学习算法模型;所述深度学习算法模型包括编码器和解码器;获取目标域数据集,根据预设的标注指南,构建目标域数据集对应的输入特征;根据输入特征对深度学习算法模型中的编码器依次进行粗粒度预训练和细粒度预训练,生成目标编码器;对深度学习算法的解码器进行设置,生成目标解码器,所述目标解码器采用指针网络;根据目标编码器和目标解码器生成目标深度学习算法模型;根据输入特征对目标深度学习算法模型进行训练,生成债券解析模型;获取待解析的债券信息,将债券信息输入债券解析模型,输出解析结果。2.根据权利要求1所述的方法,其特征在于,所述预先构建深度学习算法模型;所述深度学习算法模型包括编码器和解码器,包括:预先构建深度学习算法模型的编码器,所述编码器为BERT模型;预先构建解码器,所述解码器用于对编码进行解码;根据编码器和解码器生成深度学习算法模型。3.根据权利要求2所述的方法,其特征在于,所述获取目标域数据集,根据预设的标注指南,构建目标域数据集对应的输入特征,包括:获取债券数据对应的标注指南;获取目标域数据集,根据预设的标注指南及目标域数据集生成标注指南和输入数据组成的输入特征。4.根据权利要求3所述的方法,其特征在于,所述根据输入特征对深度学习算法模型中的编码器进行粗粒度预训练,包括:获取大量公开数据集生成弱监督数据;根据输入特征对深度学习算法的编码器进行预训练,并采用弱监督数据对编码器进行监督,生成第一编码器,所述编码器用于判断输入句子中的实体与实体。5.根据权利要求4所述的方法,其特征在于,所述根据输入特征对对深度学习算法模型中的编码器进行细粒度预训练,包括:获取金融领域的命名实体词典,根据命名实体词典扫描输入特征,并根据最大匹配算法自动标注;通过自动筛选的策略,在每一轮的训练结束后都用训练好的模型去重新预测数据集,重新标注置信度高的标签;使用远程监督数据进行下一轮的数据,训练完成后,输出目标编码器。6.根据权利要求5所述的方法,其特征在于,所述对深度学习算法的解码器进行设置,生成目标解码器,所述目标解码器采用指针网络,包括:对对深度学习算法的解码器进行设置,采用...
【专利技术属性】
技术研发人员:喻广博,周靖宇,
申请(专利权)人:北京快确信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。