基于词汇增强的信息解析方法、装置及电子设备制造方法及图纸

技术编号:34006930 阅读:34 留言:0更新日期:2022-07-02 13:37
本发明专利技术公开了一种基于词汇增强的信息解析方法、装置及电子设备,方法包括:获取待解析的债券信息,根据债券信息构造输入序列,所述输入序列包括债券信息中的字符向量和字符对应的词汇向量;构建预训练模型,通过预训练模型对输入序列进行处理,生成输入序列的语义表征;将语义表征通过丢弃层和归一化层后,输出目标向量,所述目标向量为解析后的结构化的债券信息。本发明专利技术实施例充分利用了文本中的词汇信息,从而能使该装置更好的识别出实体边界,提升了金融债券二级成交业务中交易要素提取的准确率。的准确率。的准确率。

【技术实现步骤摘要】
基于词汇增强的信息解析方法、装置及电子设备


[0001]本专利技术涉及数据处理
,尤其涉及一种基于词汇增强的信息解析方法、装置及电子设备。

技术介绍

[0002]在文本处理中,一个通用的需求是将一段文本中有价值的信息提取出来,比如在订购酒店的需求,需要将非结构的文本信息中的地点,时间等关键信息抽取出来。在金融债券领域中也同样存在这种需求,从非结构化的文本信息中提取有价值的信息。
[0003]在文本处理中,一个通用的需求是将一段文本中有价值的信息提取出来,比如在订购酒店的需求,需要将非结构的文本信息中的地点,时间等关键信息抽取出来。在金融债券领域中也同样存在这种需求,从非结构化的文本信息中提取有价值的信息。
[0004]现有的预训练模型在构造中文语言模型上,嵌入层采用的是字符级别的输入,缺点是忽视了文本中丰富的词汇的信息,对文本信息尤其是边界信息的提取效果提升有限。
[0005]针对中文的优化模型,比如Lattice

LSTM,无法与预训练模型结合起来,同时,训练阶段也不能实现并行化,这就导致预训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于词汇增强的信息解析方法,其特征在于,所述方法包括:获取待解析的债券信息,根据债券信息构造输入序列,所述输入序列包括债券信息中的字符向量和字符对应的词汇向量;构建预训练模型,通过预训练模型对输入序列进行处理,生成输入序列的语义表征;将语义表征通过丢弃层和归一化层后,输出目标向量,所述目标向量为解析后的结构化的债券信息。2.根据权利要求1所述的方法,其特征在于,所述获取待解析的债券信息,根据债券信息构造输入序列,包括:获取待解析的债券信息,将债券信息处理为单个的字符;根据单个的字符构造输入序列。3.根据权利要求2所述的方法,其特征在于,所述根据单个的字符构造输入序列,包括:获取待解析的债券信息中的中文句子;根据预设的词典对中文句子进行匹配,获取中文句子中的词汇;获取每个字符与包含所述字符的词汇组成词汇对,生成输入序列。4.根据权利要求3所述的方法,其特征在于,所述构建预训练模型,通过预训练模型对输入序列进行处理,生成输入序列的语义表征,包括:构建基于BERT模型的预训练模型;通过BERT模型对输入序列进行处理,生成输入序列对应的语义表征。5.根据权利要求4所述的方法,其特征在于,所述通过BERT模型对输入序列进行处理,生成输入序列对应的语义表征,包括:通过BERT模型对输入序列中的词汇向量进行非线性变换,生成非线性变换后的词汇向量,所述变换后的词汇向量与字符向量的维度对齐;计算字符向量与词汇向量的相关性,根据相关性计算所有词汇向量的权重,根据权重计算目标词汇向量;将目标词汇向量融合到字符向量中,生成输入序列的语义表征。6.根据权利要求5所述的方法,其特征在于...

【专利技术属性】
技术研发人员:喻广博周靖宇
申请(专利权)人:北京快确信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1