基于词汇增强的信息解析方法、装置及电子设备制造方法及图纸

技术编号：34006930 阅读：34 留言：0更新日期：2022-07-02 13:37

本发明专利技术公开了一种基于词汇增强的信息解析方法、装置及电子设备，方法包括：获取待解析的债券信息，根据债券信息构造输入序列，所述输入序列包括债券信息中的字符向量和字符对应的词汇向量；构建预训练模型，通过预训练模型对输入序列进行处理，生成输入序列的语义表征；将语义表征通过丢弃层和归一化层后，输出目标向量，所述目标向量为解析后的结构化的债券信息。本发明专利技术实施例充分利用了文本中的词汇信息，从而能使该装置更好的识别出实体边界，提升了金融债券二级成交业务中交易要素提取的准确率。的准确率。的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于词汇增强的信息解析方法、装置及电子设备

[0001]本专利技术涉及数据处理
，尤其涉及一种基于词汇增强的信息解析方法、装置及电子设备。

技术介绍

[0002]在文本处理中，一个通用的需求是将一段文本中有价值的信息提取出来，比如在订购酒店的需求，需要将非结构的文本信息中的地点，时间等关键信息抽取出来。在金融债券领域中也同样存在这种需求，从非结构化的文本信息中提取有价值的信息。
[0003]在文本处理中，一个通用的需求是将一段文本中有价值的信息提取出来，比如在订购酒店的需求，需要将非结构的文本信息中的地点，时间等关键信息抽取出来。在金融债券领域中也同样存在这种需求，从非结构化的文本信息中提取有价值的信息。
[0004]现有的预训练模型在构造中文语言模型上，嵌入层采用的是字符级别的输入，缺点是忽视了文本中丰富的词汇的信息，对文本信息尤其是边界信息的提取效果提升有限。
[0005]针对中文的优化模型，比如Lattice
‑
LSTM，无法与预训练模型结合起来，同时，训练阶段也不能实现...

【技术保护点】

【技术特征摘要】
1.一种基于词汇增强的信息解析方法,其特征在于,所述方法包括：获取待解析的债券信息，根据债券信息构造输入序列，所述输入序列包括债券信息中的字符向量和字符对应的词汇向量；构建预训练模型，通过预训练模型对输入序列进行处理，生成输入序列的语义表征；将语义表征通过丢弃层和归一化层后，输出目标向量，所述目标向量为解析后的结构化的债券信息。2.根据权利要求1所述的方法，其特征在于，所述获取待解析的债券信息，根据债券信息构造输入序列，包括：获取待解析的债券信息，将债券信息处理为单个的字符；根据单个的字符构造输入序列。3.根据权利要求2所述的方法，其特征在于，所述根据单个的字符构造输入序列，包括：获取待解析的债券信息中的中文句子；根据预设的词典对中文句子进行匹配，获取中文句子中的词汇；获取每个字符与包含所述字符的词汇组成词汇对，生成输入序列。4.根据权利要求3所述的方法，其特征在于，所述构建预训练模型，通过预训练模型对输入序列进行处理，生成输入序列的语义表征，包括：构建基于BERT模型的预训练模型；通过BERT模型对输入序列进行处理，生成输入序列对应的语义表征。5.根据权利要求4所述的方法，其特征在于，所述通过BERT模型对输入序列进行处理，生成输入序列对应的语义表征，包括：通过BERT模型对输入序列中的词汇向量进行非线性变换，生成非线性变换后的词汇向量，所述变换后的词汇向量与字符向量的维度对齐；计算字符向量与词汇向量的相关性，根据相关性计算所有词汇向量的权重，根据权重计算目标词汇向量；将目标词汇向量融合到字符向量中，生成输入序列的语义表征。6.根据权利要求5所述的方法，其特征在于...

【专利技术属性】
技术研发人员：喻广博，周靖宇，
申请(专利权)人：北京快确信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人