【技术实现步骤摘要】
基于词汇增强的信息解析方法、装置及电子设备
[0001]本专利技术涉及数据处理
,尤其涉及一种基于词汇增强的信息解析方法、装置及电子设备。
技术介绍
[0002]在文本处理中,一个通用的需求是将一段文本中有价值的信息提取出来,比如在订购酒店的需求,需要将非结构的文本信息中的地点,时间等关键信息抽取出来。在金融债券领域中也同样存在这种需求,从非结构化的文本信息中提取有价值的信息。
[0003]在文本处理中,一个通用的需求是将一段文本中有价值的信息提取出来,比如在订购酒店的需求,需要将非结构的文本信息中的地点,时间等关键信息抽取出来。在金融债券领域中也同样存在这种需求,从非结构化的文本信息中提取有价值的信息。
[0004]现有的预训练模型在构造中文语言模型上,嵌入层采用的是字符级别的输入,缺点是忽视了文本中丰富的词汇的信息,对文本信息尤其是边界信息的提取效果提升有限。
[0005]针对中文的优化模型,比如Lattice
‑
LSTM,无法与预训练模型结合起来,同时,训练阶段也不能实现 ...
【技术保护点】
【技术特征摘要】
1.一种基于词汇增强的信息解析方法,其特征在于,所述方法包括:获取待解析的债券信息,根据债券信息构造输入序列,所述输入序列包括债券信息中的字符向量和字符对应的词汇向量;构建预训练模型,通过预训练模型对输入序列进行处理,生成输入序列的语义表征;将语义表征通过丢弃层和归一化层后,输出目标向量,所述目标向量为解析后的结构化的债券信息。2.根据权利要求1所述的方法,其特征在于,所述获取待解析的债券信息,根据债券信息构造输入序列,包括:获取待解析的债券信息,将债券信息处理为单个的字符;根据单个的字符构造输入序列。3.根据权利要求2所述的方法,其特征在于,所述根据单个的字符构造输入序列,包括:获取待解析的债券信息中的中文句子;根据预设的词典对中文句子进行匹配,获取中文句子中的词汇;获取每个字符与包含所述字符的词汇组成词汇对,生成输入序列。4.根据权利要求3所述的方法,其特征在于,所述构建预训练模型,通过预训练模型对输入序列进行处理,生成输入序列的语义表征,包括:构建基于BERT模型的预训练模型;通过BERT模型对输入序列进行处理,生成输入序列对应的语义表征。5.根据权利要求4所述的方法,其特征在于,所述通过BERT模型对输入序列进行处理,生成输入序列对应的语义表征,包括:通过BERT模型对输入序列中的词汇向量进行非线性变换,生成非线性变换后的词汇向量,所述变换后的词汇向量与字符向量的维度对齐;计算字符向量与词汇向量的相关性,根据相关性计算所有词汇向量的权重,根据权重计算目标词汇向量;将目标词汇向量融合到字符向量中,生成输入序列的语义表征。6.根据权利要求5所述的方法,其特征在于...
【专利技术属性】
技术研发人员:喻广博,周靖宇,
申请(专利权)人:北京快确信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。