【技术实现步骤摘要】
文本信息抽取方法和装置、电子设备及存储介质
[0001]本申请涉及金融科技
,尤其涉及一种文本信息抽取方法和装置、电子设备及存储介质。
技术介绍
[0002]随着越来越多的技术(例如:大数据、云计算或区块链)应用在金融领域,金融科技下的银行系统、交易系统、订单系统等发展不断加快,且产生的业务数据、交易数据、支付数据等数据量不断增多。为了实现机器智能化技术完成文本结构化,以更好的管理大量的文本数据。目前采用实体信息抽取的方式对于数据文本中如词性、位置、公司等类型实体信息进行抽取,并根据抽取后的实体文本构建文本结构化。其中,实体信息抽取是自然语言处理中的一个重要的任务。相关技术在对文本中的实体信息进行抽取时,通常采用预训练的语言模型作为文本的编码器,再通过接入的解码器判断文本中需要提取的内容。并且,相关技术的语言模型通常采用如预训练的语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)、RoBERTa等结构进行构建。通过预训练任务完成语言模型 ...
【技术保护点】
【技术特征摘要】
1.一种文本信息抽取方法,其特征在于,所述方法包括:获取原始语料和所述原始语料的目标语料词;根据预设的聚类中心向量对所述目标语料词进行聚类处理,得到聚类上位分词;根据所述聚类上位分词对所述原始语料进行第一掩码处理,得到第一掩码语料和所述第一掩码语料的掩码类别标签;根据所述目标语料词对所述原始语料进行第二掩码处理,得到第二掩码语料;将所述第一掩码语料输入至预设的初始语言模型进行语料类别预测处理,得到类别预测数据,并根据所述类别预测数据和所述掩码类别标签对所述初始语言模型进行参数调整,得到候选语言模型;将所述第二掩码语料输入至所述候选语言模型进行语料分词预测处理,得到分词预测数据,并根据所述分词预测数据和所述目标语料词对所述候选语言模型进行参数调整,得到目标语言模型;将获取到的目标文本输入到所述目标语言模型进行文本信息抽取,得到文本抽取数据。2.根据权利要求1所述的方法,其特征在于,所述根据预设的聚类中心向量对所述目标语料词进行聚类处理,得到聚类上位分词,包括:获取预设的所述聚类中心向量;对所述目标语料词进行分词特征提取,得到目标语料词向量;对所述目标语料词向量和所述聚类中心向量进行向量距离计算,得到语料词聚类数据;根据所述语料词聚类数据确定所述聚类上位分词。3.根据权利要求2所述的方法,其特征在于,在根据所述聚类上位分词对所述原始语料进行第一掩码处理,得到第一掩码语料和所述第一掩码语料的掩码类别标签之前,所述方法还包括:获取所述聚类中心向量下的所述目标语料词向量,得到聚类语料词向量;对所述聚类语料词向量进行向量均值计算,得到目标聚类向量;根据所述目标聚类向量更新所述聚类中心向量。4.根据权利要求1所述的方法,其特征在于,所述初始语言模型包括语料编码层和第一全连接层,所述将所述第一掩码语料输入至预设的初始语言模型进行语料类别预测处理,得到类别预测数据,并根据所述类别预测数据和所述掩码类别标签对所述初始语言模型进行参数调整,得到候选语言模型,包括:通过所述语料编码层对所述第一掩码语料进行语料编码处理,得到第一语料编码特征;通过所述第一全连接层对所述第一语料编码特征进行语料类别预测,得到类别预测数据;根据所述类别预测数据和所述掩码类别标签进行语料类别损失计算,得到类别损失数据;根据所述类别损失数据对所述初始语言模型进行参数调整,得到所述候选语言模型。5.根据权利要求4所述的方法,其特征在于,所述初始语言模型还包括第二全连接层,
所述第一全连接层的权重维度与所述第二全连接层的权重维度不同;所述将所述第二掩...
【专利技术属性】
技术研发人员:欧阳升,王健宗,程宁,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。