结构化文本信息生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39191500 阅读:12 留言:0更新日期:2023-10-27 08:38
本发明专利技术实施例提供了一种结构化文本信息生成方法、装置、电子设备及存储介质,通过对所述待结构化文本信息进行分词操作,确定针对所述待结构化文本信息的第一子词;通过所述第一文本数量信息,和,所述第一文本张量信息生成针对所述第一子词的第一特征张量信息;基于所述第一特征张量信息生成针对所述待结构化文本信息的结构化文本信息,从而实现了以子词作为粒度为基础,有效避免了输出子词多结构穿插的问题,从而提升了文本结构化的效率。从而提升了文本结构化的效率。从而提升了文本结构化的效率。

【技术实现步骤摘要】
结构化文本信息生成方法、装置、电子设备及存储介质


[0001]本专利技术涉及文本结构化
,特别是涉及一种结构化文本信息生成方法、一种结构化文本信息生成装置、一种电子设备以及一种计算机可读存储介质。

技术介绍

[0002]NLP(自然语言处理,Natural Language Processing),是通过计算机理解、处理以及运用人类语言,它属于人工智能的一个分支。在自然语言处理过程中,文本结构化可以将自然文本转化为具有不同分段且各分段都可以具备对应类别的文本。其中,分段在文本结构化中也通常被称为结构段,即,文本结构化主要包括对自然文本包括的多个结构段进行拆分,再对多个结构段所对应的类别进行区分。
[0003]文本结构化的结果是否准确决定了自然语言处理的效率,所以,如何提升文本结构化的效率成为了本领域技术人员需要克服的技术问题。

技术实现思路

[0004]本专利技术实施例是提供一种结构化文本信息生成方法、装置、电子设备以及计算机可读存储介质,以解决如何提升文本结构化的效率的问题。
[0005]本专利技术实施例公开了一种结构化文本信息生成方法,包括:
[0006]获取待结构化文本信息,并确定针对所述待结构化文本信息的第一文本数量信息和第一文本张量信息;
[0007]对所述待结构化文本信息进行分词操作,确定针对所述待结构化文本信息的第一子词;
[0008]通过所述第一文本数量信息,和,所述第一文本张量信息生成针对所述第一子词的第一特征张量信息;
[0009]基于所述第一特征张量信息生成针对所述待结构化文本信息的结构化文本信息。
[0010]可选地,所述方法应用于经预训练的多语言模型Bert,所述多语言模型Bert包括词嵌入层和编码层,所述通过所述第一文本数量信息,和,所述第一文本张量信息生成针对所述第一子词的第一特征张量信息的步骤包括:
[0011]通过所述第一文本张量信息确定针对所述词嵌入层的词嵌入层维度信息,和,针对所述编码层的编码层维度信息;
[0012]基于所述词嵌入层维度信息,和,所述编码层维度信息,和,所述第一文本数量信息生成针对所述第一子词的第一特征张量信息。
[0013]可选地,所述基于所述第一特征张量信息生成针对所述待结构化文本信息的结构化文本信息的步骤包括:
[0014]对所述第一特征张量信息执行降维操作,生成第二特征张量信息;
[0015]基于所述第二特征张量信息生成针对所述待结构化文本信息的结构化文本信息。
[0016]可选地,所述多语言模型Bert包括连接层,所述对所述第一特征张量信息执行降
维操作,生成第二特征张量信息的步骤包括:
[0017]确定针对所述连接层的连接层维度信息;
[0018]基于所述连接层维度信息采用所述多语言模型Bert对所述第一特征张量信息执行降维操作,生成第二特征张量信息。
[0019]可选地,所述待结构化文本信息包括多个第一结构段,所述基于所述第二特征张量信息生成针对所述待结构化文本信息的结构化文本信息的步骤包括:
[0020]基于所述第二特征张量确定针对所述第一结构段的第一结构段锚点;
[0021]基于所述结构段锚点,确定针对所述第一结构段的第一结构段起止位置信息;
[0022]基于所述起止位置,确定针对所述第一结构段的第一结构段类别信息;
[0023]根据所述第一结构段锚点,和,所述第一结构段起止位置信息,和,所述第一结构段类别信息确定针对所述待结构化文本信息的结构化文本信息。
[0024]可选地,还包括:
[0025]获取标注文本信息,并确定针对所述标注文本信息的第二文本数量信息;
[0026]确定针对所述标注文本信息的第二文本张量信息;
[0027]通过所述第二文本数量信息,和,所述第二文本张量信息生成针对所述标注文本信息的第三特征张量信息;
[0028]对所述第三特征张量信息执行降维操作,生成第四特征张量信息;
[0029]基于所述第四特征张量信息训练所述多语言模型Bert。
[0030]可选地,所述标注文本信息包括多个第二结构段,所述基于所述第四特征张量信息训练所述多语言模型Bert的步骤包括:
[0031]对所述标注文本信息进行分词操作,以确定针对所述标注文本信息的第二子词,以及用于表达第二子词的子词序列向量;所述子词序列向量具有对应的序列向量长度信息;
[0032]确定针对所述标注文本信息的文本标签信息;所述文本标签信息包括针对所述第二结构段的第二结构段起止位置信息,和,第二结构段类别信息;
[0033]采用所述第四特征张量信息确定针对所述第二子词的锚点预测值,和,针对所述第二结构段的结构段起止位置信息预测值,和,针对所述第二结构段的结构段类别得分预测值;
[0034]采用所述序列向量长度信息和所述锚点预测值确定目标锚点得分标签值;
[0035]采用所述第二结构段起止位置信息和所述结构段起止位置信息预测值确定目标结构段起始位置标签值;
[0036]采用所述第二结构段类别信息和所述结构段类别得分预测值确定目标结构段类别得分标签值;
[0037]采用所述目标锚点得分标签值,和,所述目标结构段起始位置标签值,和,所述目标结构段类别得分标签值训练所述多语言模型Bert。
[0038]本专利技术实施例还公开了一种结构化文本信息生成装置,包括:
[0039]待结构化文本信息获取模块,用于获取待结构化文本信息,并确定针对所述待结构化文本信息的第一文本数量信息和第一文本张量信息;
[0040]第一子词确定模块,用于对所述待结构化文本信息进行分词操作,确定针对所述
待结构化文本信息的第一子词;
[0041]第一特征张量信息生成模块,用于通过所述第一文本数量信息,和,所述第一文本张量信息生成针对所述第一子词的第一特征张量信息;
[0042]结构化文本信息生成模块,用于基于所述第一特征张量信息生成针对所述待结构化文本信息的结构化文本信息。
[0043]可选地,所述方法应用于经预训练的多语言模型Bert,所述多语言模型Bert包括词嵌入层和编码层,所述通过所述第一文本数量信息,和,所述第一特征张量信息生成模块用于:
[0044]通过所述第一文本张量信息确定针对所述词嵌入层的词嵌入层维度信息,和,针对所述编码层的编码层维度信息;
[0045]基于所述词嵌入层维度信息,和,所述编码层维度信息,和,所述第一文本数量信息生成针对所述第一子词的第一特征张量信息。
[0046]可选地,所述结构化文本信息生成模块用于:
[0047]对所述第一特征张量信息执行降维操作,生成第二特征张量信息;
[0048]基于所述第二特征张量信息生成针对所述待结构化文本信息的结构化文本信息。
[0049]可选地,所述多语言模型Bert包括连接层,所述结构化文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构化文本信息生成方法,其特征在于,包括:获取待结构化文本信息,并确定针对所述待结构化文本信息的第一文本数量信息和第一文本张量信息;对所述待结构化文本信息进行分词操作,确定针对所述待结构化文本信息的第一子词;通过所述第一文本数量信息,和,所述第一文本张量信息生成针对所述第一子词的第一特征张量信息;基于所述第一特征张量信息生成针对所述待结构化文本信息的结构化文本信息。2.根据权利要求1所述的方法,其特征在于,所述方法应用于经预训练的多语言模型Bert,所述多语言模型Bert包括词嵌入层和编码层,所述通过所述第一文本数量信息,和,所述第一文本张量信息生成针对所述第一子词的第一特征张量信息的步骤包括:通过所述第一文本张量信息确定针对所述词嵌入层的词嵌入层维度信息,和,针对所述编码层的编码层维度信息;基于所述词嵌入层维度信息,和,所述编码层维度信息,和,所述第一文本数量信息生成针对所述第一子词的第一特征张量信息。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一特征张量信息生成针对所述待结构化文本信息的结构化文本信息的步骤包括:对所述第一特征张量信息执行降维操作,生成第二特征张量信息;基于所述第二特征张量信息生成针对所述待结构化文本信息的结构化文本信息。4.根据权利要求3所述的方法,其特征在于,所述多语言模型Bert包括连接层,所述对所述第一特征张量信息执行降维操作,生成第二特征张量信息的步骤包括:确定针对所述连接层的连接层维度信息;基于所述连接层维度信息采用所述多语言模型Bert对所述第一特征张量信息执行降维操作,生成第二特征张量信息。5.根据权利要求3或4所述的方法,其特征在于,所述待结构化文本信息包括多个第一结构段,所述基于所述第二特征张量信息生成针对所述待结构化文本信息的结构化文本信息的步骤包括:基于所述第二特征张量确定针对所述第一结构段的第一结构段锚点;基于所述结构段锚点,确定针对所述第一结构段的第一结构段起止位置信息;基于所述起止位置,确定针对所述第一结构段的第一结构段类别信息;根据所述第一结构段锚点,和,所述第一结构段起止位置信息,和,所述第一结构段类别信息确定针对所述待结构化文本信息的结构化文本信息。6.根据权利要求2所述的方法,其特征在于,还包括:获取标注文本信息,并确定针对所述标注文本信息的第二文本数量信息;确定针对所述标注文本信息的第二文本张量信息;通过所述第二文本数量信息,和,所述第二文...

【专利技术属性】
技术研发人员:戴亨玮杨明智麦英
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1