数据的提取方法、装置、设备及存储介质制造方法及图纸

技术编号:37141200 阅读:39 留言:0更新日期:2023-04-06 21:46
本申请提出一种数据的提取方法、装置、设备及存储介质,该方法包括:通过应用本申请的技术方案,能够分别获取文本中包含的每个字符对应的用于表征其所属实体类别的实体类别向量,以及获取用于表征其与前后文字符语义关联的交互语义向量。以使后续根据对每个字符对应的实体类别向量以及交互语义向量的字符分类结果来确定文本中包含的要素数据。进而一方面避免相关技术中出现的,只能依靠人工处理方式从文本中提取其中蕴含的关键要素数据从而导致的处理效率低下的问题。另一方面也可以实现提取的要素数据满足特定的实体类别且能够保留在文本中完整的语义信息的目的,从而保证了数据的提取效果。数据的提取效果。数据的提取效果。

【技术实现步骤摘要】
数据的提取方法、装置、设备及存储介质


[0001]本申请属于数据处理领域,具体涉及一种数据的提取方法、装置、设备及存储介质。

技术介绍

[0002]文本作为人类之间传递信息的桥梁,特别是在互联网迅速发展的今天,利用文本信息作为通信形式进行传播随处可见。
[0003]相关技术中,往往存在着用户上传的文本内容信息复杂度高的现象。因此,通常需要工作人员从文本中找到其中蕴含的关键要素数据并进行提取后传播给对应的用户进行使用。然而,上述方式存在着一个问题,即当面对海量文本的时候,人工抽取要素数据的方式会导致效率较低,进而影响用户的使用体验。

技术实现思路

[0004]本申请提出一种数据的提取方法、装置、设备及存储介质,可以解决相关技术中出现的,只能依靠人工处理方式从文本中提取其中蕴含的关键要素数据从而导致的处理效率低下的问题。
[0005]本申请第一方面实施例提出了一种数据的提取方法,包括:
[0006]获取目标文本包含的待识别字符,并识别得到待识别字符对应的实体类别向量以及交互语义向量,所述交互语义向量用于反映在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据的提取方法,其特征在于,包括:获取目标文本包含的待识别字符,并识别得到待识别字符对应的实体类别向量以及交互语义向量,所述交互语义向量用于反映在所述目标文本中,所述待识别字符与相邻字符之间的语义关联关系;根据所述待识别字符对应的实体类别向量以及交互语义向量,从所述目标文本中提取要素数据。2.根据权利要求1所述的方法,其特征在于,所述识别得到待识别字符对应的实体类别向量以及交互语义向量,包括:根据所述待识别字符,从预先生成的实体映射集合中,获取所述待识别字符对应的实体类别向量;以及,将所述待识别字符输入到预设的向量识别模型中,得到待识别字符对应的所述交互语义向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述待识别字符,从预先生成的实体映射集合中,获取所述待识别字符对应的实体类别向量,包括:从预先生成的实体映射集合包括的实体类别向量与特征字符的映射关系中,查询是否存在与所述待识别字符匹配的特征字符;如果存在,则将所述匹配的特征字符对应的实体类别向量作为所述实体类别向量。4.根据权利要求2所述的方法,其特征在于,预设的向量识别模型包括事件预训练模型和双向长短期记忆识别模型;所述将所述待识别字符输入到预设的向量识别模型中,得到待识别字符对应的所述交互语义向量,包括:将所述待识别字符输入到所述事件预训练模型中,得到待识别字符对应的字符级语义向量,其中所述字符级语义向量用于表征所述待识别字符在所述目标文本中的语义;将每个所述字符级语义向量输入所述双向长短期记忆识别模型中,得到每个所述待识别字符对应的交互语义向量。5.根据权利要求1所述的方法,其特征在于,所述根据待识别字符对应的实体类别向量以及交互语义向量,从所述目标文本中提取要素数据,包括:将待识别字符对应的所述实体类别向量与所述交互语义向量进行拼接,得到所述待识别字符对应的拼接向量;将所述待识别字符对应的拼接向量输入到预设的字符分类模型中,得到待识别字符对应的标签值,所述标签值用于反映对应待识别字符的实体类型以及在所述实体类型下的字符排列位置;根据标签值,从所述目标文本中提取要素数据。6.根据权利要求5所述的方法,其特征在于,所述根据标签值,从所述目标文本中提取要素数据,包括:基于所述标签值所反映的第一实体类型,获取至少一个属于所述...

【专利技术属性】
技术研发人员:冯文锋张跃伟
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1