一种数据抽取方法和装置制造方法及图纸

技术编号:25396579 阅读:27 留言:0更新日期:2020-08-25 23:01
本申请实施例公开了一种数据抽取方法和装置。所述方法包括:在得到段落文本后,获取所述段落文本中所需抽取的内容的特征信息;根据所述内容的特征信息,生成所述段落文本对应的问句;从所述段落文本中确定所述问句对应的答案信息;根据所述答案信息得到所需抽取的数据。

【技术实现步骤摘要】
一种数据抽取方法和装置
本申请实施例涉及信息处理领域,尤指一种数据抽取方法和装置。
技术介绍
数据抽取是一个涉及从各种来源检索数据的过程。抽取数据用以进一步处理数据,将数据迁移到数据存储库或进一步分析数据。将数据转换为此过程的一部分是很常见的。例如,如果需要对数据执行计算,并将这些结果存储在数据仓库中。如果要抽取数据并将其存储在数据仓库中,则可能需要添加其他元数据或使用时间戳或地理位置数据来丰富数据。如果希望将数据与目标数据存储中的其他数据组合在一起。这些过程统称为抽取,转换和加载,抽取是此过程中的第一个关键步骤。在相关技术中,数据抽取操作是在得到数据后,通过人工筛选所需的信息,并从数据中挑选所需的信息完成数据抽取操作。在实际应用中,上述数据抽取方式存在着效率低的问题。
技术实现思路
为了解决上述任一技术问题,本申请实施例提供了一种数据抽取方法和装置。为了达到本申请实施例目的,本申请实施例提供了一种数据抽取方法,包括:在得到段落文本后,获取所述段落文本中所需抽取的内容的特征信息;根据所本文档来自技高网...

【技术保护点】
1.一种数据抽取方法,包括:/n在得到段落文本后,获取所述段落文本中所需抽取的内容的特征信息;/n根据所述内容的特征信息,生成所述段落文本对应的问句;/n从所述段落文本中确定所述问句对应的答案信息;/n根据所述答案信息得到所需抽取的数据。/n

【技术特征摘要】
1.一种数据抽取方法,包括:
在得到段落文本后,获取所述段落文本中所需抽取的内容的特征信息;
根据所述内容的特征信息,生成所述段落文本对应的问句;
从所述段落文本中确定所述问句对应的答案信息;
根据所述答案信息得到所需抽取的数据。


2.根据权利要求1所述的方法,其特征在于:
所述从所述段落文本中确定所述问句对应的答案信息之前,所述方法还包括:
对预先获取的样本数据进行切分操作,得到至少两个切分数据,其中所述样本数据的内容与所述段落文本的内容符合预先的相似度的判断条件;
对切分数据中的词语进行标注,得到标注结果;
利用所述标注结果,对所述样本数据进行建模操作,得到语言解析模型;
所述从所述段落文本中确定所述问句对应的答案信息,包括:
利用所述语言解析模型分别对所述段落文本和所述问句中的内容进行解析,得到所述段落文本的第一解析内容和所述问句的第二解析内容;
在所述第一解析内容中确定包括有所述第二解析内容的答案信息。


3.根据权利要求2所述的方法,其特征在于,所述利用所述标注结果,对所述样本数据进行建模操作,得到语言解析模型,包括:
将各个词语的标注结果转换为编码数据,其中所述编码数据用于标记标签的内容;
在对利用预先获取的训练样本建立的语言解析模型后,执行验证和/或测试操作,得到验证和/或测试操作得到的结果数据;
比较标注结果对应的编码数据与结果数据的编码数据,得到比较结果;
根据所述比较结果,对所述语言解析模型进行管理。


4.根据权利要求3所述的方法,其特征在于:
所述第一解析内容和所述第二解析内容均通过标签的编码数据来标记;
所述在所述段落文本的解析内容中确定所述问句的答案信息,包括:
利用所述问句的编码数据在所述段落文本的编码数据中进行查找,得到段落文本的编码数据中出现所述问句的编码数据的位置;
从所述段落文本的编码数据中抽取所述位置的编码片段;
将所述编码片段中的编码数据进行解码处理,得到所述答案信息。


5.一种数据抽取装置,包括:
获取模块,设置为在得到段落文本后,获取所述段落文本中所需抽取的内容的特征信息;
生成模块,设置为根据所述内容的特征信息,生成所述段落文本对应的问句;
确定模块,设置为从所述段落文本中确...

【专利技术属性】
技术研发人员:宋宇航付骁弈
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1