一种训练结构化模型、文本结构化的方法及相关装置制造方法及图纸

技术编号:20797107 阅读:52 留言:0更新日期:2019-04-06 10:42
本申请实施例提供了一种文本结构化的方法,该方法包括:获取待结构化的目标文本;将所述目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的目标实体集合;将已识别到所述目标实体集合的目标文本输入到关系提取模型,通过所述关系提取模型提取所述目标实体之间的关系;根据目标实体集合中的目标实体及所述目标实体之间的关系,对所述目标文本进行结构化表示,生成目标结构。本申请实施例中,转换速度快,节省人工成本。

A Training Structured Model, Text Structured Method and Related Devices

The embodiment of this application provides a method of text structuring, which includes: acquiring the target text to be structured; inputting the target text into the entity extraction model, identifying the target entity set in the target text through the entity extraction model; and inputting the target text recognized to the target entity set into the relationship extraction model through the relationship. The extraction model extracts the relationship between the target entities, and according to the relationship between the target entities and the target entities in the target entity set, the target text is structured to generate the target structure. In the embodiment of this application, the conversion speed is fast and the labor cost is saved.

【技术实现步骤摘要】
一种训练结构化模型、文本结构化的方法及相关装置
本专利技术涉及数据处理领域,具体涉及一种训练结构化模型、文本结构化的方法及相关装置。
技术介绍
当今信息时代,用户通过检索得到需要的文本信息已经成为日常工作和学习生活中常规的方式,当前,用户可以检索到的文本信息为非结构化的文本信息,文本信息诸如学术文献或专利等,但是像学术文献和专利这类专业性,逻辑性较强,技术术语较多的文本,用户理解较为复杂,然而将这种专业性强,技术术语较多的文本转换成结构化的表达方式(如表格、结构图、流程图等)可以帮助用户将文本中隐晦的结构显现出来,将文本中的信息表达的更加清晰。传统的方式中,用户需要根据自己的理解与认知,人为的对此类专业性强的文本信息进行结构化表示,极大的耗费人工成本。
技术实现思路
有鉴于此,本专利技术实施例提供了一种文本结构化的方法以及一种训练结构化模型的方法,文本结构化的方法可以对文本信息自动进行结构化表示,生成目标文本,不需要像传统方法,人为的对目标文本进行转换,本申请实施例中提供的方法可以极大的节省人工成本。第一方面,本申请实施例提供了一种文本结构化的方法,包括:获取待结构化的目标文本;将所述目本文档来自技高网...

【技术保护点】
1.一种文本结构化的方法,其特征在于,包括:获取待结构化的目标文本;将所述目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的目标实体集合;将已识别到所述目标实体集合的目标文本输入到关系提取模型,通过所述关系提取模型提取所述目标实体之间的关系;根据目标实体集合中的目标实体及所述目标实体之间的关系,对所述目标文本进行结构化表示,生成目标结构。

【技术特征摘要】
1.一种文本结构化的方法,其特征在于,包括:获取待结构化的目标文本;将所述目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的目标实体集合;将已识别到所述目标实体集合的目标文本输入到关系提取模型,通过所述关系提取模型提取所述目标实体之间的关系;根据目标实体集合中的目标实体及所述目标实体之间的关系,对所述目标文本进行结构化表示,生成目标结构。2.根据权利要求1所述的方法,其特征在于,所述目标实体集合包括第一实体,所述根据所述目标实体之间的关系,对所述目标文本进行结构化表示,生成目标结构之前,所述方法还包括:获取实体关系数据集,所述实体关系数据集是根据文本集合中的实体及实体之间的关系得到的;所述实体关系数据集包括N个实体及所述N个实体之间的关系,所述N为大于或者等于2的正整数;查询所述实体关系数据集,得到与所述第一实体具有关系的M个第二实体,所述M为小于或者等于N的正整数;在所述目标文本的预置范围内,查找所述第二实体;若查找到所述M个第二实体中的至少一个目标第二实体,则建立所述第一实体与所述目标第二实体之间的关系。3.根据权利要求2所述的方法,其特征在于,所述在所述目标文本中的预置范围内,查找所述第二实体之前,所述方法还包括:创建实体匹配窗口;根据所述实体匹配窗口的大小确定所述目标文本中的预置范围。4.根据权利要求2所述的方法,其特征在于,所述获取实体关系数据集,包括:将所述文本集合输入到实体提取模型,通过所述实体提取模型识别所述文本集合中的实体;将已识别到所述实体的文本集合输入到关系提取模型,通过所述关系提取模型提取所述文本集合中每篇文本中实体及所述实体之间的关系。5.根据权利要求1所述的方法,其特征在于,所述根据所述目标实体及所述目标实体之间的关系,生成目标结构包括:获取用于表示所述实体的目标图像信息;根据所述目标实体及所述目标实体之间的关系,生成用图像信息表示的目标结构。6.根据权利要求5所述的方法,其特征在于,所述获取用于表示所述实体的图像信息,包括:从互联网数据中获取图像集合;识别所述图像集合中每个图像的文字;若所述目标实体与所述图像集合中的文字相匹配,则从所述图像集合中选择用于表示所述目标实体的图像信息。7.根据权利要求1-6中任一项所述的方法,其特征在于,所述目标结构包括节点和边,所述节点用于表示所述实体,所述边用于表示目标实体之间的关系。8.根据权利要求1-6中任一项所述的方法,其特征在于,所述目标实体包括组件、属性或属性值;和/或,所述目标实体之间的关系包括所述组件之间的关系,所述组件与所述属性之间的关系,或,所述属性与所述属性值的关系。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取候选结构集合,所述候选结构集合中包括多篇候选结构,所述候选结构为候选文本的结构化表示;提取候选图谱的候选实体集合,所述候选图谱包括至少一篇所述候选结构;确定所述目标实体集合与所述候选图谱的候选实体集合的实体交集;根据所述实体交集与所述目标实体集合的差异参数确定所述目标结构与所述候选图谱的新颖度。10.根据权利要求9所述的方法,其特征在于,当所述候选图谱包括至少两篇候选结构时,所述至少两篇候选结构为第一候选结构和第二候选结构;确定所述第一候选结构和所述第二候选结构的关联实体;通过所述关联实体将所述第一候选结构和所述第二候选结构进行关联,得到所述候选图谱。11.根据权利要求9所述的方法,其特征在于,所述实体之间的关系包括二元关系和三元关系;所述二元关系包括两个实体及所述两个实体之间的关系;所述三元关系包括至少两个二元关系,所述至少两个二元关系中包括相同的实体。12.根据权利要求11所述的方法,其特征在于,所述方法还包括:提取所述目标文本中的多个二元关系,得到目标二元关系集合;将所述目标二元集合中的每个目标二元关系所包含的两个目标实体定位到所述候选图谱中的对应的两个实体位置;计算每个目标二元关系对应的所述两个实体位置之间的距离;根据所述距离确定每...

【专利技术属性】
技术研发人员:姜庭欣王志强王希桢李静毅刘乾楠郭永红何佳陈伟然杨冠梅段博超
申请(专利权)人:北京合享智慧科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1