文本三元组的抽取方法及装置、电子设备及存储介质制造方法及图纸

技术编号：26377592 阅读：23 留言：0更新日期：2020-11-19 23:46

本申请提供了一种文本三元组的抽取方法及装置，电子设备及存储介质，先确定文本中存在的实体关系，再获取第一集合和第二集合，第一集合中包括的任意一个实体为文本中的满足实体关系的第一实体，第二集合中包括的任意一个实体为文本中的满足实体关系的第二实体，最后，依据所述第一实体、所述实体关系、以及与所述第一实体匹配的所述第二实体，得到所述文本三元组。本方案可以避免现有技术中先抽取实体，导致因大部分实体不存在对应的实体关系，而使获取三元组效率低的问题。进一步的，因为得到的三元组中第一实体与第二实体是相互匹配的，且第一实体与第二实体都满足实体关系，所以可以提高三元组的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本三元组的抽取方法及装置、电子设备及存储介质
本申请涉及自然语言处理领域，尤其涉及一种提取信息的方法及装置、电子设备及计算机可读存储介质。
技术介绍
三元组的结构为：第一实体-实体关系-第二实体，文本三元组抽取的目标是抽取文本中实体以及确定实体之间的关系，文本三元组信息抽取是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术，是信息检索、智能问答、以及智能对话等人工智能应用的重要基础。因此，如何高效且准确的抽取文本三元组信息，成为了目前亟待解决的问题。
技术实现思路
专利技术人研究发现，现有的文本三元组信息抽取的抽取方法通常是，先抽取文本中的实体，再通过实体预测实体间的关系，从而得到三元组信息。这样抽取方式的问题在于，如果文本中抽取出的实体比较多，但很多实体不存在对应的实体关系，则需要花费较长的时间，才可以找到满足实体关系的实体，导致文本三元组信息抽取效率低。另外，若抽取的实体抽取错误的情况下，会直接导致最后得到文本三元组也是错误的。所以先抽取文本中的实体，再通过实体预测实体间...

【技术保护点】
1.一种文本三元组的抽取方法，其特征在于，包括：/n确定文本中存在的实体关系；/n获取第一集合和第二集合；所述第一集合中包括的任意一个实体为所述文本中的满足所述实体关系的第一实体，所述第二集合中包括的任意一个实体为所述文本中的满足所述实体关系的第二实体；所述第一实体所属的实体类型为所述实体关系中规定的第一实体类型，所述第二实体所属的实体类型为所述实体关系中规定的第二实体类型；/n针对所述第一集合的每个所述第一实体，从所述第二集合中确定与所述第一实体匹配的所述第二实体；/n依据所述第一实体、所述实体关系、以及与所述第一实体匹配的所述第二实体，得到所述文本三元组。/n

【技术特征摘要】
1.一种文本三元组的抽取方法，其特征在于，包括：
确定文本中存在的实体关系；
获取第一集合和第二集合；所述第一集合中包括的任意一个实体为所述文本中的满足所述实体关系的第一实体，所述第二集合中包括的任意一个实体为所述文本中的满足所述实体关系的第二实体；所述第一实体所属的实体类型为所述实体关系中规定的第一实体类型，所述第二实体所属的实体类型为所述实体关系中规定的第二实体类型；
针对所述第一集合的每个所述第一实体，从所述第二集合中确定与所述第一实体匹配的所述第二实体；
依据所述第一实体、所述实体关系、以及与所述第一实体匹配的所述第二实体，得到所述文本三元组。

2.根据权利要求1所述的方法，其特征在于，所述确定文本中存在的实体关系，包括：
获取预先建立的实体关系数据库，所述实体关系数据库包括多个所述实体关系；
针对所述实体关系数据库中的每个所述实体关系，采用基于BERT模型的文本二分类算法，计算所述实体关系存在于所述文本中的概率值；
若所述概率值大于第一阈值，则将所述实体关系作为所述文本中存在的所述实体关系。

3.根据权利要求1所述的方法，其特征在于，所述获取第一集合和第二集合，包括：
将所述文本与所述实体关系进行拼接，得到第一文本；
从所述第一文本中获取所述第一实体和所述第二实体；
将所有所述第一实体组成的集合作为所述第一集合，并将所有所述第二实体组成的集合作为所述第二集合。

4.根据权利要求3所述的方法，其特征在于，从所述第一文本中获取所述第一实体的过程，包括：
针对所述第一文本中每个文字，采用基于BERT模型的微调算法对所述文字进行二分类计算，得到所述文字作为第一实体起始字、和第一实体结束字的概率值；所述第一实体起始字为所述第一实体的第一个字，所述第一实体结束字为所述第一实体的最后一个字；
将所述第一实体起始字的概率值大于第二阈值的所有所述文字，作为所述第一实体起始字；
将所述第一实体结束字的概率值大于第三阈值的所有所述文字，作为所述第一实体结束字；
针对每个所述第一实体起始字，从所有所述第一实体结束字中选取第一目标结束字，所述第一目标结束字在所述第一文本中位于所述第一实体起始字之后，且所述第一目标结束字在所有所述第一实体结束字中，与所述第一实体起始字在所述第一文本中的位置最近；
将所述第一文本中从所述第一实体起始字到所述第一目标结束字的文字段作为所述第一实体。

5.根据权利要求3所述的方法，其特征在于，从所述第一文本中获取所述第二实体的过程，包括：
针对所述第一文本中每个文字，采用基于BERT模型的微调算法对所述文字进行二分类计算，得到所述文字作为第二实体起始字、和第二实体结束字的概率值；所述第二实体起始字为所述第二实体的第一个字，所述第二实体结束字为所述第二实体的最后一个字；
将所述第二实体起始字的概率值大于第四阈值的所有所述文字，作为所述第二实体起始字；
将所述第二实体结束字的概率值大于第五阈值的所有所述文字，作为所述第二实体结...

【专利技术属性】
技术研发人员：陈欢欢，易惠雄，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人