一种新型的半监督文本实体信息抽取方法技术

技术编号：24498767 阅读：69 留言：0更新日期：2020-06-13 04:08

本发明专利技术公开了一种新型的半监督文本实体信息抽取方法。文档短语分割得候选实体集合；建立有、无监督学习部分，有、无标注的文档分别有、无监督学习；文档和实体类型输入实体抽取模块输出实体信息；文档和短语输入类型选择模块输出短语概率分布；两模块损失值相加为损失；文档输入实体抽取模块获得每个实体类型的损失；文档和短语输入类型选择模块输出短语概率分布；两模块损失值相乘后相加构成损失；两部分加权计算获得总损失，优化训练获得模型参数；将测文本依次输入到实体抽取模块和类型选择模块获得实体信息。本发明专利技术能够利用海量无标注数据，显著增强模型性能，在小样本标注数据的条件下有着显著的提升，也适用于零样本学习的半监督文本数据处理。

A new semi supervised text entity information extraction method

全部详细技术资料下载

【技术实现步骤摘要】
一种新型的半监督文本实体信息抽取方法
本专利技术涉及计算机领域下的自然语言处理技术的一种半监督文本数据处理方法，尤其涉及一种基于自我学习机制的半监督文本实体抽取方法。
技术介绍
文本实体抽取方法是信息抽取方法和任务导向对话系统中的重要的组成部分，其旨在从给定的文本中抽取文本实体，通常包括命名实体、数字表达式、时间表达式等。目前，文本实体抽取通常被解释为序列标注任务，主要以基于深度学习的方法为主，但是深度学习方法需要大量的标注数据来保证模型的准确率。由于实际应用场景多样、细化，缺少标注样本，标注样本获取成本高是工业应用上面临的一大挑战。半监督学习能够缓解标注数据不足的问题，是同时利用标注数据和无标注数据，通过大量无标注数据来弥补标注数据的不足。目前主要的方法在无标注语料上训练词向量或语言模型，再迁移有标注数据上进行训练。但是这类方法仍然不能有效地学习领域内知识。
技术实现思路
本专利技术的目的在于针对现有技术的不足，提供一种新型的新型半监督文本实体抽取方法，能够有效地利用领域内无标注数据，在少量标注...

【技术保护点】
1.一种新型的半监督文本实体信息抽取方法，其特征在于：方法包括以下步骤：/n(1)在众多文档上进行短语分割，由一个文档中的所有短语构成一个短语集合，得到短语集合作为候选实体集合；/n对一部分文档中的短语进行标注形成有标注的文档，具体标注出短语、短语是否为实体以及实体类型，对另一部分文档中的短语不进行标注形成无标注的文档；/n(2)建立实体抽取模块和类型选择模块：实体抽取模块将文档和一实体类型作为输入，输出该实体类型对应的实体信息的概率分布；类型选择模块将文档和从该文档的候选实体集合采样的一个短语作为输入，输出该短语所属实体类型的概率分布；/n(3)根据实体抽取模块和类型选择模块分别建立有监督学...

【技术特征摘要】
1.一种新型的半监督文本实体信息抽取方法，其特征在于：方法包括以下步骤：
(1)在众多文档上进行短语分割，由一个文档中的所有短语构成一个短语集合，得到短语集合作为候选实体集合；
对一部分文档中的短语进行标注形成有标注的文档，具体标注出短语、短语是否为实体以及实体类型，对另一部分文档中的短语不进行标注形成无标注的文档；
(2)建立实体抽取模块和类型选择模块：实体抽取模块将文档和一实体类型作为输入，输出该实体类型对应的实体信息的概率分布；类型选择模块将文档和从该文档的候选实体集合采样的一个短语作为输入，输出该短语所属实体类型的概率分布；
(3)根据实体抽取模块和类型选择模块分别建立有监督学习部分和无监督学习部分组成抽取模型，在有监督学习部分对于有标注的文档进行有监督学习，在无监督学习部分对于无标注的文档采用自我学习机制进行无监督学习；
有监督学习部分和无监督学习部分均包括结构相同且参数相同的实体抽取模块和类型选择模块；
有监督学习部分中，文档和标注实体类型输入到实体抽取模块，输出该实体类型对应的实体信息的概率分布；文档和标注短语输入到类型选择模块，输出该短语所属实体类型的概率分布；实体抽取模块和类型选择模块的输出分别计算标注短语和预测实体信息的概率分布之间的损失值以及标注实体类型和预测实体类型的概率分布之间的损失值，将两个模块的损失值相加作为有监督学习损失；
无监督学习部分中，文档输入到实体抽取模块，并依次输入所有实体类型，输出文档中各个词是否组成各个实体类型的概率，计算采样短语与每个实体类型输出的概率分布之间的损失值；文档和候选实体集合中采样的一个短语输入到类型选择模块，输出该采样短语所属实体类型的概率分布；实体抽取模块输出的每个实体类型的损失和类型选择模块输出的短语所属该实体类型的概率对应相乘后获得该实体类型的初步损失，将所有实体类型的初步损失相加构成无监督学习损失loss，表示为：

其中，ri表示短语所属第i个实体类型的概率，i表示实体类型的序号，C表示实体类型的总数，lossi表示第i个实体类型的无监督学习损失；
将有监督学习部分的有监督学习损失和无监督学习部分的无监督学习损失加权计算获得总损失，然后对上述抽取模型进行优化训练获得抽取模型中实体抽取模块和类型选择模块的参数；
(4)针对待测的文本，将待测的文本和各个可能的实体类型输入到实体抽取模块处理输出文档中各个词是否组成该实体类型的结果，...

【专利技术属性】
技术研发人员：寿黎但，王珏，陈珂，陈刚，伍赛，骆歆远，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人