信息提取方法及装置制造方法及图纸

技术编号：32550978 阅读：59 留言：0更新日期：2022-03-05 11:50

本申请提供一种信息提取方法及装置，其中所述信息提取方法包括：对接收到的待处理文本进行分句处理，获得初始句子集合；获取所述初始句子集合中每个句子对应的分类信息；根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合；将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实体识别模型输出的目标实体集合；根据所述目标实体集合确定所述待处理文本的信息提取结果。通过本方法，提升了信息提取效率以及信息提取的准确率。确率。确率。

全部详细技术资料下载

【技术实现步骤摘要】
信息提取方法及装置

[0001]本申请涉及计算机
，特别涉及一种信息提取方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]在文本处理领域，通常会需要对文本进行信息提取，目前的处理方式是对整个文本进行识别和抽取，但对文本的信息提取属于篇章级的信息提取，当前的信息模型无法处理文本，或提取效果较差，有的文本中要提取的信息通常只出现在部分区域，不会在全文出现，例如在合同文件中，要提取的信息出现在特定区域，条款信息中通常不包含实体信息，对整个文本进行信息抽取时，抽取效率很低，目前对整个文本的信息提取方法是基于规则进行信息提取，即利用人工总结规律，构建一些规则，基于规则从文本中找出实体信息，但是由于文本的类型很多，基于规则的信息提取方法很难做到非常好的泛化性，对于不同类型的文本要配置不同的规则，工作量也十分巨大，耗费人力物力。

技术实现思路

[0003]有鉴于此，本申请实施例提供了一种信息提取方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。
[0004]根据本申请实施例的第一方面，提供了一种信息提取方法，包括：
[0005]对接收到的待处理文本进行分句处理，获得初始句子集合；
[0006]获取所述初始句子集合中每个句子对应的分类信息；
[0007]根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合；
[0008]将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法，其特征在于，包括：对接收到的待处理文本进行分句处理，获得初始句子集合；获取所述初始句子集合中每个句子对应的分类信息；根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合；将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实体识别模型输出的目标实体集合；根据所述目标实体集合确定所述待处理文本的信息提取结果。2.如权利要求1所述的信息提取方法，其特征在于，对接收到的待处理文本进行分句处理，获得初始句子集合，包括：获取预设分句标识符；根据所述预设分句标识符对所述待处理文本进行分句处理，获得初始句子集合。3.如权利要求1所述的信息提取方法，其特征在于，获取所述初始句子集合中每个句子对应的分类信息，包括：将所述初始句子集合输入至句子分类模型中进行处理，获得所述句子分类模型输出的所述初始句子集合中每个句子对应的分类信息。4.如权利要求3所述的信息提取方法，其特征在于，将所述初始句子集合输入至句子分类模型中进行处理，获得所述句子分类模型输出的所述初始句子集合中每个句子对应的分类信息，包括：在所述初始句子集合中确定目标初始句子，并将所述目标初始句子输入至句子分类模型中进行句子分类，其中，所述句子分类模型被训练于判断句子中是否包含实体信息；在所述目标初始句子包含实体信息的情况下，获得所述句子分类模型输出的所述目标初始句子对应的分类信息为第一类句子；在所述目标初始句子未包含实体信息的情况下，获得所述句子分类模型输出的所述目标初始句子对应的分类信息为第二类句子。5.如权利要求4所述的信息提取方法，其特征在于，根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合，包括：确定分类信息为第一类句子的初始句子为目标句子，获得目标句子集合；根据每个目标句子在所述待处理文本中的位置信息对每个目标句子进行拼接，生成目标段落集合。6.如权利要求5所述的信息提取方法，其特征在于，根据每个目标句子在所述待处理文本中的位置信息对每个目标句子进行拼接，生成目标段落集合，包括：将连续相邻的位置信息对应的目标句子进行拼接，生成一个目标段落；根据每个目标段落生成目标段落集合。7.如权利要求1所述的信息提取方法，其特征在于，所述目标实体集合包括目标实体、实体类型和实体对应的句子序号；根据所述目标实体集合确定所述待处理文本的信息提取结果，包括：根据实体对应的句子序号、实体类型和预设规则对...

【专利技术属性】
技术研发人员：侯依宁，李长亮，毛璐，
申请(专利权)人：成都金山互动娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人