文本内容提取的方法、系统、装置、电子设备及介质制造方法及图纸

技术编号:32528037 阅读:27 留言:0更新日期:2022-03-05 11:21
本申请公开了一种文本内容提取的方法、系统、装置、电子设备及介质。本申请中,可以获取待提取文本;利用自然段落拆分模型识别待提取文本,得到待提取文本的各个文本段落;利用基于BI LSTM

【技术实现步骤摘要】
文本内容提取的方法、系统、装置、电子设备及介质


[0001]本申请中涉及数据处理技术,尤其是一种文本内容提取的方法、系统、装置、电子设备及介质。

技术介绍

[0002]文本作为人类之间传递信息的桥梁,特别是在互联网迅速发展的今天,将文本信息通过通信形式进行传播随处可见。
[0003]然而,相关技术中,往往存在着用户上传的文本内容信息参差不齐,且文本数量巨大的情况。进一步的,当接收到用户生成的需要提取某个内容信息的文本时,平台往往需要将海量的上传文本一一进行筛选后,才可从中选取到所需的文本内容并返回给客户。可以理解的,若单单靠人工从海量的文本中筛选出用户所需信息,工作量大且效率低。

技术实现思路

[0004]本申请实施例提供一种文本内容提取的方法、系统、装置、电子设备及介质。本申请用以解决相关技术中存在的,依靠人工从海量的文本中筛选出用户所需信息所存在的工作量大且效率低的问题。
[0005]其中,根据本申请实施例的一个方面,提供的一种文本内容提取的方法,其特征在于,包括:
[0006]获取待提取文本;...

【技术保护点】

【技术特征摘要】
1.一种文本内容提取的方法,其特征在于,包括:获取待提取文本;利用自然段落拆分模型识别所述待提取文本,得到所述待提取文本的各个文本段落;利用基于BILSTM

CRF生成的实体识别模型,从所述各个文本段落中确定具有目标文本含义的目标文本段落,所述BILSTM

CRF实体识别模型为基于双向LSTM层生成的模型;在所述待提取文本中提取所述目标文本段落。2.如权利要求1所述的方法,其特征在于,所述利用自然段落拆分模型识别所述待提取文本,得到所述待提取文本的各个文本段落,包括:获取TF

IDF关键词抽取模型,并利用所述TF

IDF模型提取所述待提取文本中的各个关键字段;将所述各个关键字段输入至概率图模型,得到所述各个关键字段对应的概率值分类结果,所述概率值分类结果用于表征关键字段是否为待提取段落分布字段;选取所述概率值分类结果高于预设阈值的第一关键字段,并将所述第一关键字段所在的文本段落作为所述待提取文本的各个文本段落。3.如权利要求2所述的方法,其特征在于,利用以下公式得到各个关键字段对应的概率值分类结果:S(s,S,o)=S(s)S(o|s)S(S|s,o);其中S(s,S,o)为概率值分类结果,s对应于第一关键字段,o对应于第二关键字段,p对应于第三关键字段。4.如权利要求1所述的方法,其特征在于,在所述利用基于BILSTM

CRF生成的实体识别模型,从各个文本段落中确定具有目标文本含义的目标文本段落之前,还包括:获取初始BILSTM

CRF模型;以及将所述初始BILSTM

CRF模型的第一层设置为词向量层,所述词向量层用于识别文本段落含义对应的关键字段向量;以及,将所述初始BILSTM

CRF模型的第二层设置为双向LSTM层;以及,将所述初始BILSTM

CRF模型的第三层设置为CRF层,得到待训练BILSTM

CRF模型;利用样本数据,将所述待训练BILSTM

CRF模型训练至收敛,生成所述基于BILSTM

CRF生成...

【专利技术属性】
技术研发人员:杨婉琪
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1