文本信息提取方法、装置及电子设备制造方法及图纸

技术编号:32549548 阅读:20 留言:0更新日期:2022-03-05 11:48
本发明专利技术提供了一种文本信息提取方法、装置及电子设备,该方法包括:获取待处理文本;在预设显示界面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段;如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。该方法通过预先训练好的文本信息提取模型处理该待处理文本,提升了文本信息提取的智能化程度,从而提升对文本信息提取的效率。从而提升对文本信息提取的效率。从而提升对文本信息提取的效率。

【技术实现步骤摘要】
文本信息提取方法、装置及电子设备


[0001]本专利技术涉及数据提取
,尤其是涉及一种文本信息提取方法、装置及电子设备。

技术介绍

[0002]目前,现有的建筑行业在对中标公示公告文本进行信息提取时,首先要运用传统信息采集技术将该中标公示公告的标题以及连接内容进行相应的采集,然后整合成多个信息表格发送给操作人员进行人工的信息整理,这需要操作人员接受过Excel表格数据提取的相关培训,从而可以熟练的通过Excel进行信息提取操作。进一步的,在整合表格数据时,操作人员还需要细心严谨,才可以准确定位所需提取的内容,从而导致目前的文本信息提取的效率较低。
[0003]整体而言,现有的文本信息提取方法还存在操作过程复杂、智能化程度低,从而导致的效率较低的现状。

技术实现思路

[0004]本专利技术的目的在于提供一种文本信息提取方法、装置及电子设备,以提升文本信息提取的智能化程度,从而提升对文本信息提取的效率。
[0005]第一方面,本专利技术实施例提供了一种文本信息提取方法,其中,包括:获取待处理文本;在预设显示界面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段;如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。
[0006]结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,在输出该至少一个待提取字段中每个待提取字段对应的目标文本信息的步骤之后,该方法还包括:在该待提取信息栏显示该待提取字段和该待提取字段对应的文本信息。
[0007]结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,在输出该至少一个待提取字段中每个待提取字段对应的目标文本信息的步骤之后,该方法还包括:在该显示界面显示的该待处理文本中,将该目标文本信息进行区别显示。
[0008]结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,该文本信息提取模型通过下述方式训练得到:获取预设的训练集数据;该训练集数据包括:用于训练的文本信息和该文本信息的提取后的字段信息;根据该训练集数据训练预设的初始文本信息提取网络,直至满足预设的训练结束条件,得到训练好的文本信息提取模型。
[0009]结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,该文本信息提取模型为基于Bert模型搭建的深度学习神经网络模型;该预设显示界面为基于开放源代码的互联网应用框架搭建的人机交互界面。
[0010]结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,该输出该至少一个待提取字段中每个待提取字段对应的目标文本
信息之后,该方法还包括:基于该人机交互界面,核查每个待提取字段对应的目标文本信息的准确性;基于核查结果,确定输出每个待提取字段对应的准确的该目标文本信息。
[0011]结合第一方面的第五种可能的实施方式,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,该方法还包括:将经过核查的每个待提取字段对应的准确的该目标文本信息输入预设的初始文本信息提取网络,直至满足预设的训练结束条件,得到更新后的该文本信息提取模型。
[0012]结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第七种可能的实施方式,其中,该用于训练的文本信息为中标公示公告;该提取后的字段信息包括:建造师姓名、建造师证书编号、中标企业、中标金额、中标时间、开标时间、发布时间、工期、项目名称、业主、竣工时间、第二中标候选人、第三中标候选人。
[0013]第二方面,本专利技术实施例提供了一种文本信息提取装置,其中,包括:文本获取模块,用于获取待处理文本;显示模块,用于在预设显示界面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段;数据处理模块,用于如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。
[0014]第三方面,本专利技术实施例提供了一种电子设备,其中,该电子设备包括处理器和存储器,该存储器存储有能够被该处理器执行的计算机可执行指令,该处理器执行该计算机可执行指令以实现第一方面至第一方面的第七种可能的实施方式任一项的文本信息提取方法。
[0015]本专利技术实施例带来了以下有益效果:
[0016]本专利技术实施例提供的文本信息提取方法、装置及电子设备,该方法包括:获取待处理文本;在预设显示界面显示该待处理文本和待提取信息栏;该待提取信息栏包括至少一个待提取字段;如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理该待处理文本,输出该至少一个待提取字段中每个待提取字段对应的目标文本信息。该方法通过预先训练好的文本信息提取模型处理该待处理文本,提升了文本信息提取的智能化程度,从而提升对文本信息提取的效率。
[0017]本实施例公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
[0018]为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0019]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本专利技术实施例提供的一种文本信息提取方法流程示意图;
[0021]图2为本专利技术实施例提供的另一种文本信息提取方法流程示意图;
[0022]图3为本专利技术实施例提供的一种文本信息提取装置结构示意图;
[0023]图4为本专利技术实施例提供的一种电子设备的结构示意图。
[0024]图标:31

文本获取模块;32

显示模块;33

数据处理模块;41

存储器;42

处理器;43

总线;44

通信接口。
具体实施方式
[0025]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]现有的建筑行业在对中标公示公告文本进行信息提取时,首先要运用传统信息采集技术将该中标公示公告的标题以及连接内容进行相应的采集,然后整合成多个信息表格发送给操作人员进行人工的信息整理,这需要操作人员本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本信息提取方法,其特征在于,包括:获取待处理文本;在预设显示界面显示所述待处理文本和待提取信息栏;所述待提取信息栏包括至少一个待提取字段;如果接收到信息提取指令,通过预先训练好的文本信息提取模型处理所述待处理文本,输出所述至少一个待提取字段中每个待提取字段对应的目标文本信息。2.根据权利要求1所述的文本信息提取方法,其特征在于,在输出所述至少一个待提取字段中每个待提取字段对应的目标文本信息的步骤之后,所述方法还包括:在所述待提取信息栏显示所述待提取字段和所述待提取字段对应的文本信息。3.根据权利要求1所述的文本信息提取方法,其特征在于,在输出所述至少一个待提取字段中每个待提取字段对应的目标文本信息的步骤之后,所述方法还包括:在所述显示界面显示的所述待处理文本中,将所述目标文本信息进行区别显示。4.根据权利要求1所述的文本信息提取方法,其特征在于,所述文本信息提取模型通过下述方式训练得到:获取预设的训练集数据;所述训练集数据包括:用于训练的文本信息和所述文本信息的提取后的字段信息;根据所述训练集数据训练预设的初始文本信息提取网络,直至满足预设的训练结束条件,得到训练好的文本信息提取模型。5.根据权利要求4所述的文本信息提取方法,其特征在于,所述文本信息提取模型为基于Bert模型搭建的深度学习神经网络模型;所述预设显示界面为基于开放源代码的互联网应用框架搭建的人机交互界面。6.根据权利要求5所述的文本信息提取方法,其特征在于,所述输...

【专利技术属性】
技术研发人员:蒋聪焦尧陶治
申请(专利权)人:杭州筑龙信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1