悬赏公告的信息提取方法、装置、计算机设备、存储介质制造方法及图纸

技术编号:32457363 阅读:24 留言:0更新日期:2022-02-26 08:38
本公开涉及一种悬赏公告的信息提取方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取悬赏公告数据;使用预设文本分隔方法分隔获取的悬赏公告数据,得到句子集合;使用预设字段提取方法提取所述句子集合中的字段,得到悬赏字段,所述悬赏字段可以包括公告字段、当事人字段;根据所述公告字段中的公告独有字段,将所述公告字段和所述当事人字段分组,得到公告信息组集合;根据所述当事人字段中的当事人独有字段,将所述当事人字段分组,得到当事人信息组集合。采用本方法能够达到高效、准确地自动提取悬赏公告的信息的有益效果。益效果。益效果。

【技术实现步骤摘要】
悬赏公告的信息提取方法、装置、计算机设备、存储介质


[0001]本公开涉及电数据处理
,特别是涉及一种悬赏公告的信息提取方法、装置、计算机设备、存储介质。

技术介绍

[0002]随着电数据处理技术的发展,出现了信息提取技术,这个技术是利用算法模型从各种文本信息中提取出人们需要的信息,但是此类信息提取技术一般针对的是常规文本。当文本为新闻中的悬赏公告时,由于新闻中的悬赏公告多以多篇集合的形式出现,且每个字段在文中会存在多个值,使用现有技术难以进行直接提取、分组,且提取效果不佳。目前还没有专门针对悬赏公告的电数据信息提取方法。
[0003]针对悬赏公告,传统技术中,是使用人力提取相关信息,耗时长且成本高。因此,亟需一种可以更快、更高效、更准确提取悬赏公告内容的方法,使人们能更方便、准确地获取悬赏公告信息。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够高效、准确地自动提取悬赏公告的信息的方法、装置、计算机设备、存储介质。
[0005]第一方面,本公开提供了一种悬赏公告的信息提取方法。所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种悬赏公告的信息提取方法,其特征在于,所述方法包括:获取悬赏公告数据;使用预设文本分隔方法分隔所述悬赏公告数据,得到句子集合,所述句子集合包括所述悬赏公告数据经所述分隔得到的句子;使用预设字段提取方法提取所述句子集合中的字段,得到悬赏字段,所述悬赏字段包括公告字段、当事人字段;根据所述公告字段中的公告独有字段,将所述公告字段和所述当事人字段分组,得到公告信息组集合,所述公告独有字段包括与悬赏公告存在一一对应关系的公告字段;根据所述当事人字段中的当事人独有字段,将所述当事人字段分组,得到当事人信息组集合,所述当事人独有字段包括与悬赏对象存在一一对应关系的当事人字段。2.根据权利要求1所述的方法,其特征在于,所述预设字段提取方法包括关键词

正则表达式方法、关键词

神经网络

条件随机场方法。3.根据权利要求2所述的方法,其特征在于,所述预设字段提取方法包括:采用关键词

正则表达式方法提取有规律且字数不超过预设阈值的字段,采用关键词

神经网络

条件随机场方法提取无规律或字数超过预设阈值的字段。4.根据权利要求1所述的方法,其特征在于,所述根据所述公告字段中的公告独有字段,将所述公告字段和所述当事人字段分组,得到公告信息组集合包括:遍历所述公告字段,当开始出现同类型的所述公告独有字段时,将已遍历且不属于已有公告信息组的所述公告字段和所述当事人字段确定为一个新的公告信息组。5.根据权利要求1所述的方法,其特征在于,所述将所述当事人字段分组,得到当事人信息组集合包括:遍历所述当事人字段,当开始出现同类型的所述当事人字段时,将已遍历且不属于已有当事人信息组的所述当事人字段确定为一个新的当事人信息组。6.根据权利要求1所述的方法,其特征在于,所述将所述公告字段和所述当事人字段分组,得到公告信息组集合包括:当所述句子集合拥有的案号不唯一时,遍历所述公告信息组集合中的公告信息组,正在遍历的公告信息组称为当前公告信息组,与所述当前信息组相邻的已遍历信息组称为前一公告信息组;若所述当前公告信息组的案号与所述前...

【专利技术属性】
技术研发人员:陶予祺孙勤钟晓超
申请(专利权)人:企查查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1