有效数据提取方法以及装置制造方法及图纸

技术编号:23363353 阅读:33 留言:0更新日期:2020-02-18 17:24
本公开是关于一种有效数据提取方法、装置、电子设备以及存储介质。其中,该方法包括:确定待处理语句中包含有效数据的第一词性特征组集合,以及确定包含模糊数据的第二词性特征组;判断第二词性特征组是否与第一词性特征组集合中的第一词性特征组匹配;若匹配,获取与第一词性特征组匹配的第二词性特征组的统计信息,并根据统计信息确定所述第二词性特征组是否满足预设的有效词词性特征条件;若满足,确定所述第二词性特征组中的模糊数据为有效数据。本公开通过基于有效词的模糊数据判定实现了有效数据的自动识别,提升了识别效率,降低了人工成本。

Effective data extraction method and device

【技术实现步骤摘要】
有效数据提取方法以及装置
本公开涉及数据处理领域,具体而言,涉及一种有效数据提取方法、装置、电子设备以及计算机可读存储介质。
技术介绍
随着互联网媒体的迅猛发展,随之产生与各企业相关的大量新闻舆情,这也使得用户在需要针对性了解某家企业或某个项目品牌的相关新闻时产生困难。为向用户提供其所关注企业的新闻舆情,通常采用人为的方式进行项目品牌的有效数据提取入库,再根据数据库中的有效数据从新闻舆情文章中提取出所涉及的公司名及项目品牌名称等,此种方式导致人力消耗较大,且不具有可复现性。因此,需要一种或多种方法解决上述问题。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的目的在于提供一种有效数据提取方法、装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本公开的一个方面,提供一种有效数据提取方法,包括:确定待处理语句中包含有效数据的第一词性特征组集合,以及确定包含模糊数据的第二词性特征组;判断第二词性特征组是否与第一词性特征组集合中的第一词性特征组匹配;若匹配,获取与第一词性特征组匹配的第二词性特征组的统计信息,并根据统计信息确定所述第二词性特征组是否满足预设的有效词词性特征条件;若满足,确定所述第二词性特征组中的模糊数据为有效数据。在本公开的一种示例性实施例中,确定待处理语句中包含有效数据的第一词性特征组集合,包括:提取文章数据中包含预设有效数据的待处理语句;对待处理语句中的分词进行词性分析,生成有效词词性串,计算所述有效词词性串的出现频次是否大于或等于预设有效频次阈值,若是,将所述有效词词性串作为第一词性特征组,其中,所述第一词性特征组集合包括多个所述第一词性特征组。在本公开的一种示例性实施例中,确定包含模糊数据的第二词性特征组;包括:提取文章数据中包含预设模糊数据的待处理语句;对待处理语句中的分词进行词性分析,生成模糊词词性串,将所述模糊词词性串作为所述第二词性特征组。在本公开的一种示例性实施例中,判断第二词性特征组是否与第一词性特征组集合中的第一词性特征组匹配,包括:遍历所述第一词性特征组集合中的第一词性特征组;若存在与所述第二词性特征组相同的第一词性特征组,确定第二词性特征组与第一词性特征组匹配,并根据匹配结果设置对应的计数信息。在本公开的一种示例性实施例中,所述统计信息包括所述计数信息,所述预设的有效词词性特征条件包括预设频次占比阈值;根据统计信息确定所述第二词性特征组是否满足预设的有效词词性特征条件,包括:根据所述计数信息计算所述第二词性特征组的有效词频次占比;判断所述有效词频次占比是否大于或等于预设频次占比阈值;若是,确定所述第二词性特征组中满足预设的有效词词性特征条件。在本公开的一种示例性实施例中,所述统计信息包括所述计数信息;根据统计信息确定所述第二词性特征组是否满足预设的有效词词性特征条件,包括:根据所述计数信息统计所述第二词性特征组的有效词频次;当所述第二词性特征组为多个时,以各个第二词性特征组的有效词频次为基准进行降序排序,并确定排序在前的预设数量的第二词性特征组满足预设的有效词词性特征条件。在本公开的一种示例性实施例中,当判断所述有效词频次占比大于或等于预设频次占比阈值时,所述方法还包括:若所述第二词性特征组为多个,以有效词频次为基准对有效词频次占比大于或等于预设频次占比阈值的多个第二词性特征组进行降序排序,并确定排序在前的预设数量的第二词性特征组满足预设的有效词词性特征条件。在本公开的一种示例性实施例中,所述方法还包括:预设包括有效数据的有效词数据库以及包括模糊数据的模糊词数据库;在确定所述第二词性特征组中的模糊数据为有效数据后,更新所述有效词数据库。在本公开的一个方面,提供一种有效数据提取装置,包括:第一确定模块,用于确定待处理语句中包含有效数据的第一词性特征组集合,以及确定包含模糊数据的第二词性特征组;第一判断模块,用于判断第二词性特征组是否与第一词性特征组集合中的第一词性特征组匹配;第二判断模块,用于在第二词性特征组与第一词性特征组匹配时,获取与第一词性特征组匹配的第二词性特征组的统计信息,并根据统计信息判断所述第二词性特征组是否满足预设的有效词词性特征条件;第二确定模块,用于在第二词性特征组满足预设的有效词词性特征条件时,确定所述第二词性特征组中的模糊数据为有效数据。在本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的方法。在本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任意一项所述的方法。本公开的示例性实施例中的有效数据提取方法,确定待处理语句中包含有效数据的第一词性特征组集合,以及确定包含模糊数据的第二词性特征组;判断第二词性特征组是否与第一词性特征组集合中的第一词性特征组匹配;若匹配,获取与第一词性特征组匹配的第二词性特征组的统计信息,并根据统计信息确定所述第二词性特征组是否满足预设的有效词词性特征条件;若满足,确定所述第二词性特征组中的模糊数据为有效数据。一方面,本公开通过基于有效词的模糊数据判定实现了有效数据的自动识别,提升了识别效率;另一方面,本公开具有可复现性且无需人工参与,可大幅节省人工成本。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明通过参照附图来详细描述其示例实施例,本公开的上述和其它特征及优点将变得更加明显。图1示出了根据本公开一示例性实施例的有效数据提取方法的流程图;图2示出了根据本公开一示例性实施例的有效数据提取装置的示意框图;图3示意性示出了根据本公开一示例性实施例的电子设备的框图;以及图4示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在本文档来自技高网...

【技术保护点】
1.一种有效数据提取方法,其特征在于,所述方法包括:/n确定待处理语句中包含有效数据的第一词性特征组集合,以及确定包含模糊数据的第二词性特征组;/n判断第二词性特征组是否与第一词性特征组集合中的第一词性特征组匹配;/n若匹配,获取与第一词性特征组匹配的第二词性特征组的统计信息,并根据统计信息确定所述第二词性特征组是否满足预设的有效词词性特征条件;/n若满足,确定所述第二词性特征组中的模糊数据为有效数据。/n

【技术特征摘要】
1.一种有效数据提取方法,其特征在于,所述方法包括:
确定待处理语句中包含有效数据的第一词性特征组集合,以及确定包含模糊数据的第二词性特征组;
判断第二词性特征组是否与第一词性特征组集合中的第一词性特征组匹配;
若匹配,获取与第一词性特征组匹配的第二词性特征组的统计信息,并根据统计信息确定所述第二词性特征组是否满足预设的有效词词性特征条件;
若满足,确定所述第二词性特征组中的模糊数据为有效数据。


2.如权利要求1所述的方法,其特征在于,确定待处理语句中包含有效数据的第一词性特征组集合,包括:
提取文章数据中包含预设有效数据的待处理语句;
对待处理语句中的分词进行词性分析,生成有效词词性串,
计算所述有效词词性串的出现频次是否大于或等于预设有效频次阈值,若是,将所述有效词词性串作为第一词性特征组,其中,所述第一词性特征组集合包括多个所述第一词性特征组。


3.如权利要求2所述的方法,其特征在于,确定包含模糊数据的第二词性特征组;包括:
提取文章数据中包含预设模糊数据的待处理语句;
对待处理语句中的分词进行词性分析,生成模糊词词性串,将所述模糊词词性串作为所述第二词性特征组。


4.如权利要求1所述的方法,其特征在于,判断第二词性特征组是否与第一词性特征组集合中的第一词性特征组匹配,包括:
遍历所述第一词性特征组集合中的第一词性特征组;
若存在与所述第二词性特征组相同的第一词性特征组,确定第二词性特征组与第一词性特征组匹配,并根据匹配结果设置对应的计数信息。


5.如权利要求4所述的方法,其特征在于,所述统计信息包括所述计数信息,所述预设的有效词词性特征条件包括预设频次占比阈值;
根据统计信息确定所述第二词性特征组是否满足预设的有效词词性特征条件,包括:
根据所述计数信息计算所述第二词性特征组的有效词频次占比;
判断所述有效词频次占比是否大于或等于预设频次占比阈值;
若是,确定所述第二词性特征组中满足预设的有效词词性特征条件。


6.如权利要求4所述...

【专利技术属性】
技术研发人员:揭永俊陈超柳超
申请(专利权)人:北京金堤科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1