数据筛选方法、装置及电子设备制造方法及图纸

技术编号:26689792 阅读:19 留言:0更新日期:2020-12-12 02:39
本发明专利技术涉及数据挖掘技术领域,具体涉及数据筛选方法、装置及电子设备,所述方法包括获取至少一个用户表达式,所述用户表达式包括用户词以及逻辑词;对用户表达式进行语法分析,建立用户表达式对应的树形数据结构;依次提取各个树形数据结构中的用户词,并将提取出的用户词与目标文档进行匹配,确定与目标文档匹配的第一目标表达式;根据第一目标表达式中的逻辑词,确定与目标文档匹配的第二目标表达式。先提取出各个用户表达式中的用户词,在目标文档中进行筛选,确定哪些用户词出现在目标文档中,以确定第一目标表达式,以减少后续的匹配数量;再基于逻辑词对第一目标表达式进行二次筛选,确定出与目标文档匹配的第二目标表达式,提高数据筛选效率。

【技术实现步骤摘要】
数据筛选方法、装置及电子设备
本专利技术涉及数据挖掘
,具体涉及数据筛选方法、装置及电子设备。
技术介绍
在数据订阅业务系统中,用户输入搜索表达式之后,往往希望系统能够自动推送出相关的数据。例如,用户输入搜索表达式为“北京AND天气”,这个表达式用来检索北京天气情况相关的文本。如果一个文档里面同时出现了“北京”和“天气”这两个词,则该文档匹配前述表达式。现有技术中,一般是通过对用户输入的表达式进行分析,提取出关键词以及关键词的逻辑关系,然后再在文档中进行搜索。然而,当用户一次输入的表达式较多时,若依次针对每条表达式进行数据筛选,将会导致筛选效率较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据筛选方法、装置及电子设备,以解决数据筛选效率较低的问题。根据第一方面,本专利技术实施例提供了一种数据筛选方法,包括:获取至少一个用户表达式,所述用户表达式包括用户词以及逻辑词;对所述用户表达式进行语法分析,建立所述用户表达式对应的树形数据结构;依次提取各个所述树形数据结构本文档来自技高网...

【技术保护点】
1.一种数据筛选方法,其特征在于,包括:/n获取至少一个用户表达式,所述用户表达式包括用户词以及逻辑词;/n对所述用户表达式进行语法分析,建立所述用户表达式对应的树形数据结构;/n依次提取各个所述树形数据结构中的用户词,并将提取出的所述用户词与目标文档进行匹配,确定与所述目标文档匹配的第一目标表达式,其中,各个所述第一目标表达式对应有唯一的标识;/n根据所述第一目标表达式中的所述逻辑词,确定与所述目标文档匹配的第二目标表达式;/n其中,所述对所述用户表达式进行语法分析,建立所述用户表达式对应的树形数据结构,包括:/n对所述用户表达式进行语法分析,确定所述树形数据结构的根节点以及子节点;/n遍历...

【技术特征摘要】
1.一种数据筛选方法,其特征在于,包括:
获取至少一个用户表达式,所述用户表达式包括用户词以及逻辑词;
对所述用户表达式进行语法分析,建立所述用户表达式对应的树形数据结构;
依次提取各个所述树形数据结构中的用户词,并将提取出的所述用户词与目标文档进行匹配,确定与所述目标文档匹配的第一目标表达式,其中,各个所述第一目标表达式对应有唯一的标识;
根据所述第一目标表达式中的所述逻辑词,确定与所述目标文档匹配的第二目标表达式;
其中,所述对所述用户表达式进行语法分析,建立所述用户表达式对应的树形数据结构,包括:
对所述用户表达式进行语法分析,确定所述树形数据结构的根节点以及子节点;
遍历所述子节点,将至少两个连续且相同的或子节点的节点对象存储在最上面的或子节点中;
基于所述用户表达式,对各个所述子节点进行属性变量的设置,以得到所述树形数据结构,所述属性变量包括词距或词距的正负号中的至少一种。


2.根据权利要求1所述的方法,其特征在于,所述依次提取各个所述树形数据结构中的用户词,并将提取出的所述用户词与所述目标文档进行匹配,确定与所述目标文档匹配的第一目标表达式,包括:
对于各个所述用户词,在所述目标文档中进行搜索,以确定所述目标文档中是否存在所述用户词;
当所述目标文档中存在所述用户词时,确定所述用户词对应的所述第一目标表达式并建立所述目标文档与所述第一目标表达式的对应关系。


3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一目标表达式中的所述逻辑词,确定与所述目标文档匹配的第二目标表达式,包括:
遍历所述第一目标表达式对应的树形数据结构,确定所述第一目标表达式中的逻辑词;
基于所述第一目标表达式中的逻辑词,确定所有所述第一目标表达式中与所述目标文档匹配的第二目标表达式。


4.根据权利要求3所述的方法,其特征在于,所述基于所述第一目标表达式中的逻辑词,确定所有所述第一目标表达式中与所述目标文档匹配的第二目标表达式,包括:
基于所述第一目标表达式中的标识符,确定所述第一目标表达式中的屏蔽词以及歧...

【专利技术属性】
技术研发人员:范辉李青龙
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1