一种特征筛选方法、装置、终端和介质制造方法及图纸

技术编号:18007087 阅读:143 留言:0更新日期:2018-05-21 07:43
本发明专利技术实施例公开了一种特征筛选方法、装置、终端和介质,涉及互联网信息处理技术领域。该方法包括:获取至少一个用户的数据;从所述数据中确定至少一个关键词;根据所述关键词的户频,从至少一个所述关键词中确定特征词,其中户频表示数据中包含所述关键词的用户的数量。本发明专利技术实施例提供一种特征筛选方法、装置、终端和介质,实现了对获取的数据进行自动的特征筛选,从而提高筛选过程的时效性和通用性。

【技术实现步骤摘要】
一种特征筛选方法、装置、终端和介质
本专利技术实施例涉及互联网信息处理
,尤其涉及一种特征筛选方法、装置、终端和介质。
技术介绍
互联网风控的一个核心问题在于,如何针对一类风险快速筛选核心风险特征,以此来区分风险用户和正常用户。现有技术中,通常是通过人工对用户反馈的风险数据进行分析,筛选出核心风险特征,利用核心风险特征对风险用户进行识别。专利技术人在实现本专利技术的过程中,发现现有技术存在如下问题:在上述方法中,因为对人工依赖过多,人工处理速度有限,且风险数据量大,所以时效性差;又因为针对不同行业的风险数据,需要选用不同行业内的人员进行数据的筛选,所以通用性差。
技术实现思路
本专利技术实施例提供一种特征筛选方法、装置、终端和介质,以实现对获取的数据进行自动的特征筛选,从而提高筛选过程的时效性和通用性。第一方面,本专利技术实施例提供了一种特征筛选方法,该方法包括:获取至少一个用户的数据;从所述数据中确定至少一个关键词;根据所述关键词的户频,从至少一个所述关键词中确定特征词,其中户频表示数据中包含所述关键词的用户的数量。进一步地,获取至少一个用户的数据包括:获取风险种子集合中风险用户提交的数据,其中所述风险种子集合是至少一个风险用户的集合。进一步地,根据所述关键词的户频,从至少一个所述关键词中确定特征词包括:根据所述关键词的户频和词频,从至少一个所述关键词中确定针对每个所述用户的特征词,其中所述词频是所述关键词在每个所述用户的数据中出现的频率。进一步地,根据所述关键词的户频和词频,从至少一个所述关键词中确定针对每个所述用户的特征词包括:根据所述关键词的户频和所述关键词针对至少一个所述用户的各词频,确定筛选阈值;根据所述关键词的户频和所述关键词针对任一所述用户的词频,对该用户的数据中的所述关键词进行打分;若所述关键词的打分结果大于所述筛选阈值,则将所述关键词确定为所述用户的特征词。进一步地,根据所述关键词的户频和所述关键词针对至少一个所述用户的各词频,确定筛选阈值包括:按照如下公式确定筛选阈值:threhold=N×mean(df)×mean(uf)其中,threhold为筛选阈值,mean表示加权平均计算,df为每个所述关键词在每个所述用户的数据中的词频,uf为每个所述关键词在由所述用户构成的用户集合中的户频,N为调整参数。进一步地,根据所述关键词的户频和所述关键词针对任一所述用户的词频,对该用户的数据中的所述关键词进行打分包括:按照如下公式对所述用户的数据中的所述关键词进行打分:scorei=dfi×ufi其中,scorei是关键词i针对一所述用户的分值,dfi是关键词i针对该用户的数据中的词频,ufi是关键词i针对所述用户构成的用户集合的户频。进一步地,在若所述关键词的打分结果大于所述筛选阈值,则将所述关键词确定为所述用户的特征词之后,还包括:若所述用户的特征词数量小于设定数值,则对所述用户的数据中,除所述特征词以外的,其余所述关键词的打分结果进行排序;根据排序结果从其余所述关键词中确定至少一个特征词,以使所述用户的特征词数量大于等于所述设定数值。第二方面,本专利技术实施例还提供了一种特征筛选装置,该装置包括:获取模块,用于获取至少一个用户的数据;关键词确定模块,用于从所述数据中确定至少一个关键词;特征词确定模块,用于根据所述关键词的户频,从至少一个所述关键词中确定特征词,其中户频表示数据中包含所述关键词的用户的数量。进一步地,特征词确定模块包括:特征词确定单元,用于根据所述关键词的户频和词频,从至少一个所述关键词中确定针对每个所述用户的特征词,其中所述词频是所述关键词在每个所述用户的数据中出现的频率。进一步地,特征词确定单元包括:阈值确定子单元,用于根据所述关键词的户频和所述关键词针对至少一个所述用户的各词频,确定筛选阈值;打分子单元,用于根据所述关键词的户频和所述关键词针对任一所述用户的词频,对该用户的数据中的所述关键词进行打分;特征词确定子单元,用于若所述关键词的打分结果大于所述筛选阈值,则将所述关键词确定为所述用户的特征词。第三方面,本专利技术实施例还提供了一种终端,所述终端包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例中任一所述的特征筛选方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术实施例中任一所述的特征筛选方法。本专利技术实施例通过户频从用户数据中确定表示所述用户共性的关键词作为特征词,从而实现特征词的自动筛选。因为不涉及人工,所以解决了人工带来的时效性的问题。此外,因为该方法不关心数据内容,所以适用于对不同行业的不同数据的特征筛选,因此,具有通用性。附图说明图1为本专利技术实施例一提供的一种特征筛选方法的流程图;图2是本专利技术实施例二提供的一种特征筛选方法的流程图;图3是本专利技术实施例三提供的一种特征筛选装置的结构示意图;图4为本专利技术实施例四提供的一种终端的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种特征筛选方法的流程图。本实施例可适用于对至少一个用户的数据进行特征词提取的情况,尤其是对多个风险用户的数据进行风险特征词提取的情况。该方法可以由一种特征筛选装置来执行,该装置可以由软件和/或硬件的方式实现。参见图1,本实施例提供的特征筛选方法包括:S110、获取至少一个用户的数据。其中,用户为待特征筛选的用户,该特征是表示至少一个用户共性的特征,具体由用户的数据确定。例如,若上述用户的数据是用户的兴趣数据,则该特征是用户兴趣特征。用户的数据可以根据需要进行确定,可选的,可以是用户行为数据,也可以是用户上传的数据。具体用户的数据的获取,可以是将用户上传的数据直接作为待筛选的用户的数据;也可以是从其他系统中获取的用户历史行为数据,例如,通过用户手机定位系统获取的用户的位置数据,或通过用户聊天系统获取的用户的聊天记录数据,或通过购物软件获取的用户的购物记录数据等。若上述用户的数据是风险数据,也即风险用户的数据,则获取至少一个用户的数据可以包括:获取风险种子集合中风险用户提交的数据,其中所述风险种子集合是至少一个风险用户的集合。具体的,所述风险种子集合可以是由同一类别的至少一个风险用户构成,风险用户可以从投诉反馈和/或判罚历史中确定。S120、从所述数据中确定至少一个关键词。具体的,从所述数据中确定至少一个关键词可以包括:将所述数据中的词或短语直接确定为关键词;对所述数据中的句子或篇章进行分词处理,将得到的词确定为关键词。S130、根据所述关键词的户频,从至少一个所述关键词中确定特征词。其中,户频表示数据中包含所述关键词的用户的数量。例如,若一个关键词在100个用户中的90个用户的数据中都出现过,则可以将该关键词的户频确定为90,或择90/100等不同的形式。可选的,根据所述关键词的户频,从至少一个所述关键词中确定特征词的方式,可以是若所述本文档来自技高网...
一种特征筛选方法、装置、终端和介质

【技术保护点】
一种特征筛选方法,其特征在于,包括:获取至少一个用户的数据;从所述数据中确定至少一个关键词;根据所述关键词的户频,从至少一个所述关键词中确定特征词,其中户频表示数据中包含所述关键词的用户的数量。

【技术特征摘要】
1.一种特征筛选方法,其特征在于,包括:获取至少一个用户的数据;从所述数据中确定至少一个关键词;根据所述关键词的户频,从至少一个所述关键词中确定特征词,其中户频表示数据中包含所述关键词的用户的数量。2.根据权利要求1所述的特征筛选方法,其特征在于,获取至少一个用户的数据包括:获取风险种子集合中风险用户提交的数据,其中所述风险种子集合是至少一个风险用户的集合。3.根据权利要求1所述的特征筛选方法,其特征在于,根据所述关键词的户频,从至少一个所述关键词中确定特征词包括:根据所述关键词的户频和词频,从至少一个所述关键词中确定针对每个所述用户的特征词,其中所述词频是所述关键词在每个所述用户的数据中出现的频率。4.根据权利要求3所述的特征筛选方法,其特征在于,根据所述关键词的户频和词频,从至少一个所述关键词中确定针对每个所述用户的特征词包括:根据所述关键词的户频和所述关键词针对至少一个所述用户的各词频,确定筛选阈值;根据所述关键词的户频和所述关键词针对任一所述用户的词频,对该用户的数据中的所述关键词进行打分;若所述关键词的打分结果大于所述筛选阈值,则将所述关键词确定为所述用户的特征词。5.根据权利要求4所述的特征筛选方法,其特征在于,根据所述关键词的户频和所述关键词针对至少一个所述用户的各词频,确定筛选阈值包括:按照如下公式确定筛选阈值:threhold=N×mean(df)×mean(uf)其中,threhold为筛选阈值,mean表示加权平均计算,df为每个所述关键词在每个所述用户的数据中的词频,uf为每个所述关键词在由所述用户构成的用户集合中的户频,N为调整参数。6.根据权利要求4所述的特征筛选方法,其特征在于,根据所述关键词的户频和所述关键词针对任一所述用户的词频,对该用户的数据中的所述关键词进行打分包括:按照如下公式对所述用户的数据中的所述关键词进行打分:scorei=dfi×ufi其中,scorei是关键词i针对一所述用...

【专利技术属性】
技术研发人员:邰阳路远杨丽霞林惠娟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1