一种确定信息类别的方法和系统技术方案

技术编号:18783670 阅读:25 留言:0更新日期:2018-08-29 06:55
本申请实施例涉及互联网技术领域,特别涉及一种确定信息类别的方法和系统,用以解决现有技术中存在的识别非正常信息的方式需要不定时对语料模型进行训练与更新,实时性比较差的问题。本申请实施例根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;根据所述信息集合的特征参数确定所述信息集合的类别;将所述信息集合的类别作为所述目标信息的类别。由于本申请实施例不需要采用语料模型就可以确定信息的类别,从而避免不定时对语料模型进行训练与更新,保证了确定信息的实时性。

【技术实现步骤摘要】
一种确定信息类别的方法和系统
本申请涉及互联网
,特别涉及一种确定信息类别的方法和系统。
技术介绍
随着互联网的快速发展,互联网已经成为人们生活中的一部分。人们已经习惯通过互联网浏览新闻、看电影、购物等。对于有产品交互行为发生的互联网场景(比如购物等),交互行为双方在发生交互行为之前可能需要发送一些询问信息对交互的产品等进行了解,这种方式称为询盘。询盘也叫咨询,是指交易的一方准备购买或出售某种商品的人向潜在的供货人或买主探寻该商品的成交条件或交易的可能性的业务行为。询盘的内容可涉及:价格、规格、品质、数量、包装、装运以及索取样品等。通常构成询盘中的词或词组的总个数在200以内,属于短信息内容,常见的短信息还有:评论、留言、短信、Twitter(推特)等。这类短信息根据具体内容不同有些是正常信息,有些是非正常信息。以询盘为例,非正常询盘可以进一步包括:垃圾询盘、钓鱼询盘、广告询盘等。垃圾询盘是指买家向卖家发送的无意义的询盘;钓鱼询盘是指经过伪装的询盘,其目的是欺骗收件人将账号、密码等信息回复给制定的接收者,或引导收件人连接到特制的网页,这些网页通常会伪装成和真实网站一样,如银行或理财的网页,使得登录者信以为真,当登陆者在这些网页上登陆时,其账号密码就会被盗取;广告询盘是指发送的内容中含有广告。对于这些非正常的信息,如果可以进行识别,则可以拦截这些非正常信息,从而避免对接收方造成干扰。目前识别这些非正常信息的方式一般是通过预先设置的语料模型判断是否是正常信息。由于语料模型的特性,使得这种方式需要经常对语料模型进行训练与更新,实时性比较差。
技术实现思路
本申请提供一种确定信息类别的方法和系统,用以解决现有技术中存在的识别非正常信息的方式需要不定时对语料模型进行训练与更新,实时性比较差的问题。本申请实施例提供的一种确定信息类别的方法,该方法包括:根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;根据所述信息集合的特征参数确定所述信息集合的类别;将所述信息集合的类别作为所述目标信息的类别。本申请实施例提供的一种确定信息类别的系统,该系统包括:处理模块,用于根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;参数确定模块,用于根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;集合类别确定模块,用于根据所述信息集合的特征参数确定所述信息集合的类别;信息类别确定模块,用于将所述信息集合的类别作为所述目标信息的类别。本申请实施例根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;根据所述信息集合的特征参数确定所述信息集合的类别;将所述信息集合的类别作为所述目标信息的类别。由于本申请实施例不需要采用语料模型就可以确定信息的类别,从而避免不定时对语料模型进行训练与更新,保证了确定信息的实时性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例确定信息类别的方法流程示意图;图2为本申请实施例进行模型训练以及确定信息类别的示意图;图3为本申请实施例进行模型训练的完整方法流程示意图;图4为本申请实施例确定信息类别的完整方法流程示意图;图5为本申请实施例确定信息类别的系统结构示意图。具体实施方式其中,本申请实施例中的信息可以是任何含有文字的信息,比如询盘、短消息等。本申请实施例中的信息类别可以根据不同的信息类型划分,比如信息类型是询盘,信息类别可以划分成正常询盘和非正常询盘;进一步的,非正常询盘还可以进一步划分为钓鱼询盘、广告询盘、垃圾询盘等。比如信息类型是短消息,信息类别可以划分成正常短消息和垃圾短消息。为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部份实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。如图1所示,本申请实施例确定信息类别的方法包括:步骤100、根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;步骤101、根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数,其中所述信息集合中的信息包括通过离线训练聚类的信息和所述目标信息;步骤102、根据所述信息集合的特征参数确定所述信息集合的类别;步骤103、将所述信息集合的类别作为所述目标信息的类别。本申请实施例根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;根据所述信息集合的特征参数确定所述信息集合的类别;将所述信息集合的类别作为所述目标信息的类别。由于本申请实施例不需要采用语料模型就可以确定信息的类别,从而避免不定时对语料模型进行训练与更新,保证了确定信息的实时性。本申请实施例根据所述信息集合的特征参数确定所述信息集合的类别时可以通过分类模型实现。这里的分类模型是可进行分类的有监督的机器学习算法模型,比如评分卡模型、LR模型、SVM模型等。具体的,将所述信息集合的特征参数输入到分类模型中;将所述分类模型输出的数值与类别阈值进行比较;根据比较结果确定所述信息集合的类别。在需要使用模型之前都需要对模型进行训练,本申请实施例在完成模练训练后就可以使用,后续不需要经常进行训练。下面先介绍下模型训练的具体过程。先取一段时间离线的信息,以及与信息相关的数据。其中,与信息相关的数据包括但不限于下列数据中的部分或全部:信息ID(标识),发送信息的用户ID,信息的发送时间,信息中包括的对象所属的对象类别。任何能够进行交易的对象都可以作为本申请实施例的对象,比如商品、服务等。对象类别可以是商品类别,比如电子产品、服装等。对获取的每个信息进行预处理。这里的预处理是对信息中的内容进行处理。包括但不限于下列处理方式中的部分或全部:1、剔除格式错误的数据。这里可以设置不同语言对应的错误格式,比如中文对应的错误格式,英文对应的错误格式等。在设置错误格式时,错误格式可以是具体格式,也可以是错误条件的描述信息,比如没有实际意义的数据。如果错误格式是具体格式,在确定格式错误的数据时,根据信息中的根据信息中不同的语言,确定预设的错误格式,将信息中的数据与错误格式进行匹配,如果匹配成功就确定对应的数据是错误格式需要剔除。如果是不符合条件的描述信息,在确定错误格式时,可以查看信息中的数据是否符合错误条件,如果符合,则确定数据是错误格式数据需要剔除。比如错误条件是没有实际意义的数据,如果发现信息中包含asfddds、ssd、sssssssddddd、ssssss、sss等没有实际意义的数据,就确定这些数据是错误数据,需要剔除这些数据。2、剔除内容过短的信息。这里可以针对不同的语言设置不同的门限,也可以设置同一个门限,如果获取的信息中的文字数量小于门限,就确定获取的信息内容过短,需要剔除。如果信息中包括多种文字,可以分别确定每种文字的数量,然后根据预本文档来自技高网...

【技术保护点】
1.一种确定信息类别的方法,其特征在于,该方法包括:根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数,其中所述信息集合中的信息包括通过离线训练聚类的信息和所述目标信息;根据所述信息集合的特征参数确定所述信息集合的类别;将所述信息集合的类别作为所述目标信息的类别。

【技术特征摘要】
1.一种确定信息类别的方法,其特征在于,该方法包括:根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数,其中所述信息集合中的信息包括通过离线训练聚类的信息和所述目标信息;根据所述信息集合的特征参数确定所述信息集合的类别;将所述信息集合的类别作为所述目标信息的类别。2.如权利要求1所述的方法,其特征在于,所述根据目标信息的聚类值,将所述目标信息置于对应的信息集合中,包括:确定所述目标信息中的词在所述目标信息中的重要程度值;根据所述重要程度值将所述词组成字符串,并确定所述字符串的聚类值;判断所述信息集合对应的聚类值中是否有与所述字符串的聚类值相同的;如果有,则将所述目标信息置于相同的聚类值对应的信息集合中;否则,将所述目标信息置于新的信息集合中。3.如权利要求2所述的方法,其特征在于,所述字符串中包括重要程度值最小的N个词,所述根据所述重要程度值将所述词组成字符串,包括:将所述目标信息中的词按照重要程度值从大到小排列,将排在最后的N个词组成字符串;或将所述目标信息中的词按照重要程度值从大小到小排列,将排在最前的N个词组成字符串。4.如权利要求1所述的方法,其特征在于,所述信息集合的特征参数包括下列信息中的部分或全部:信息集合中各个类的信息数量,发送信息集合中的信息的用户数量,信息中包括的对象所属的对象类别的数量,设定时长内发送信息集合中的信息的最大数量,信息集合中已标记类别的信息数量,发送信息集合中已标记类别的信息的用户数量。5.如权利要求1所述的方法,其特征在于,所述根据所述信息集合的特征参数确定所述信息集合的类别,包括:将所述信息集合的特征参数输入到分类模型中;将所述分类模型输出的数值与类别阈值进行比较;根据比较结果确定所述信息...

【专利技术属性】
技术研发人员:梁桉洋汤佳宇孙丽钟齐炜陈力倪剑莉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1