一种数据采集方法及装置制造方法及图纸

技术编号:15330918 阅读:236 留言:0更新日期:2017-05-16 14:17
本申请实施例提供一种数据采集方法及装置,在获取到根据数据采集模板采集得到的被采集对象的资质信息之后,对所述被采集对象的资质信息进行验证,并在验证通过之后才将所述被采集对象的资质信息存储到资质信息库,从而避免了采集到的资质信息与被采集对象的真实信息不一致的情况发生,提高采集到的数据的真实性、可靠性。

Data acquisition method and device

The embodiment of the application provides a data acquisition method and device, in access to the data acquisition module according to the collected collected object qualification information, to verify the qualification information collection object, and verified by the collected object qualification information is stored into the qualification information base. In order to avoid the occurrence of the collected information is collected and qualification object information not consistent, improve the validity and reliability of the data collected.

【技术实现步骤摘要】
一种数据采集方法及装置
本申请涉及计算机技术中的数据采集
,尤其涉及一种数据采集方法及装置。
技术介绍
随着大数据时代的来临,在利用大数据进行分析或处理之前,最关键的步骤就是数据采集。采集到的数据的质量对后续大数据应用将产生至关重要的影响。例如,电子商务的交易环节包括以下几个步骤:1)信息发布,卖家发布商品信息,提供商品信息,包括商品标题、商品图片、价格、库存、以及属性信息,如:品牌、型号、颜色等;2)信息采集,电子商务平台收集并存储卖家发布的商品信息;3)信息披露,披露商品的详细信息,包括商品描述、库存、价格等;4)商品购买,包括下单支付等操作;5)售后维权,针对商品的真实性进行各种售后举证、维权活动。上述环节中,如果电子商务平台采集到的卖家发布的商品信息与商品的真实信息不一致,就会严重损害消费者的利益,产生交易纠纷,并需要花费大量的工作对错误的数据进行纠正。由此可见,目前亟需一种数据采集方案,能够提高数据采集的可信度。
技术实现思路
本申请实施例提供一种数据采集方法及装置,用以提高数据采集的可信度。本申请实施例提供了一种数据采集方法,包括:获取被采集对象的第一属性信息,根据所述被采集对象的第一属性信息获取对应的数据采集模板,所述数据采集模板用于指示需要采集的数据;根据所述被采集对象的第一属性信息查询资质信息库中是否存在所述被采集对象的资质信息;若存在,则获取基于所述数据采集模板采集得到的所述被采集对象的第二属性信息,根据所述被采集对象的资质信息、第一属性信息以及第二属性信息生成所述被采集对象的描述信息;若不存在,则获取所述被采集对象的资质信息,对所述被采集对象的资质信息进行验证,并在验证通过后,将所述被采集对象的资质信息存储到所述资质信息库,根据所述被采集对象的资质信息、第一属性信息以及基于所述数据采集模板采集得到的所述被采集对象的第二属性信息生成所述被采集对象的描述信息。较佳的,所述获取被采集对象的第一属性信息,包括:获取所述被采集对象的标识,得到所述被采集对象的第一属性信息,所述标识包括二维码或条形码。较佳的,所述资质信息包括文本信息和图片;所述对所述被采集对象的资质信息进行验证,包括:对所述被采集对象的资质信息中的图片进行图像识别,得到该图片上的文本信息;判断所述被采集对象的资质信息中的文本信息是否与识别出的文本信息一致,若一致,则对所述被采集对象的资质信息验证通过。较佳的,所述被采集对象的描述信息存储于对象信息库中;所述方法还包括:接收对象信息查询请求消息,所述对象信息查询请求消息中携带有二维码或条形码;根据所述二维码或条形码在所述对象信息库中查询与所述二维码或条形码对应的对象描述信息;返回描述信息查询请求响应消息,所述描述信息查询请求响应消息中携带有查询到的与所述二维码或条形码对应的对象描述信息。较佳的,所述被采集对象的描述信息存储于对象信息库中;所述方法还包括:接收验证请求消息,所述验证请求消息中携带有从待验证对象采集到的第一属性信息和资质信息;根据所述待验证对象的第一属性信息在所述资质信息库或者所述对象信息库中查询与所述待验证对象的第一属性信息对应的资质信息;若查询到对应的资质信息且查询到的资质信息与所述待验证请求消息中携带的资质信息相匹配,则返回验证通过的响应消息,否则返回验证失败的响应消息。较佳的,所述根据所述被采集对象的资质信息、第一属性信息以及第二属性信息生成所述被采集对象的描述信息,包括:若从所述识别出的文本信息中除了包括与所述被采集对象的资质信息中的文本信息一致的文本信息以外,还包括其他文本信息,则根据所述其他文本信息、所述被采集对象的资质信息、第一属性信息以及第二属性信息,生成所述被采集对象的描述信息。较佳的,所述被采集对象为商品;所述第一属性信息包括所述商品类别、商品品牌、商品标识中的一种或多种;所述第二属性信息包括商品库存信息、商品价格、商品标题中的一种或多种;所述资质信息包括以下任意一种或几种的组合:商品类别,商品品牌,商品标识,商品名称,商品图片,商品规格,生产日期,保质期,商品产地;其中,所述商品规格包括颜色、型号、材质中的一种或多种。本申请实施例提供了一种数据采集装置,包括:第一获取单元,用于获取被采集对象的第一属性信息;第二获取单元,用于根据所述被采集对象的第一属性信息获取对应的数据采集模板,所述数据采集模板用于指示需要采集的数据;查询单元,用于根据所述被采集对象的第一属性信息查询资质信息库中是否存在所述被采集对象的资质信息;所述第一获取单元,还用于在所述资质信息库中存在所述被采集对象的资质信息时,获取基于所述数据采集模板采集得到的所述被采集对象的第二属性信息;描述信息生成单元,用于根据所述查询单元查询到的所述被采集对象的资质信息以及所述第一获取单元获取到的所述被采集对象的第一属性信息和第二属性信息生成所述被采集对象的描述信息;所述第一获取单元,还用于在所述资质信息库中不存在所述被采集对象的资质信息时,获取所述被采集对象的资质信息以及基于所述数据采集模板采集得到的所述被采集对象的第二属性信息;第一验证单元,用于对所述第一获取单元获取到的所述被采集对象的资质信息进行验证,并在验证通过后,将所述被采集对象的资质信息存储到所述资质信息库;所述描述信息生成单元,还用于根据所述第一验证单元验证通过的所述被采集对象的资质信息以及所述第一获取单元获取到的所述被采集对象的第一属性信息和第二属性信息生成所述被采集对象的描述信息。较佳的,所述第一获取单元具体用于:获取所述被采集对象的标识,得到所述被采集对象的第一属性信息,所述标识包括二维码或条形码。较佳的,所述资质信息包括文本信息和图片;所述第一验证单元具体用于:对所述被采集对象的资质信息中的图片进行图像识别,得到该图片上的文本信息;判断所述被采集对象的资质信息中的文本信息是否与识别出的文本信息一致,若一致,则对所述被采集对象的资质信息验证通过。较佳的,所述第一验证单元具体用于:若从所述识别出的文本信息中除了包括与所述被采集对象的资质信息中的文本信息一致的文本信息以外,还包括其他文本信息,则根据所述其他文本信息、所述被采集对象的资质信息、第一属性信息以及第二属性信息,生成所述被采集对象的描述信息。较佳的,所述被采集对象的描述信息存储于对象信息库中;所述数据采集装置还包括:查询处理单元,用于接收对象信息查询请求消息,所述对象信息查询请求消息中携带有二维码或条形码;根据所述二维码或条形码在所述对象信息库中查询与所述二维码或条形码对应的对象描述信息;返回描述信息查询请求响应消息,所述描述信息查询请求响应消息中携带有查询到的与所述二维码或条形码对应的对象描述信息。较佳的,所述被采集对象的描述信息存储于对象信息库中;所述数据采集装置还包括:第二验证单元,用于接收验证请求消息,所述验证请求消息中携带有从待验证对象采集到的第一属性信息和资质信息;根据所述待验证对象的第一属性信息在所述资质信息库或者所述对象信息库中查询与所述待验证对象的第一属性信息对应的资质信息;若查询到对应的资质信息且查询到的资质信息与所述待验证请求消息中携带的资质信息相匹配,则返回验证通过的响应消息,否则返回验证失败的响应消息。较佳的,所本文档来自技高网...
一种数据采集方法及装置

【技术保护点】
一种数据采集方法,其特征在于,该方法包括:获取被采集对象的第一属性信息,根据所述被采集对象的第一属性信息获取对应的数据采集模板,所述数据采集模板用于指示需要采集的数据;根据所述被采集对象的第一属性信息查询资质信息库中是否存在所述被采集对象的资质信息;若存在,则获取基于所述数据采集模板采集得到的所述被采集对象的第二属性信息,根据所述被采集对象的资质信息、第一属性信息以及第二属性信息生成所述被采集对象的描述信息;若不存在,则获取所述被采集对象的资质信息,对所述被采集对象的资质信息进行验证,并在验证通过后,将所述被采集对象的资质信息存储到所述资质信息库,根据所述被采集对象的资质信息、第一属性信息以及基于所述数据采集模板采集得到的所述被采集对象的第二属性信息生成所述被采集对象的描述信息。

【技术特征摘要】
1.一种数据采集方法,其特征在于,该方法包括:获取被采集对象的第一属性信息,根据所述被采集对象的第一属性信息获取对应的数据采集模板,所述数据采集模板用于指示需要采集的数据;根据所述被采集对象的第一属性信息查询资质信息库中是否存在所述被采集对象的资质信息;若存在,则获取基于所述数据采集模板采集得到的所述被采集对象的第二属性信息,根据所述被采集对象的资质信息、第一属性信息以及第二属性信息生成所述被采集对象的描述信息;若不存在,则获取所述被采集对象的资质信息,对所述被采集对象的资质信息进行验证,并在验证通过后,将所述被采集对象的资质信息存储到所述资质信息库,根据所述被采集对象的资质信息、第一属性信息以及基于所述数据采集模板采集得到的所述被采集对象的第二属性信息生成所述被采集对象的描述信息。2.如权利要求1所述的方法,其特征在于,所述获取被采集对象的第一属性信息,包括:获取所述被采集对象的标识,得到所述被采集对象的第一属性信息,所述标识包括二维码或条形码。3.如权利要求1所述的方法,其特征在于,所述资质信息包括文本信息和图片;所述对所述被采集对象的资质信息进行验证,包括:对所述被采集对象的资质信息中的图片进行图像识别,得到该图片上的文本信息;判断所述被采集对象的资质信息中的文本信息是否与识别出的文本信息一致,若一致,则对所述被采集对象的资质信息验证通过。4.如权利要求3所述的方法,其特征在于,所述根据所述被采集对象的资质信息、第一属性信息以及第二属性信息生成所述被采集对象的描述信息,包括:若从所述识别出的文本信息中除了包括与所述被采集对象的资质信息中的文本信息一致的文本信息以外,还包括其他文本信息,则根据所述其他文本信息、所述被采集对象的资质信息、第一属性信息以及第二属性信息,生成所述被采集对象的描述信息。5.如权利要求1所述的方法,其特征在于,所述被采集对象的描述信息存储于对象信息库中;所述方法还包括:接收对象信息查询请求消息,所述对象信息查询请求消息中携带有二维码或条形码;根据所述二维码或条形码在所述对象信息库中查询与所述二维码或条形码对应的对象描述信息;返回描述信息查询请求响应消息,所述描述信息查询请求响应消息中携带有查询到的与所述二维码或条形码对应的对象描述信息。6.如权利要求1所述的方法,其特征在于,所述被采集对象的描述信息存储于对象信息库中;所述方法还包括:接收验证请求消息,所述验证请求消息中携带有从待验证对象采集到的第一属性信息和资质信息;根据所述待验证对象的第一属性信息在所述资质信息库或者所述对象信息库中查询与所述待验证对象的第一属性信息对应的资质信息;若查询到对应的资质信息且查询到的资质信息与所述待验证请求消息中携带的资质信息相匹配,则返回验证通过的响应消息,否则返回验证失败的响应消息。7.如权利要求1至6中任一项所述的方法,其特征在于,所述被采集对象为商品;所述第一属性信息包括所述商品类别、商品品牌、商品标识中的一种或多种;所述第二属性信息包括商品库存信息、商品价格、商品标题中的一种或多种;所述资质信息包括以下任意一种或几种的组合:商品类别,商品品牌,商品标识,商品名称,商品图片,商品规格,生产日期,保质期,商品产地;其中,所述商品规格包括颜色、型号、材质中的一种或多种。8.一种数据采集装置,其特征在于,该装置包括:第一获取单元,用于获取被采集对象的第一属性信息;第二获取单元,用于根据所述被采集对象的第一属性信息获取对应的数据采集模板,所述数据采集模板用于指示需...

【专利技术属性】
技术研发人员:孔柏汉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1