人民搜索网络股份公司专利技术

人民搜索网络股份公司共有42项专利

  • 一种机器学习分类方法及装置
    一种机器学习分类方法及装置,所述方法包括:利用训练配置文件和训练样本进行训练,得到至少一个分类器模型;所述训练配置文件包含数据格式定义、至少一个分类任务、每个分类任务的任务参数,所述训练样本包含至少一个符合所述数据格式定义的预设属性;接...
  • 本发明公开一种二维码的编码方法、解码方法及系统。所述编码方法包括:获取数据信息;对数据信息进行处理,得到byte类型的待编码信息;对待编码信息进行第一压缩,得到第一压缩数据;根据第一压缩数据,确定进行第二压缩时的待压缩数据信息;根据待压...
  • 一种抓取网络平面媒体的网页内容的方法及系统
    本发明公开一种抓取网络平面媒体的网页内容的方法及系统。所述方法包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据...
  • 一种微博信息抓取方法及装置
    一种微博信息抓取方法及装置,所述方法包括:获取待抓取微博用户,并判断所述待抓取微博用户的类型;如果所述待抓取微博用户为活跃用户,则计算该待抓取微博用户的抓取周期,并根据所述抓取周期预测抓取时间点进行微博信息抓取;如果所述待抓取微博用户为...
  • 一种微博信息抓取方法及装置
    一种微博信息抓取方法及装置,所述方法包括:获取用户发布的历史微博,并根据所述历史微博的发布时间建立所述历史微博与预设时间点间的映射关系,所述预设时间点通过预设步长选取;将映射历史微博数的偏差在预设范围内的至少两个相邻预设时间点合并为一个...
  • 一种微博用户挖掘方法及装置
    一种微博用户挖掘方法及装置,包括:判断用户列表中是否存在未处理用户;如果不存在,则按照预设规则从微博网页中抓取用户数据,并判断用户数据对应的抓取用户是否存在于用户列表,如果不存在,则将该抓取用户添加至用户列表,并设置该抓取用户的状态为已...
  • 一种网页信息抽取方法及装置,方法包括:根据待抽取网页的页面信息确定待抽取网页的身份标签;在样本数据库中查找待抽取网页的身份标签对应的样本集合,样本集合包括至少一个文档对象模型DOM样本;从至少一个DOM样本中选取一个作为当前DOM样本,...
  • 本申请公开了一种识别Hub页中有效链接的方法和装置,以及一种更新Hub页中链接的方法和系统。识别Hub页中有效链接的方法包括:抽取Hub页中链接对应的内容页,并获取Hub页的信息及所述内容页的信息;从所述Hub页的信息中提取所述Hub页...
  • 本发明公开了一种网站的访问方法及装置,在上述方法中,监控待访问的目标网站的登录过程;对监控到的登录过程进行模拟,获取与当前访问目标网站的客户端对应的Cookie及该Cookie的有效时间;在与客户端对应的Cookie的有效期内,采用该C...
  • 本发明公开了一种作弊网页识别方法及装置,其中,该方法包括:获取已知网页样本的集合,其中,该已知网页样本为已知是否为作弊网页的网页样本;根据上述已知网页样本的集合生成用于判断作弊网页的初始支持向量机;获取预设第一数量的未知网页样本的集合,...
  • 本发明公开了一种微博信息的获取方法及装置,在上述方法中,估测用户再次发布微博的时间;确定用户的影响力,其中,影响力是根据用户的知名度、用户的被关注度以及除用户之外的其余用户对用户发布微博的认可度进行综合评估获得的;采用时间和影响力计算对...
  • 本发明公开一种基于链式处理的数据收集系统及其方法,主要包括服务器集群,其体系架构包含数据采集层即Client端、数据中转层即Transfer端和数据存储层;其中:所述数据采集层由Client端完成,部署在每台服务器上,用于完成具体的数据...
  • 本发明提供了一种正文缺失网页的识别方法及装置,该方法包括:计算同一站点下所有网页的模板指纹;根据模板指纹对所有网页进行分类,其中,将具有相同模板指纹的网页划分为同一类;在分类后的各类网页中将每两个网页进行比对,在各个网页中将与该网页对比...
  • 本发明公开了一种网站权威值的获取方法及装置。其中,该方法包括:根据互联网上每个站点的所有入链中来自于可信站集合中的入链的数量,获取每个站点的可信投票数;根据互联网上所有站点的可信投票数将所有站点归档至预设的不同档位中,并为每个档位分配一...
  • 网页筛选方法及装置
    本发明公开了一种网页筛选方法及装置。该方法包括:抓取预设种子网页;获取预设种子网页中所包含的URL信息;计算URL信息对应的网页质量分数;按照预设网络地址信息,将URL信息划分到相应的候选集合中;从每一候选集合中筛选出数量不超过相应预设...
  • 本发明公开了一种基于网页文本的新词查找系统及方法,包括网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块;其通过:A、选取网页文本的步骤;B、网页文本预处理的步骤;C、新词发现的实现步骤,包括进行串频统计、计算词串变化率、...
  • 本发明提供了一种权重值的获取方法及装置。上述方法包括:采用势能函数建模,获取在给定打分函数情况下网页的多个排序出现的概率值,其中,所述势能函数R表示排序,S表示所述打分函数,f(m)为与m相关的归一化函数,m为网页总数,ri为第i个网页...
  • 本发明公开了一种微博数据解析方法及装置,其中,该方法包括:API开放接口返回的JSON格式微博数据中的字段的第二字段名;根据预设的配置文件将该JSON格式微博数据中的该第二字段名转换为第一字段名,其中,该第一字段名为在微博结构中上述字段...
  • 本申请提供了一种网页抓取周期调整方法和装置,该方法获取网络爬虫当前抓取的目标网页中所包含的链接集合以及该链接集合中的链接所指向的信息页;确定该链接集合中属于所述目标网页中新产生的链接,并将所述新产生的链接中,所属网站与所述第一网站相同且...
  • 网页获取方法和装置
    本申请提供了一种网页获取方法和装置,所述方法包括:确定抓取的网页中的第一中心hub网页;解析出所述第一hub网页中包含的翻页信息,所述翻页信息包括翻页链接地址;根据所述翻页信息,生成与所述第一hub网页相关的第二hub网页地址;根据所述...