数库上海科技有限公司专利技术

数库上海科技有限公司共有14项专利

  • 本发明属于数据处理技术领域,具体涉及一种基于公开数据对中小微企业评价的方法及相关设备。一种基于公开数据对中小微企业评价的方法,包括:获取若干企业的企业数据,企业数据包含若干变量及对应的变分值;将所有企业的所有变量以变量分值进行分箱,得到...
  • 本发明属于数据处理技术领域,具体涉及一种消除新闻中行业词歧义的方法、装置、设备和存储介质。其中方法包括:获取新闻,对新闻进行行业分类,得到行业标签分类结果;对行业标签分类结果进行标签共现检验,若检验未通过,则将全部的行业标签加入歧义判别...
  • 本发明属于大数据技术领域,具体涉及一种自动化数据质量检验的方法、装置、设备和存储介质。其中方法包括:触发质检服务,获取数据特征,根据数据特征获取多条预设的质检规则,通过预设的数据查询方式获取需要质检的数据;执行每条质检规则,分别校验数据...
  • 本发明属于数据处理技术领域,具体涉及一种新闻主体热度计算及排序方法、装置、设备和存储介质。其中方法包括获取主体集合E,计算任一主体c在当前计算周期t内的基础新闻热度比;计算每个主体的历史平均新闻热度比;将基础新闻热度比大于历史平均新闻热...
  • 本发明属于数据处理技术领域,具体涉及一种研报摘要的观点详情提取方法、装置、设备和存储介质。其中方法包括:获取研报文件,从研报文件中获取多个文本数据和文本区块;在文本区块中查找摘要部分,从对应的文本数据中获取摘要文本;在摘要文本中根据文本...
  • 本发明属于图像检测技术领域,具体涉及一种自动检测图片中表格的方法、装置、设备和存储介质。其中方法包括:获取待检测图片,调用预设的目标检测模型,通过目标检测模型对待检测图片进行目标检测,得到目标检测结果,目标检测结果包括包括目标、目标在待...
  • 本发明属于语言处理技术领域,具体涉及一种分离词典的构建方法、一种基于分离词典的分词方法及相关设备。其中分词方法,包括:获取待分词的文字S,调用初始化后的分离词典,在分离词典内查找是否存在文字S内的字串,若找到,则保存字串;使用预设的分词...
  • 本发明属于数据处理技术领域,具体涉及一种从研报中进行关键信息提取方法及相关设备。其中方法包括:获取研报文件,型对研报文件进行目标检测,得到目标检测结果,目标检测结果为多个目标在研报文件中的位置及类别信息;解析研报文件,获取研报文件内每一...
  • 本发明属于数据处理技术领域,具体涉及一种基于目标检测的研报解析方法、装置、设备和存储介质。其中方法包括获取研报文件,通过目标检测模型对研报文件进行目标检测,得到目标检测结果;解析研报文件,获取研报文件内每一页中的字符信息,根据目标检测结...
  • 本发明属于金融财经技术领域,具体涉及一种判断新闻中主要关联公司的方法及相关设备。其中方法包括获取新闻数据,从新闻数据中提取每个公司及每个公司在新闻数据中出现的名称词;根据公司与新闻数据的相关度值和相关度动态阈值过滤非主要关联公司,确定所...
  • 本发明属于图片识别技术领域,具体涉及一种适配多类OCR识别接口的表格识别方法及相关设备。其中方法包括接收提取请求,提取请求中包含有文档及识别模式;根据识别模式,调用预设的外部OCR接口,通过外部OCR接口将文档进行识别处理,接收外部OC...
  • 本发明属于大数据分析技术领域,具体涉及一种识别相似新闻的方法及相关设备。从海量短新闻中识别相似新闻的方法及相关设备,其中方法包括:获取预设的格式化主体词汇并建立索引;获取多篇新闻,对每篇新闻进行向量化;计算每篇目标新闻与其他新闻是否相似...
  • 文本分类方法及获得的文本分类器
    本发明技术方案公开了一种获得用于自动标注语料的文本分类器方法及文本分类器,该方法包括确定概念集合,用每个概念对应的概念关键词集合中的概念关键词对未标注语料文本进行匹配并自动标注处理;对于每个概念,当该概念对应的标注语料文本集合中文本数量...
  • 本发明技术方案公开了一种命名实体识别方法和系统,所述命名实体识别方法包括:合并特征向量,所述特征向量包括预训练的词向量、自训练的词向量和词性标注向量,所述神经网络为卷积神经网络或深度置信神经网络;以合并得到的特征向量为输入,经神经网络的...
1