京版北教文化传媒股份有限公司专利技术

京版北教文化传媒股份有限公司共有2项专利

  • 本公开提供了一种多源异构数据的信息抽取方法、装置和设备,该方法包括:获取多源采集的待处理文档并对待处理文档进行解析,得到待处理文档的正文数据;将正文数据划分为多个文本单元并计算各文本单元的语义特征和结构特征;基于各文本单元的语义向量和结...
  • 本申请提供了一种数据清洗方法,用于对原始数据进行清洗得到高质量数据,包括:获取原始数据和原始数据对应的数据类型;根据数据类型由预先构建的清洗策略库中查找当前清洗策略;其中,清洗策略库中包含多个清洗策略,且各清洗策略均为:包括有至少一个清...
1