文档分类方法、装置及终端制造方法及图纸

技术编号:22166934 阅读:26 留言:0更新日期:2019-09-21 10:35
本公开提供了一种文档分类方法、装置及终端,属于深度学习技术领域。所述方法包括:确定待分类的第一文档;确定多个选项信息中第一选项信息对应的多个第二文档和第二选项信息对应的多个第三文档;根据第一文档的描述信息、多个第二文档和多个第三文档,确定用于指示第一选项信息与第二选项信息的相似关系的第一预测向量和用于指示描述信息与第一选项信息的推理关系的第二预测向量;根据第一预测向量和第二预测向量,确定第一文档的第三预测向量;根据第三预测向量,确定第一文档的类别。通过确定第一文档的相关文档的相似关系和推理关系,确定该第一文档的类别,从而避免了通过人为对文档进行分类时,存在的主观偏差,减少人力消耗,降低了成本。

Document classification methods, devices and terminals

【技术实现步骤摘要】
文档分类方法、装置及终端
本公开涉及深度学习
,特别涉及一种文档分类方法、装置及终端。
技术介绍
学生和电子化教育厂商对制定个性化学习策略算法的需求越来越强烈。在制定个性化学习策略时,常根据不同学生的进度或能力,为不同的学生推荐不同难度类别的题目。因此,在制定个性化学习策略时,需要先根据题目难度对题目进行文档分类。相关技术中,对题目进行文档分类时,常通过专家判断的方法,根据专家的主观判断,确定该题目对应的第一文档的难度;或者,在学生中抽样调查,通过学生的反馈,确定题目对应的第一文档的难度;之后再根据该第一文档的难度对该第一文档进行分类。上述相关技术中,通过专家判断或学生反馈对题目对应的第一文档进行分类的方法中,由于都是通过人为进行判断的,导致预测结果存在主观偏差,并且,预测过程中,需要消耗大量的人力,人力成本高。
技术实现思路
本公开实施例提供了一种文档分类方法、装置及终端,用于解决目前通过专家判断或学生反馈对题目对应的第一文档进行分类的方法中,由于都是通过人为进行判断的,导致预测结果存在主观偏差,并且,预测过程中,需要消耗大量的人力,人力成本高的问题。所述技术方案如下:一方面,提供了一种文档分类方法,所述方法包括:确定待分类的第一文档,所述第一文档包括描述信息和多个选项信息,所述多个选项信息中包括至少一个所述描述信息对应的第一选项信息;确定所述第一选项信息对应的多个第二文档和第二选项信息对应的多个第三文档,所述第二选项信息为所述多个选项信息中除所述第一选项信息以外的其他选项信息;根据所述多个第二文档和所述多个第三文档,确定用于指示所述第一选项信息与所述第二选项信息的相似关系的第一预测向量;根据所述多个第二文档和所述第一文档的描述信息,确定用于指示所述描述信息与所述第一选项信息的推理关系的第二预测向量;根据所述第一预测向量和所述第二预测向量,确定所述第一文档的第三预测向量;根据所述第三预测向量,确定所述第一文档的类别。在一种可能的实现方式中,所述确定所述第一选项信息对应的多个第二文档和第二选项信息对应的多个第三文档,包括:确定所述描述信息的第一文本内容、所述第一选项信息的第二文本内容和所述第二选项信息的第三文本内容;根据所述第一文本内容和所述第二文本内容,确定所述第一文本内容和所述第二文本内容对应的第一关键词;根据所述第一关键词,从文档数据库中确定与所述第一关键词对应的所述多个第二文档;根据所述第一文本内容和所述第三文本内容,确定所述第一文本内容和所述第二文本内容对应的第二关键词;根据所述第二关键词,从所述文档数据库中确定与所述第二关键词对应的所述多个第三文档。在另一种可能的实现方式中,所述根据所述多个第二文档和所述多个第三文档,确定用于指示所述第一选项信息与所述第二选项信息的相似关系的第一预测向量,包括:根据所述多个第二文档和所述多个第三文档,确定所述第一选项信息与所述第二选项信息的相似关系;根据所述第二文档和所述第三文档的相似关系,确定所述第一预测向量;或者,将所述第二文档和所述第三文档输入第一预测模型中,得到所述第一预测向量。在另一种可能的实现方式中,所述根据所述多个第二文档和所述多个第三文档,确定所述第一选项信息与所述第二选项信息的相似关系,包括:分别根据所述多个第二文档的中的多个第一词语和所述多个第三文档中的多个第二词语,确定所述多个第二文档组成的第一矩阵和所述多个第三文档组成的第二矩阵;将所述第一矩阵的每一列与所述第二矩阵的每一列进行点积,得到用于指示所述第二文档和所述第三文档之间的相似关系的第一匹配矩阵;根据所述第一匹配矩阵确定第一权重,所述第一权重为所述多个第二文档和所述多个第三文档的上下文向量的权重;根据所述第一矩阵和所述第一权重,确定所述多个第三文档的每个第二词语在所述多个第二文档中的第一上下文向量;以及,根据所述第二矩阵和所述第一权重,确定所述多个第二文档的每个第一词语在所述多个第三文档中的第二上下文向量;将所述第一上下文向量和所述第二上下文向量进行对比,得到所述第一选项信息与所述第二选项信息的相似关系。在另一种可能的实现方式中,所述根据所述多个第二文档和所述第一文档的描述信息,确定用于指示所述描述信息与所述第一选项信息的推理关系的第二预测向量,包括:将所述第一文档的描述信息和第一选项信息组成第四文本内容;根据所述多个第二文档和所述第四文本内容,确定所述第二文档和所述第四文本内容的推理关系;根据所述第二文档和所述第四文本内容的推理关系,确定所述第二预测向量;或者,将所述第二文档、所述第一文档的描述信息和所述第一文档输入第二预测模型中,得到所述第二预测向量。在另一种可能的实现方式中,所述根据所述多个第二文档和所述第四文本内容,确定所述第二文档和所述第四文本内容的推理关系,包括:分别根据所述多个第二文档中的多个第三词语和所述第二文本内容中的第四词语,确定所述多个第二文档中每个第二文档的多个第三词语组成的第三矩阵和所述第四文本中的多个第四词语组成的第四矩阵;将所述第四矩阵的每一列分别与所述多个第二文档对应的多个第三矩阵中的每一列进行点积,得到用于指示所述第四文本内容与所述多个第二文档之间的推理关系的第二匹配矩阵;根据所述第二匹配矩阵确定第二权重,所述第二权重为所述多个第二文档和所述第四文本内容的上下文向量的权重;根据所述第四文本内容和所述第二权重,确定所述多个第二文档中每个第二文档的每个第三词语在所述第四文本内容中的第三上下文向量;根据所述第三上下文向量、所述多个第二文档中的每个第二文档和所述第二权重,确定所述第四文本内容中的每个第四词语在所述每个第二文档中的第四上下文向量;根据所述第四上下文向量,确定所述第二文档和所述第四文本内容的推理关系。在另一种可能的实现方式中,所述根据第三上下文向量、所述多个第二文档中的每个第二文档和所述第二权重,确定所述第四文本内容中的每个第四词语在所述每个第二文档中的第四上下文向量,包括:将所述第三上下文向量融合到所述多个第二文档对应的第三矩阵中,得到融合了所述第二文档和所述第四文本内容的多个第五矩阵;将所述多个第五矩阵中的每个第五矩阵和与第五上下文向量进行点积,得到第三权重,所述第三权重为所述多个第四文档间的推理关系的权重,所述第五上下文向量为所述每个第四文档中的第五词语在所述第四文档中的上下文向量;根据所述第三权重,确定所述第五词语在所述每个第四文档中的第四上下文向量。在另一种可能的实现方式中,所述根据所述第一预测向量和所述第二预测向量,确定所述第一文档的第三预测向量,包括:根据所述第一预测向量确定所述第一预测向量的第一均值化向量和第一最大值化向量;将所述第一均值化向量和所述第一最大值化向量进行拼接,得到第四预测向量;根据所述第二预测向量确定所述第二预测向量的第二均值化向量和第二最大值化向量;将所述第二均值化向量和所述第二最大值化向量进行拼接,得到第五预测向量;将所述第五预测向量和所述第四预测向量进行拼接,得到所述第三预测向量。另一方面,提供了一种文档分类装置,所述装置包括:第一确定模块,用于确定待分类的第一文档,所述第一文档包括描述信息和多个选项信息,所述多个选项信息中包括至少一个所述描述信息对应的第一选项信息;第二确定模块,用于确定本文档来自技高网...

【技术保护点】
1.一种文档分类方法,其特征在于,所述方法包括:确定待分类的第一文档,所述第一文档包括描述信息和多个选项信息,所述多个选项信息中包括至少一个所述描述信息对应的第一选项信息;确定所述第一选项信息对应的多个第二文档和第二选项信息对应的多个第三文档,所述第二选项信息为所述多个选项信息中除所述第一选项信息以外的其他选项信息;根据所述多个第二文档和所述多个第三文档,确定用于指示所述第一选项信息与所述第二选项信息的相似关系的第一预测向量;根据所述多个第二文档和所述第一文档的描述信息,确定用于指示所述描述信息与所述第一选项信息的推理关系的第二预测向量;根据所述第一预测向量和所述第二预测向量,确定所述第一文档的第三预测向量;根据所述第三预测向量,确定所述第一文档的类别。

【技术特征摘要】
1.一种文档分类方法,其特征在于,所述方法包括:确定待分类的第一文档,所述第一文档包括描述信息和多个选项信息,所述多个选项信息中包括至少一个所述描述信息对应的第一选项信息;确定所述第一选项信息对应的多个第二文档和第二选项信息对应的多个第三文档,所述第二选项信息为所述多个选项信息中除所述第一选项信息以外的其他选项信息;根据所述多个第二文档和所述多个第三文档,确定用于指示所述第一选项信息与所述第二选项信息的相似关系的第一预测向量;根据所述多个第二文档和所述第一文档的描述信息,确定用于指示所述描述信息与所述第一选项信息的推理关系的第二预测向量;根据所述第一预测向量和所述第二预测向量,确定所述第一文档的第三预测向量;根据所述第三预测向量,确定所述第一文档的类别。2.根据权利要求1所述的方法,其特征在于,所述确定所述第一选项信息对应的多个第二文档和第二选项信息对应的多个第三文档,包括:确定所述描述信息的第一文本内容、所述第一选项信息的第二文本内容和所述第二选项信息的第三文本内容;根据所述第一文本内容和所述第二文本内容,确定所述第一文本内容和所述第二文本内容对应的第一关键词;根据所述第一关键词,从文档数据库中确定与所述第一关键词对应的所述多个第二文档;根据所述第一文本内容和所述第三文本内容,确定所述第一文本内容和所述第二文本内容对应的第二关键词;根据所述第二关键词,从所述文档数据库中确定与所述第二关键词对应的所述多个第三文档。3.根据权利要求1所述的方法,其特征在于,所述根据所述多个第二文档和所述多个第三文档,确定用于指示所述第一选项信息与所述第二选项信息的相似关系的第一预测向量,包括:根据所述多个第二文档和所述多个第三文档,确定所述第一选项信息与所述第二选项信息的相似关系;根据所述第二文档和所述第三文档的相似关系,确定所述第一预测向量;或者,将所述第二文档和所述第三文档输入第一预测模型中,得到所述第一预测向量。4.根据权利要求3所述的方法,其特征在于,所述根据所述多个第二文档和所述多个第三文档,确定所述第一选项信息与所述第二选项信息的相似关系,包括:分别根据所述多个第二文档的中的多个第一词语和所述多个第三文档中的多个第二词语,确定所述多个第二文档组成的第一矩阵和所述多个第三文档组成的第二矩阵;将所述第一矩阵的每一列与所述第二矩阵的每一列进行点积,得到用于指示所述第二文档和所述第三文档之间的相似关系的第一匹配矩阵;根据所述第一匹配矩阵确定第一权重,所述第一权重为所述多个第二文档和所述多个第三文档的上下文向量的权重;根据所述第一矩阵和所述第一权重,确定所述多个第三文档的每个第二词语在所述多个第二文档中的第一上下文向量;以及,根据所述第二矩阵和所述第一权重,确定所述多个第二文档的每个第一词语在所述多个第三文档中的第二上下文向量;将所述第一上下文向量和所述第二上下文向量进行对比,得到所述第一选项信息与所述第二选项信息的相似关系。5.根据权利要求1所述的方法,其特征在于,所述根据所述多个第二文档和所述第一文档的描述信息,确定用于指示所述描述信息与所述第一选项信息的推理关系的第二预测向量,包括:将所述第一文档的描述信息和第一选项信息组成第四文本内容;根据所述多个第二文档和所述第四文本内容,确定所述第二文档和所述第四文本内容的推理关系;根据所述第二文档和所述第四文本内容的推理关系,确定所述第二预测向量;或者,将所述第二文档、所述第一文档的描述信息和所述第一文档输入第二预测模型中,得到所述第二预测向量。6.根据权利要求5所述的方法,其特征在...

【专利技术属性】
技术研发人员:邱昭鹏吴贤范伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1