一种文件分类方法及装置制造方法及图纸

技术编号:15724886 阅读:104 留言:0更新日期:2017-06-29 11:27
本发明专利技术公开了一种文件分类方法及装置,涉及文件分类技术领域,该方法包括:获取文件中包含的图片信息;通过预设的图片分类模型确定与图片信息相对应的图片分类结果;根据图片分类结果生成与文件相对应的文件特征向量;通过预设的文件分类模型确定与文件特征向量相对应的文件分类结果。由此可见,本发明专利技术解决了现有技术中无法根据图片内容对新闻分类的问题,取得了能够综合新闻中包含的文本和图片内容进行更加准确和更加精确的分类的有益效果。

【技术实现步骤摘要】
一种文件分类方法及装置
本专利技术涉及文件分类
,具体涉及一种文件分类方法及装置。
技术介绍
新闻,是对通过报纸、电台、广播、电视台、互联网等媒体途径所传播的信息的一种称谓,主要为对新近发生事实的报道或者新近事实变动的报道,因此,新闻的及时性显得尤为重要。在日常生活中,为了便于读者能快速找到自己所关心的新闻,需要对新闻进行分类。目前的分类一般为简单的文本筛选,或者再加入关键信息筛选,例如新闻出处、语言语种等关键信息,然后根据上述信息对新闻进行分类。上述分类方式还可以广泛应用于除新闻之外的各类文件中。但是,专利技术人在实现本专利技术的过程中,发现在现有技术中至少存在如下问题:现有技术仅能根据新闻等文件中的文本内容进行分类。而随着社会的发展,新闻中的图片内容越来越多,而且在微博、微信等自媒体平台上,很多新闻是直接以图片形式(例如将整篇文字新闻转换成图片形式添加在微博或微信朋友圈附图中)展示,或者在新闻中加入了二维码等,而现有的新闻分类技术无法识别图片,无法根据图片内容进行新闻分类,降低了新闻分类的准确性。由此可见,现有的文件分类方式存在着分类依据单一、适用范围狭窄等诸多缺陷。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文件分类方法和相应的装置。根据本专利技术的一个方面,提供了一种文件分类方法,该方法包括:获取文件中包含的图片信息;通过预设的图片分类模型确定与图片信息相对应的图片分类结果;根据图片分类结果生成与文件相对应的文件特征向量;通过预设的文件分类模型确定与文件特征向量相对应的文件分类结果。根据本专利技术的另一方面,提供了一种文件分类装置,该装置包括:获取模块,用于获取文件中包含的图片信息;图片分类模块,用于通过预设的图片分类模型确定与图片信息相对应的图片分类结果;特征向量模块,用于根据图片分类结果生成与文件相对应的文件特征向量;文件分类模块,用于通过预设的文件分类模型确定与文件特征向量相对应的文件分类结果。根据本专利技术提供的文件分类方法及装置,能够通过预设的图片分类模型确定与文件中包含的图片信息相对应的图片分类结果,并根据该图片分类结果对文件进行分类,由此解决了现有的文件分类方式仅能根据单一的文本特征进行分类所导致的分类结果不准确的问题,进而提升了分类结果的准确度,拓宽了本方案的适用范围。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例一提供的一种文件分类方法的流程图;图2示出了本专利技术实施例二提供的一种文件分类方法的流程图;图3示出了本专利技术实施例三提供的一种文件分类装置的结构示意图;图4示出了本专利技术实施例四提供的一种文件分类装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术提供了一种文件分类方法及装置,至少能够解决现有技术中的文件分类方式所存在的分类结果不准确、适用范围狭窄的技术问题。实施例一图1示出了本专利技术实施例一提供的一种文件分类方法的流程图,该方法包括:步骤S110:获取文件中包含的图片信息。图片信息的具体获取方式可结合文件中的图片嵌入方式灵活确定,本专利技术对具体的获取方式不做限定,本领域技术人员可灵活采取各种方式实现。例如,若文件中的图片以缩略图的图标形式嵌入文件中,可以先获取与缩略图相对应的完整图片,然后再根据完整图片确定对应的图片信息。又如,若文件中的图片以超链接形式嵌入文件中,可以先根据超链接获取对应的原始图片,然后再根据原始图片确定对应的图片信息。另外,既可以直接将获取到的图片内容作为图片信息进行后续处理,也可以先对获取到的图片内容进行预设的信息提取操作,并将提取出的重要信息作为图片信息进行后续处理,从而一方面能够缩减后续处理时的工作量,提高处理速度;另一方面还能够滤除图片内容中的无关信息,使后续的分类操作更具有针对性。本专利技术对信息提取操作的具体实现方式以及图片信息的具体表示形式均不做限定。步骤S120:通过预设的图片分类模型确定与图片信息相对应的图片分类结果。在本专利技术实施例中,该预设的图片分类模型可以通过深度学习算法等各类机器学习算法获得,也可以采用传统算法获得,本专利技术对此不作具体限定,本领域技术人员可以根据具体情况设定。另外,为了使获取到的图片分类结果便于统计和识别,本专利技术实施例中,可以灵活通过图片特征向量、图片特征矩阵等各种方式来表示图片分类结果,本专利技术对图片分类结果的具体表示形式不做限定。步骤S130:根据图片分类结果生成与文件相对应的文件特征向量。当待分类文件中仅包含图片内容时,可以直接将步骤S120得到的图片特征向量作为该文件相对应的文件特征向量;当待分类文件中既包含图片内容又包含文本内容时,可以先通过向量空间模型根据文本内容生成对应的文本特征向量,然后根据预设的规则将步骤S120得到的图片特征向量与文本特征向量进行组合,并根据组合结果生成该待分类文件对应的文件特征向量。上述对于文本特征向量的生成方法仅仅是一种举例,而非限制,在实际运用中,本领域技术人员可以根据实际情况,灵活选择文本特征向量的生成方法,本专利技术对此不作具体限定。步骤S140:通过预设的文件分类模型确定与文件特征向量相对应的文件分类结果。其中,文件分类模型通过预设的机器学习算法确定,该机器学习算法可以是线性分类算法,也可以是神经网络分类算法,还可以是深度学习算法。本专利技术对此不作具体限定,本领域技术人员可以根据实际情况,灵活选择该机器学习算法。具体地,将步骤S130中得到的文件特征向量输入到文件分类模型中,该文件分类模型会根据相应的规则和算法,得出与该文件特征向量相对应的文件分类结果。由此可见,本专利技术提供的文件分类方法可以识别文件中的文本内容和图片内容,并根据识别出的文本和图片内容,通过文件分类模型对文件进行分类,由此解决了现有技术中无法根据图片内容对新闻分类的问题,取得了能够综合新闻中包含的文本和图片内容进行更加准确和更加精确的分类的有益效果。实施例二图2示出了本专利技术实施例二提供的一种文件分类方法的流程图,该方法包括:步骤S210:通过机器学习算法对预先获取到的图片训练集进行机器学习,根据学习结果生成预设的图片分类模型。具体地,先根据图片分类所需的类别设置具有针对性的图片训练集,然后通过机器学习算法对图片训练集进行机器学习,从而根据学习结果获得图片分类模型,这一过程被称为图片分类模型的训练过程;在完成训练之后,将待分类图片输入到图片分类模型中,就可以得到该待分类图片的预测分类结果。该机器学习算法可以是深度学习算法,也可以是神经网络算法。在实际应用中本文档来自技高网...
一种文件分类方法及装置

【技术保护点】
一种文件分类方法,包括:获取文件中包含的图片信息;通过预设的图片分类模型确定与所述图片信息相对应的图片分类结果;根据所述图片分类结果生成与所述文件相对应的文件特征向量;通过预设的文件分类模型确定与所述文件特征向量相对应的文件分类结果。

【技术特征摘要】
2017.02.15 CN 20171008106191.一种文件分类方法,包括:获取文件中包含的图片信息;通过预设的图片分类模型确定与所述图片信息相对应的图片分类结果;根据所述图片分类结果生成与所述文件相对应的文件特征向量;通过预设的文件分类模型确定与所述文件特征向量相对应的文件分类结果。2.根据权利要求1所述的方法,其中,所述根据所述图片分类结果生成与所述文件相对应的文件特征向量的步骤具体包括:获取所述文件中包含的文本信息,生成与所述文本信息相对应的文本特征向量;生成与所述图片分类结果相对应的图片特征向量,将所述文本特征向量与所述图片特征向量进行组合,根据组合结果生成所述文件特征向量。3.根据权利要求2所述的方法,其中,与所述图片分类模型相对应的图片分类总数为N,其中,N为大于1的自然数;所述确定与所述图片信息相对应的图片分类结果的步骤具体包括:分别确定该图片信息属于N个图片分类中的各个图片分类的概率;则所述生成与所述图片分类结果相对应的图片特征向量的步骤具体包括:根据该图片信息属于N个图片分类中的各个图片分类的概率,设置N维向量作为所述图片特征向量;其中,各个维度分别与各个图片分类一一对应,且每个维度的权值根据该图片信息属于相应的图片分类的概率确定。4.根据权利要求2所述的方法,其中,与所述图片分类模型相对应的图片分类总数为N,其中,N为大于2的自然数;所述确定与所述图片信息相对应的图片分类结果的步骤具体包括:分别确定该图片信息属于N个图片分类中的各个图片分类的概率,按照概率从高到低的顺序筛选M个图片分类作为该图片信息的图片分类结果,其中,M为小于N的自然数;则所述生成与所述图片分类结果相对应的图片特征向量的步骤具体包括:预先为各种图片分类结果分别设置对应的图片分类...

【专利技术属性】
技术研发人员:赵毅强
申请(专利权)人:北京时间股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1