一种文件分类方法及装置制造方法及图纸

技术编号：15724886 阅读：104 留言：0更新日期：2017-06-29 11:27

本发明专利技术公开了一种文件分类方法及装置，涉及文件分类技术领域，该方法包括：获取文件中包含的图片信息；通过预设的图片分类模型确定与图片信息相对应的图片分类结果；根据图片分类结果生成与文件相对应的文件特征向量；通过预设的文件分类模型确定与文件特征向量相对应的文件分类结果。由此可见，本发明专利技术解决了现有技术中无法根据图片内容对新闻分类的问题，取得了能够综合新闻中包含的文本和图片内容进行更加准确和更加精确的分类的有益效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种文件分类方法及装置
本专利技术涉及文件分类
，具体涉及一种文件分类方法及装置。
技术介绍
新闻，是对通过报纸、电台、广播、电视台、互联网等媒体途径所传播的信息的一种称谓，主要为对新近发生事实的报道或者新近事实变动的报道，因此，新闻的及时性显得尤为重要。在日常生活中，为了便于读者能快速找到自己所关心的新闻，需要对新闻进行分类。目前的分类一般为简单的文本筛选，或者再加入关键信息筛选，例如新闻出处、语言语种等关键信息，然后根据上述信息对新闻进行分类。上述分类方式还可以广泛应用于除新闻之外的各类文件中。但是，专利技术人在实现本专利技术的过程中，发现在现有技术中至少存在如下问题：现有技术仅能根据新闻等文件中的文本内容进行分类。而随着社会的发展，新闻中的图片内容越来越多，而且在微博、微信等自媒体平台上，很多新闻是直接以图片形式(例如将整篇文字新闻转换成图片形式添加在微博或微信朋友圈附图中)展示，或者在新闻中加入了二维码等，而现有的新闻分类技术无法识别图片，无法根据图片内容进行新闻分类，降低了新闻分类的准确性。由此可见，现有的文件分类方式存在着分类依据单一、适用范围狭窄等诸多缺陷。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文件分类方法和相应的装置。根据本专利技术的一个方面，提供了一种文件分类方法，该方法包括：获取文件中包含的图片信息；通过预设的图片分类模型确定与图片信息相对应的图片分类结果；根据图片分类结果生成与文件相对应的文件特征向量；通过预设的文件分类模型确定与文件特征向量相对应的文件分类结果。根据本专利...
一种文件分类方法及装置

【技术保护点】
一种文件分类方法，包括：获取文件中包含的图片信息；通过预设的图片分类模型确定与所述图片信息相对应的图片分类结果；根据所述图片分类结果生成与所述文件相对应的文件特征向量；通过预设的文件分类模型确定与所述文件特征向量相对应的文件分类结果。

【技术特征摘要】
2017.02.15 CN 20171008106191.一种文件分类方法，包括：获取文件中包含的图片信息；通过预设的图片分类模型确定与所述图片信息相对应的图片分类结果；根据所述图片分类结果生成与所述文件相对应的文件特征向量；通过预设的文件分类模型确定与所述文件特征向量相对应的文件分类结果。2.根据权利要求1所述的方法，其中，所述根据所述图片分类结果生成与所述文件相对应的文件特征向量的步骤具体包括：获取所述文件中包含的文本信息，生成与所述文本信息相对应的文本特征向量；生成与所述图片分类结果相对应的图片特征向量，将所述文本特征向量与所述图片特征向量进行组合，根据组合结果生成所述文件特征向量。3.根据权利要求2所述的方法，其中，与所述图片分类模型相对应的图片分类总数为N，其中，N为大于1的自然数；所述确定与所述图片信息相对应的图片分类结果的步骤具体包括：分别确定该图片信息属于N个图片分类中的各个图片分类的概率；则所述生成与所述图片分类结果相对应的图片特征向量的步骤具体包括：根据该图片信息属于N个图片分类中的各个图片分类的概率，设置N维向量作为所述图片特征向量；其中，各个维度分别与各个图片分类一一对应，且每个维度的权值根据该图片信息属于相应的图片分类的概率确定。4.根据权利要求2所述的方法，其中，与所述图片分类模型相对应的图片分类总数为N，其中，N为大于2的自然数；所述确定与所述图片信息相对应的图片分类结果的步骤具体包括：分别确定该图片信息属于N个图片分类中的各个图片分类的概率，按照概率从高到低的顺序筛选M个图片分类作为该图片信息的图片分类结果，其中，M为小于N的自然数；则所述生成与所述图片分类结果相对应的图片特征向量的步骤具体包括：预先为各种图片分类结果分别设置对应的图片分类...

【专利技术属性】
技术研发人员：赵毅强，
申请(专利权)人：北京时间股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人