【技术实现步骤摘要】
数据处理方法和设备
本专利技术涉及一种数据处理方法和设备,更具体地,涉及一种用于从图片挖掘主题关键词和主题网页的方法和设备。
技术介绍
图片中的文字往往对了解该图片的内容非常重要。例如,广告图片中文本信息对客户了解广告内容具有重要作用。利用字符识别(例如,OCR(光学字符识别))的结果和网络信息可以更加全面地提取广告的文本内容,通过挖掘这些信息并提取广告的主题(包括主题词和主题网页),将向客户推荐其扩展应用或服务。由于字符识别技术不能锁定代表图片(例如,广告图片)主题的关键词,所以借助互联网大量的文本信息,验证并提取广告图像中的文本。使用字符识别结果中的关键词进行检索,文本聚类和匹配等数据挖掘手段,可获取和广告相关的主题网页(检索的网页和广告本身都表达一个内容)。然而由于字符识别结果的具有一定不完整性或不正确性,导致部分关键词检索出的网页可能具有发散性,生成噪音数据,而且如果关键词搜索的网页发散,其输入的关键词的正确识别结果将被丢弃,不能召回。因此,需要一种能够解决上述问题的技术。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面 ...
【技术保护点】
一种数据处理方法,包括:图片识别步骤,用于从图片识别关键词作为初始的检索词;网页和候选关键词获取步骤,用于在搜索引擎中利用所述检索词进行搜索来获取网页,并从所述网页中挖掘候选关键词;评级步骤,用于基于所述检索词和/或所述候选关键词与所述网页之间的链接关系,对所述检索词和/或所述候选关键词以及所述网页进行评级;以及检索词选择步骤,用于基于评级结果从所述候选关键词中选择所述网页和候选关键词步骤中下次所用的检索词,其中,重复执行所述网页和候选关键词获取步骤、所述评级步骤和所述检索词选择步骤,直到满足预定条件为止。
【技术特征摘要】
1.一种数据处理方法,包括:图片识别步骤,用于从图片识别关键词作为初始的检索词;网页和候选关键词获取步骤,用于在搜索引擎中利用所述检索词进行搜索来获取网页,并从所述网页中挖掘候选关键词;评级步骤,用于基于所述检索词和/或所述候选关键词与所述网页之间的链接关系,分别计算所述检索词和/或所述候选关键词以及所述网页的指向性级别和被指向性级别,并且基于所述指向性级别和所述被指向性级别中的至少一个对所述检索词和/或所述候选关键词以及所述网页进行评级;以及检索词选择步骤,用于基于评级结果从所述候选关键词中选择所述网页和候选关键词获取步骤中下次所用的检索词,其中,重复执行所述网页和候选关键词获取步骤、所述评级步骤和所述检索词选择步骤,直到满足预定条件为止。2.根据权利要求1所述的方法,其中,在所述评级步骤中,还基于所述检索词和/或所述候选关键词以及所述网页与图片识别结果之间的相似度,分别计算所述检索词和/或所述候选关键词以及所述网页的指向性级别和被指向性级别,并且基于所述指向性级别和所述被指向性级别中的至少一个对所述检索词和/或所述候选关键词以及所述网页进行评级。3.根据权利要求1所述的方法,还包括:评分步骤,用于在达到所述预定条件的情况下,基于所述指向性级别、所述被指向性级别以及这两种级别的加权组合中的一种或多种,对所述检索词和/或所述候选关键词以及所述网页进行评分;以及输出步骤,基于评分结果,分别输出满足预定标准的检索词和/或候选关键词以及网页作为主题关键词和主题网页。4.一种数据处理设备,包括:图片识别单元,被配置成从图片识别关键词作为初始的检索词;网页和候选关键词获取单元,被配置成在搜...
【专利技术属性】
技术研发人员:孙健,夏迎炬,杨宇航,张明明,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。