应用语义向量和关键字分析关联数据集的方法和装置制造方法及图纸

技术编号:3761197 阅读:219 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于分析专有语义向量和语义表示来识别一个或多个数据集的系统和方法,该数据集,如广告,根据上下文关联到主题数据集,如用户正在浏览的网页;该专有语义向量,如可训练语义向量(TSV),代表网页和广告,该语义表示包括所述广告和所述网页的有代表性关键字的信息。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用来识别根据上下文相关联的数据集的方法和系统,例如,文档、网 页、电子邮件、搜索问题、广告等,并且尤其涉及通过分析所述数据集的唯一语义向量和包 含所述数据集中代表性关键字的信息的关键字语义表示,来识别根据上下文与主题数据集 相关联的数据集的方法和系统。
技术介绍
诸如由微软公司、谷歌公司、振动媒体(Vibrant Media)或雅虎公司开发的搜索引 擎或广告布置系统被广泛地用来识别与用户输入的搜索问题潜在相关联的文档或文件,或 者被用来选择和显示广告,该广告根据上下文关联到用户已经或正在浏览或操作的一个或 多个数据集,例如文档、电子邮件消息、RSS消息源、或网页。然而,即使在开发和修改多年之后,现有的搜索引擎或广告布置系统仍然远不能 令人满意。搜索的结果或识别的广告经常与用户输入的搜索问题或用户正在或已经浏览的 文档或网页缺乏足够的关联。
技术实现思路
本专利技术描述各种实施例,它们通过分析代表数据集的唯一语义向量和包含有数据 集中代表性关键字的信息的语义表示,有效地识别一个或多个数据集,例如文档、网页、电 子邮件等,这些数据集可能根据上下文关联到主题数据集,例如搜索问题、用户正在浏览的 网页。根据本专利技术的一个示例性的方法,控制数据处理系统使得从一组数据集中的至少 一个数据集关联到主题数据集。每个数据集或所述主题数据集包括至少一个关键字。该 方法获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向 量。代表所述组中每个单独数据集的每个语义向量包括所述单独数据集中的所述至少一个 关键字的每一个与预先确定目录之间关系的集合信息,在所述单独数据集中的所述至少一 个关键字的每一个都可能关联到所述目录。代表主题数据集的所述语义向量包括所述主题 数据集中的所述至少一个关键字的每一个与预先确定目录之间关系的共同信息,在所述主 题数据集中的所述至少一个关键字的每一个都可能关联到所述目录,并且代表所述主题数 据集或所述组中的每个单独数据集的所述语义向量具有与所述预先确定目录的数目相等 的维。对于所述组的每个数据集,通过比较与所述主题数据集关联的所述语义向量和与所 述组中的每个数据集关联的所述语义向量,来确定所述主题数据集与所述组中的每个数据 集之间的第一相似性。该示例性方法进一步获取所述主题数据集的关键字语义表示和所述 组中的每个单独数据集的关键字语义表示。所述主题数据集的所述关键字语义表示或所述 组中的每个单独数据集的所述关键字语义表示包括指示所述主题数据集或所述组中的每 个单独数据集的有代表性关键字的信息,并且所述主题数据集的所述关键字语义表示或所 述组中的每个单独数据集的所述关键字语义表示以不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成。对于所述组的每个单独数据集,通过比较所述主题数据集的所述关键字语义表示和所述组中的每个数据集的所述关键 字语义表示来确定在所述主题数据集与所述组中的每个数据集之间的第二相似性。根据所 述主题数据集与所述组中的每个数据集之间的所述第一相似性和所述主题数据集与所述 组中的每个数据集之间的所述第二相似性选择所述组中数据集的至少一个数据集。该方法 将所述组中的该至少一个被选数据集关联到所述主题数据集。所述数据集中的所述至少一 个数据集可以和所述主题数据集同时呈现给用户或者在向用户呈现所述主题数据集之后 呈现。所述数据集中的所述至少一个数据集或所述主题数据集可以以语音形式、可视形式、 视频形式、触觉形式或其任何组合形式呈现给用户。在一个实施例中,所述组中所述数据集的至少一个数据集是广告,并且所述主题 数据集是文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关信息;或 一个或多个文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关信息的 一部分或其组合。还根据另一个实施例,该示例性方法传送所述至少一个被选数据集或与 所述被选数据集关联的文件以及所述主题数据集或与所述主题数据集关联的文件给用户。 所述至少一个被选数据集可以通过显示所述至少一个被选数据集、播放根据所述至少一个 被选数据集的语音信号或提供所述至少一个被选数据集的链接而被传送给用户。在一个实施例中,所述至少一个关键字包括字、短语、字符串、预分配关键字、子数 据集、元信息(meta信息)和基于包含在所述单独数据集中的链接取回的信息中的至少一 个。在另一个实施例中,每个数据集的所述语义向量被预先计算并且被包含在所述单独数 据集中。所述语义向量可以在运行中动态生成。根据一个实施例,代表所述组中的每个单独数据集的所述语义向量是基于所述组 中的每个单独数据集的至少一个关键字和已知关键字与预先确定目录之间的已知关系构 成的,所述已知关键字可能关联到的所述目录,以及代表主题数据集的所述语义向量是基 于所述主题数据集的至少一个关键字和已知关键字与预先确定目录之间的所述已知关系 构成的,所述已知关键字可能关联到的所述目录。根据另一个实施例,与所述单独数据集关 联的所述语义向量是进一步基于与至少一个用户相关的信息或链接到所述单独数据集的 至少一个数据集生成的。所述与至少一个用户相关的信息包括之前浏览过的文档、之前搜 索请求、用户优先选择和个人信息中的至少一个。根据一个实施例,根据所述主题数据集与所述组中的每个数据集之间的所述第一 相似性、所述主题数据集与所述组中的每个数据集之间的所述第二相似性来选择所述组中 的所述数据集的至少一个数据集的步骤包括,指定所述第一相似性和所述第二相似性中的 一个作为主要相似性、而另一个作为次要相似性,获取所述主要相似性的多个预置关联级 别的信息;对于所述组中的每个数据集,根据所述主要相似性映射所述主要相似性到所述 预置关联级别中的一个;根据所述组中的所述数据集各自映射的预置关联级别,对所述组 中的所述数据集进行排序;在每个关联级别里,根据所述数据集的所述次要相似性对每个 关联级别里的所述数据集进行排序;以及根据在每个关联级别里所述数据集排序的结果选 择所述组中的所述数据集的至少一个数据集。根据另一个实施例,根据所述主题数据集与所述组中的每个数据集之间的第一相 似性、以及根据所述主题数据集与所述组中的每个数据集之间的第二相似性来选择所述组中数据集的至少一个数据集的步骤,包括指定第一相似性和第二相似性中的一个作为主要相似性,而另一个作为次要相似性;根据所述主要相似性对所述组中的所述数据集进行 排序;根据预置标准从所述排序后的数据集中选择至少一个候选数据集;根据所述次要相 似性对所述至少一个候选数据集进行排序;根据所述至少一个候选数据集排序的结果选择 所述组中所述数据集的所述至少一个数据集。还根据另一个实施例,根据所述主题数据集与所述组中的每个数据集之间的第一相似性、以及根据所述主题数据集与所述组中的每个数据集之间的第二相似性来选择所述 数据集的至少一个数据集的步骤,包括对于所述组中的每个数据集,根据预置公式基于所 述数据集的各自第一相似性和所述数据集的各自第二相似性计算复合相似性;根据所述数 据集的各自复合相似性选择所述组中的所述数据集的所述至少一个数据集。一个示例性数据处理系统,用来将一组数据集中的至少一个数据集关联本文档来自技高网...

【技术保护点】
一种机器执行方法,用于控制数据处理系统以便将一组数据集的至少一个数据集关联到主题数据集,其中每个数据集或所述主题数据集包括至少一个关键字,该方法包括以下机器执行的步骤:获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量,其中:代表所述组中的每个单独数据集的每个语义向量包括在所述单独数据集的所述至少一个关键字的每一个与预先确定目录之间的关系的集合信息,所述单独数据集的所述至少一个关键字的每一个都可能关联到所述目录;代表所述主题数据集的所述语义向量包括集合信息,该集合信息具有所述主题数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述主题数据集的所述至少一个关键字的每一个都可能关联到的所述目录,以及代表所述主题数据集或所述组中每个单独数据集的所述语义向量具有与预先确定目录的数目相等的维;对于所述组中的每个数据集,通过将与所述主题数据集关联的所述语义向量和与所述组中的每个数据集关联的所述语义向量进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第一相似性;获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示,其中:所述主题数据集的关键字语义表示或所述组中的每个单独数据集的关键字语义表示包括指示所述主题数据集或所述组中单独数据集的有代表性关键字的信息,以及所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以一种不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成;对于所述组中的每个数据集,通过将所述主题数据集的关键字语义表示和所述组中的每个数据集的关键字语义表示进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第二相似性;以及根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性和所述主题数据集与所述组中的每个数据集之间的所述第二相似性,选择所述组中的所述数据集的至少一个数据集;以及将所述至少一个被选择的数据集关联到所述主题数据集。...

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:文圆克里特普瑞特斯马杰拉德弗朗斯荷利三世安德鲁劳伦斯法瑞斯咖贝尔斯汀伯格
申请(专利权)人:特克斯特怀茨有限责任公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1