【技术实现步骤摘要】
【国外来华专利技术】细化对内容提供商的搜索请求
[0001]本专利技术涉及基于计算机的文本信息的搜索,并且更具体地,涉及基于初始搜索请求自动生成针对经细化的搜索请求的建议。
技术介绍
[0002]在线媒体分析工具从诸如Twitter、Facebook或SocialGist的内容提供商获取特定数据源的文档。内容提供商API通常支持经常可以被组合的至少两种访问机制:基于关键字的检索,其中用户指定一组关键字,可选地与AND、OR或NOT组合,因此数据提供商返回包含该内容的文档,诸如网站、文本文档、论坛帖子、博客条目等;以及基于站点的检索,其中用户指定诸如网站、网站部分、频道、转播等的数据源的列表,并且内容提供商专门从这些源返回文档。
[0003]响应于输入搜索请求,通常向用户呈现文档样本。在运行完整分析之前,用户可以继续搜索更好地支持目标的分析的更相关的文档的集合。尤其,在搜索用户生成的内容时,由于可以在社交媒体数据源中发现大量的内容,所以关键字搜索可能导致模糊的搜索结果。例如,“F
‑
50”的搜索可以返回关于跑车、足球鞋、涡轮螺旋桨飞机和咖啡机的特定型号的内容。为此,用户可以通过添加关键字和/或站点来细化查询。
技术实现思路
[0004]在一个方面,公开了一种用于细化对内容提供商的初始搜索请求的计算机实现的方法。所述计算机实现的方法包括从用户接收初始搜索请求并且向内容提供商提交初始搜索请求。所述计算机实现的方法还包括从内容提供商接收样本文档的集合和样本文档中的相应样本文档的源标识符,其中源标识符标识 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于细化对内容提供商的初始搜索请求的计算机实现的方法,所述方法包括:从用户接收初始搜索请求;向内容提供商提交初始搜索请求;从内容提供商接收样本文档的集合和样本文档中的相应样本文档的源标识符,所述源标识符标识数据源中与样本文档中的相应样本文档相关联的相应数据源;将主题模型应用于所述样本文档的集合以获得主题表示,所述主题表示是对由样本文档中的相应样本文档覆盖的主题的描述;向用户呈现所述主题表示;从用户接收所述主题中的相应主题的主题相关性得分;根据主题相关性得分对数据源进行分类,以获得所述数据源中的相应数据源的源相关性得分;以及基于源相关性得分,确定经细化的搜索请求,所述经细化的搜索请求对覆盖所述主题中的最高得分的主题的文档具有增加的选择性。2.根据权利要求1所述的计算机实现的方法,其中所述经细化的搜索请求包括初始搜索请求和源准则的逻辑结合,其中与由初始搜索请求覆盖的数据源的数量相比,源准则减少了由经细化的搜索请求覆盖的数据源的数量。3.根据权利要求2所述的计算机实现的方法,其中所述源准则包括:基于源相关性得分选择所述数据源中的一个或多个数据源的焦点语句,或基于源相关性得分取消选择所述数据源中的一个或多个数据源的排除语句。4.根据权利要求2至3中任一项所述的计算机实现的方法,其中对所述数据源进行分类包括从离散源相关性级别的预定义集合中选择源相关性得分,其中所述计算机实现的方法进一步包括:对于离散源相关性级别中用于确定源准则的相应离散源相关性级别,确定在所述数据源中具有离散源相关性级别中的相应离散源相关性级别的相应数据源处,针对初始搜索请求发现的总点击数;以及从具有离散源相关性级别中的相应离散源相关性级别的数据源中,识别所述数据源中具有最大总点击数的N个数据源,N是预定义的上限,其中确定经细化的搜索请求包括:对于离散源相关性级别中用于确定源准则的相应离散源相关性级别,用N个所识别的数据源填充源准则。5.根据前述权利要求中任一项所述的计算机实现的方法,其中对所述数据源进行分类包括从离散源相关性级别的预定义集合中选择源相关性得分,其中确定经细化的搜索请求包括选择源相关性级别中的一个或多个源相关性级别用于执行选择性的增加,其中主题相关性得分选自离散主题相关性级别的预定义集合。6.根据前述权利要求中任一项所述的计算机实现的方法,其中源相关性得分和主题相关性得分选自离散公共相关性级别的预定义集合,其中确定经细化的搜索请求包括:选择离散公共相关性级别中的一个或多个离散公共相关性级别用于执行选择性的增加。7.根据权利要求6所述的计算机实现的方法,其中离散公共相关性级别的预定义集合包括高相关性级别,其中对所述数据源进行分类包括:如果与给定数据源相关联并且覆盖被分配给高相关性级别的主题的样本文档的相对频率等于或超过预定义的高相关性阈值,
则将给定数据源分配给高相关性级别,其中确定经细化的搜索请求包括:在高相关性级别用于确定经细化的搜索请求的情况下,与初始搜索请求相比,将经细化的搜索请求限制为数据源中的被分配给高相关性级别的一个或多个数据源。8.根据权利要求7所述的计算机实现的方法,其中所述预定义的高相关性阈值是百分之百。9.根据权利要求6至8中任一项所述的计算机实现的方法,其中离散公共相关性级别的集合进一步包括低相关性级别,其中对所述数据源进行分类包括:如果与给定数据源相关联并且覆盖被分配给低相关性级别的主题的样本文档的相对频率等于或超过预定义的第一低相关性阈值,和/或如果与给定数据源相关联并且覆盖被分配给高相关性级别的主题的样本文档的相对频率等于或小于预定义的第二低相关性阈值,则将给定数据源分配给低相关性级别,其中确定经细化的搜索请求包括:在低相关性级别被用于确定经细化的搜索请求的情况下,与初始搜索请求相比,从经细化的搜索请求中排除数据源中被分配给低相关性级别的一个或多个数据源。10.根据权利要求9所述的计算机实现的方法,其中所述第一低相关性阈值是百分之百并且所述第二低相关性阈值是百分之零。11.根据前述权利要求中任一项所述的计算机实现的方法,所述方法进一步包括:获得精度级别,其中经细化的搜索请求进一步基于精度级别来确定,其中所述精度级别是从离散精度级别的预定义集合获得的,其中选择性的增加基于精度级别。12.根据权利要求11所述的计算机实现的方法,其中所述精度级别作为来自用户的输入被获得。13.根据权利要求11至12中任一项所述的计算机实现的方法,其中精度级别的集合包括高查准率级别、平衡精度级别和高查全率级别,其中源相关性得分中的相应源相关性得分选自由高相关性级别、中相关性级别和低相关性级别组成的组,其中对所述数据源进行分类包括:如果与给定数据源相关联并且覆盖被分配给高相关性级别的主题的样本文档的相对频率等于或超过预定义的高相关性阈值,则将给定数据源分配给高相关性级别,其中对所述数据源进行分类进一步包括:如果与给定数据源相关联并且覆盖被分配给低相关性级别的主题的样本文档的相对频率等于或超过预定义的第一低相关性阈值,和/或如果与给定数据源相关联并且覆盖被分配给高相关性级别的主题的样本文档的相对频率等于或小于预定义的第二低相关性阈值,则将给定数据源分配给低相关性级别,其中对所述数据源进行分类进一步包括:如果给定数据源不能被分配给高相关性级别和低相关性级别中的任何一个,则将所述给定数据源分配给中相关性级别,其中在精度级别是高查准率级别的情况下,经细化的搜索请求包括初始搜索请求和焦点语句的逻辑结合,所述焦点语句选择所述数据源中具有高相关性级别作为源相关性得分的一个或多个数据源,其中在精度级别是平衡...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。