细化对内容提供商的搜索请求制造技术

技术编号:36333510 阅读:31 留言:0更新日期:2023-01-14 17:44
一种用于细化对内容提供商的初始搜索请求的计算机实现的方法、计算机程序产品和计算机系统。所述计算机实现的方法包括从用户接收初始搜索请求,向内容提供商提交初始搜索请求,从内容提供商接收样本文档的集合和各个样本文档的源标识符,将主题模型应用于样本文档的集合以获得主题表示;向用户呈现主题表示;从用户接收各个所述主题的主题相关性得分,以及根据主题相关性得分对数据源进行分类,以获得各个数据源的源相关性得分。所述计算机实现的方法还包括:基于源相关性得分,确定经细化的搜索请求,经细化的搜索请求对覆盖主题中的最高得分的主题的文档具有增加的选择性。最高得分的主题的文档具有增加的选择性。最高得分的主题的文档具有增加的选择性。

【技术实现步骤摘要】
【国外来华专利技术】细化对内容提供商的搜索请求


[0001]本专利技术涉及基于计算机的文本信息的搜索,并且更具体地,涉及基于初始搜索请求自动生成针对经细化的搜索请求的建议。

技术介绍

[0002]在线媒体分析工具从诸如Twitter、Facebook或SocialGist的内容提供商获取特定数据源的文档。内容提供商API通常支持经常可以被组合的至少两种访问机制:基于关键字的检索,其中用户指定一组关键字,可选地与AND、OR或NOT组合,因此数据提供商返回包含该内容的文档,诸如网站、文本文档、论坛帖子、博客条目等;以及基于站点的检索,其中用户指定诸如网站、网站部分、频道、转播等的数据源的列表,并且内容提供商专门从这些源返回文档。
[0003]响应于输入搜索请求,通常向用户呈现文档样本。在运行完整分析之前,用户可以继续搜索更好地支持目标的分析的更相关的文档的集合。尤其,在搜索用户生成的内容时,由于可以在社交媒体数据源中发现大量的内容,所以关键字搜索可能导致模糊的搜索结果。例如,“F

50”的搜索可以返回关于跑车、足球鞋、涡轮螺旋桨飞机和咖啡机的特定型号的内容。为此,用户可以通过添加关键字和/或站点来细化查询。

技术实现思路

[0004]在一个方面,公开了一种用于细化对内容提供商的初始搜索请求的计算机实现的方法。所述计算机实现的方法包括从用户接收初始搜索请求并且向内容提供商提交初始搜索请求。所述计算机实现的方法还包括从内容提供商接收样本文档的集合和样本文档中的相应样本文档的源标识符,其中源标识符标识数据源中与样本文档中的相应样本文档相关联的相应数据源。所述计算机实现的方法还包括将主题模型应用于样本文档的集合以获得主题表示,其中主题表示是对由样本文档中的相应样本文档覆盖的主题的描述。所述计算机实现的方法还包括向用户呈现主题表示以及从用户接收主题中的相应主题的主题相关性得分。所述计算机实现的方法还包括根据主题相关性得分对数据源进行分类,以获得数据源中的相应数据源的源相关性得分。所述计算机实现的方法还包括基于源相关性得分,确定经细化的搜索请求,经细化的搜索请求对覆盖主题中的最高得分的主题的文档具有增加的选择性。
[0005]在另一方面中,公开了一种用于细化对内容提供商的初始搜索请求的计算机程序产品。所述计算机程序产品包括具有实施在其中的程序指令的计算机可读存储介质,并且程序指令可由一个或多个处理器执行。所述程序指令可执行为从用户接收初始搜索请求。所述程序指令进一步可执行为向内容提供商提交初始搜索请求。所述程序指令进一步可执行为从内容提供商接收样本文档的集合和样本文档中的相应样本文档的源标识符,其中源标识符标识数据源中与样本文档中的相应样本文档相关联的相应数据源。所述程序指令进一步可执行为将主题模型应用于样本文档的集合以获得主题表示,其中主题表示是对由样
本文档中的相应样本文档覆盖的主题的描述。所述程序指令进一步可执行为向用户呈现主题表示。所述程序指令进一步可执行为从用户接收主题中的相应主题的主题相关性得分。所述程序指令进一步可执行为根据主题相关性得分对数据源进行分类,以获得数据源中的相应数据源的源相关性得分。所述程序指令进一步可执行为基于源相关性得分,确定经细化的搜索请求,经细化的搜索请求对覆盖主题中的最高得分的主题的文档具有增加的选择性。
[0006]在又一方面,公开了一种用于细化对内容提供商的初始搜索请求的计算机系统。所述计算机系统包括一个或多个处理器、一个或多个计算机可读有形存储设备、以及存储在一个或多个计算机可读有形存储设备中的至少一个上的用于由一个或多个处理器中的至少一个执行的程序指令。所述程序指令可执行为从用户接收初始搜索请求;向内容提供商提交初始搜索请求;从内容提供商接收样本文档的集合和样本文档中的相应样本文档的源标识符,源标识符标识数据源中与样本文档中的相应样本文档相关联的相应数据源;将主题模型应用于样本文档的集合以获得主题表示,主题表示是对由样本文档中的相应样本文档覆盖的主题的描述;向用户呈现主题表示;从用户接收主题中的相应主题的主题相关性得分;根据主题相关性得分对数据源进行分类,以获得数据源中的相应数据源的源相关性得分;以及基于源相关性得分,确定经细化的搜索请求,经细化的搜索请求对覆盖主题中的最高得分的主题的文档具有增加的选择性。
附图说明
[0007]图1示出了根据本专利技术的一个实施例的响应于搜索请求适于检索样本文档的示例性计算环境。
[0008]图2示出了根据本专利技术的一个实施例的示例性主题表示。
[0009]图3是示出了根据本专利技术的一个实施例的相关性得分的处理的示图。
[0010]图4是示出了根据本专利技术的一个实施例的用于细化对内容提供商的初始搜索请求的方法的步骤的流程图。
[0011]图5示出了根据本专利技术一个实施例的示例性计算设备的组件。
具体实施方式
[0012]由于基于文本的搜索查询的模糊性质,用户通常花费多次迭代来充分细化搜索查询以确保获取所有相关内容,但是没有钱花费在获取不相关内容上(内容提供商API通常部署每卷付费模型)。这可以包括设想包括相关关键字和数据源、排除不相关关键字和数据源、和/或考虑可替换关键字和/或数据源的逻辑项。以高效的方式进行此操作可能需要专家知识。因此,需要迭代搜索查询的简化方法。
[0013]细化对内容提供商的初始搜索请求的方法包括以下典型的步骤:从用户接收初始搜索请求,向内容提供商提交初始搜索请求。可以以直接方式(例如,使用输入设备)或间接方式(例如,经由网络从计算设备转发到实现该方法的计算设备)从用户接收初始搜索请求。内容提供商可以不必与数据源中的一个数据源相同。
[0014]响应于该提交,计算设备从内容提供商接收样本文档的集合。样本文档的集合带有源标识符(例如URL),该源标识符将每个样本文档分配给生成样本文档的数据源。在本公
开的范围内,文档应被理解为承载要由输出设备合并的人类可读信息的任何计算机可读数据对象。在没有限制的情况下,这种人类可读信息可以是文本、图像、声音、视频或其组合。
[0015]为简单起见,在本文中还可被称为“源”的数据源可以是连接至网络并且可通过使用相应网络调用和路由源标识符来访问的任何计算设备。然而,数据源还可以是可在没有网络的情况下,例如使用相应计算设备的本地接口来访问的任何计算设备,其中相应计算设备的本地接口、任何其他组件或由相应计算设备存储的变量由源标识符来标识。此外,数据源可以不是计算设备的实体,包括但不限于模拟信息存储器,其中源标识符可以指定,例如,非数字或非电子源(诸如书籍,通过数字化已经从该书籍获得可以由实现该方法的计算设备处理的文档),数字化设备(诸如用于再现包含在这种文档中的非数字或非电子源中的信息的扫描仪),和/或在其中可以找到相应非计算源的位置(诸如档案库或图书馆)。
[0016]在没有限制的情况下,可分别从其检索的数据源和文档可包括论坛,其中文档可以是特定论坛、较大论坛站点内的子论坛、或来自相应论坛或子论坛的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于细化对内容提供商的初始搜索请求的计算机实现的方法,所述方法包括:从用户接收初始搜索请求;向内容提供商提交初始搜索请求;从内容提供商接收样本文档的集合和样本文档中的相应样本文档的源标识符,所述源标识符标识数据源中与样本文档中的相应样本文档相关联的相应数据源;将主题模型应用于所述样本文档的集合以获得主题表示,所述主题表示是对由样本文档中的相应样本文档覆盖的主题的描述;向用户呈现所述主题表示;从用户接收所述主题中的相应主题的主题相关性得分;根据主题相关性得分对数据源进行分类,以获得所述数据源中的相应数据源的源相关性得分;以及基于源相关性得分,确定经细化的搜索请求,所述经细化的搜索请求对覆盖所述主题中的最高得分的主题的文档具有增加的选择性。2.根据权利要求1所述的计算机实现的方法,其中所述经细化的搜索请求包括初始搜索请求和源准则的逻辑结合,其中与由初始搜索请求覆盖的数据源的数量相比,源准则减少了由经细化的搜索请求覆盖的数据源的数量。3.根据权利要求2所述的计算机实现的方法,其中所述源准则包括:基于源相关性得分选择所述数据源中的一个或多个数据源的焦点语句,或基于源相关性得分取消选择所述数据源中的一个或多个数据源的排除语句。4.根据权利要求2至3中任一项所述的计算机实现的方法,其中对所述数据源进行分类包括从离散源相关性级别的预定义集合中选择源相关性得分,其中所述计算机实现的方法进一步包括:对于离散源相关性级别中用于确定源准则的相应离散源相关性级别,确定在所述数据源中具有离散源相关性级别中的相应离散源相关性级别的相应数据源处,针对初始搜索请求发现的总点击数;以及从具有离散源相关性级别中的相应离散源相关性级别的数据源中,识别所述数据源中具有最大总点击数的N个数据源,N是预定义的上限,其中确定经细化的搜索请求包括:对于离散源相关性级别中用于确定源准则的相应离散源相关性级别,用N个所识别的数据源填充源准则。5.根据前述权利要求中任一项所述的计算机实现的方法,其中对所述数据源进行分类包括从离散源相关性级别的预定义集合中选择源相关性得分,其中确定经细化的搜索请求包括选择源相关性级别中的一个或多个源相关性级别用于执行选择性的增加,其中主题相关性得分选自离散主题相关性级别的预定义集合。6.根据前述权利要求中任一项所述的计算机实现的方法,其中源相关性得分和主题相关性得分选自离散公共相关性级别的预定义集合,其中确定经细化的搜索请求包括:选择离散公共相关性级别中的一个或多个离散公共相关性级别用于执行选择性的增加。7.根据权利要求6所述的计算机实现的方法,其中离散公共相关性级别的预定义集合包括高相关性级别,其中对所述数据源进行分类包括:如果与给定数据源相关联并且覆盖被分配给高相关性级别的主题的样本文档的相对频率等于或超过预定义的高相关性阈值,
则将给定数据源分配给高相关性级别,其中确定经细化的搜索请求包括:在高相关性级别用于确定经细化的搜索请求的情况下,与初始搜索请求相比,将经细化的搜索请求限制为数据源中的被分配给高相关性级别的一个或多个数据源。8.根据权利要求7所述的计算机实现的方法,其中所述预定义的高相关性阈值是百分之百。9.根据权利要求6至8中任一项所述的计算机实现的方法,其中离散公共相关性级别的集合进一步包括低相关性级别,其中对所述数据源进行分类包括:如果与给定数据源相关联并且覆盖被分配给低相关性级别的主题的样本文档的相对频率等于或超过预定义的第一低相关性阈值,和/或如果与给定数据源相关联并且覆盖被分配给高相关性级别的主题的样本文档的相对频率等于或小于预定义的第二低相关性阈值,则将给定数据源分配给低相关性级别,其中确定经细化的搜索请求包括:在低相关性级别被用于确定经细化的搜索请求的情况下,与初始搜索请求相比,从经细化的搜索请求中排除数据源中被分配给低相关性级别的一个或多个数据源。10.根据权利要求9所述的计算机实现的方法,其中所述第一低相关性阈值是百分之百并且所述第二低相关性阈值是百分之零。11.根据前述权利要求中任一项所述的计算机实现的方法,所述方法进一步包括:获得精度级别,其中经细化的搜索请求进一步基于精度级别来确定,其中所述精度级别是从离散精度级别的预定义集合获得的,其中选择性的增加基于精度级别。12.根据权利要求11所述的计算机实现的方法,其中所述精度级别作为来自用户的输入被获得。13.根据权利要求11至12中任一项所述的计算机实现的方法,其中精度级别的集合包括高查准率级别、平衡精度级别和高查全率级别,其中源相关性得分中的相应源相关性得分选自由高相关性级别、中相关性级别和低相关性级别组成的组,其中对所述数据源进行分类包括:如果与给定数据源相关联并且覆盖被分配给高相关性级别的主题的样本文档的相对频率等于或超过预定义的高相关性阈值,则将给定数据源分配给高相关性级别,其中对所述数据源进行分类进一步包括:如果与给定数据源相关联并且覆盖被分配给低相关性级别的主题的样本文档的相对频率等于或超过预定义的第一低相关性阈值,和/或如果与给定数据源相关联并且覆盖被分配给高相关性级别的主题的样本文档的相对频率等于或小于预定义的第二低相关性阈值,则将给定数据源分配给低相关性级别,其中对所述数据源进行分类进一步包括:如果给定数据源不能被分配给高相关性级别和低相关性级别中的任何一个,则将所述给定数据源分配给中相关性级别,其中在精度级别是高查准率级别的情况下,经细化的搜索请求包括初始搜索请求和焦点语句的逻辑结合,所述焦点语句选择所述数据源中具有高相关性级别作为源相关性得分的一个或多个数据源,其中在精度级别是平衡...

【专利技术属性】
技术研发人员:A
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1