【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
可以将系统数据存储在搜索索引中以使得可以由一个或多个用户对其进行查询,其中,搜索数据中的一些数据可以是稀疏的,例如涉及信用卡号码、社会保险号码、以及账户号码的敏感数据。稀疏数据可以包括一个或多个区别的数据点,每个数据点都与一个实体相关,其中,所述区别的数据点可能需要在搜索索引中是可查询的。为了实现当前的技术,可以针对系统中的每个实体而在搜索索引中创建两个列(column),以容纳与实体相关的数据点的匹配计数和匹配置信度值。然而,这些实体中的许多实体可能在搜索索引中没有对应的数据点。作为结果,搜索索引可能针对很小数量的数据包括高百分比的列,因为搜索索引中的实体只有大约1-2%将会在搜索索引中具有对应的数据点,并且在索引中所创建的每个额外的列可能负面地影响系统的性能和容量。从而,用于将相关的稀疏数据存储在搜索索引中的当前的实现方式可以使用改进和/或可替代的或额外的解决方案,以使得区别的数据点可以被存储,从而使得所述区别的数据点可以由用户来查询而不影响系统的性能和容量。
技术实现思路
提供该
技术实现思路
以用简化的形式引入了对在下文的具体实施方式中所进一步描述的概念的选 ...
【技术保护点】
一种用于将相关的稀疏数据存储在搜索索引中的方法,所述方法包括:检测待索引的内容中的稀疏数据,所述稀疏数据包括与实体相关的数据点;创建针对所述数据点的整数数组以便存储在所述搜索索引中,所述整数数组包括所述实体的标识符以及与所述数据点相关联的值;响应于从用户处接收到包括所述数据点的对所述搜索索引执行查询的请求,基于所述实体的所述标识符将所述查询变换到对应的值域,以及在执行了所述查询之后,将查询结果提供给所述用户。
【技术特征摘要】
【国外来华专利技术】2014.06.19 US 62/014,658;2014.10.24 US 14/523,2411.一种用于将相关的稀疏数据存储在搜索索引中的方法,所述方法包括:检测待索引的内容中的稀疏数据,所述稀疏数据包括与实体相关的数据点;创建针对所述数据点的整数数组以便存储在所述搜索索引中,所述整数数组包括所述实体的标识符以及与所述数据点相关联的值;响应于从用户处接收到包括所述数据点的对所述搜索索引执行查询的请求,基于所述实体的所述标识符将所述查询变换到对应的值域,以及在执行了所述查询之后,将查询结果提供给所述用户。2.根据权利要求1所述的方法,还包括:在向所述用户提供所述查询结果之前移除所述实体的所述标识符。3.根据权利要求1所述的方法,其中,向所述用户提供所述查询结果还包括:将所述查询结果作为具有针对所述实体的用户兼容的标识符的另一个数组而提供。4.根据权利要求3所述的方法,其中,所述另一个数组具有与所述整数数组相同的索引。5.根据权利要求1所述的方法,其中,所述标识符对应于所述整数数组的最高的n个比特。6.根据权利要求1所述的方法,其中,所述值对应于所述整数数组的最低的m个比特。7.根据权利要求1所述的方法,其中,检测待索引的内容中的所述稀疏数据还包括:确定所述内容是否与一个或多个分类规则相匹配。8.根据权利要求7所述的方法,还包括:响应于确定存在至少一个匹配,创建针对所述数据点的所述整数数组,以使得与所述数据点相关联的值是下列一项或多项:基于所确定的匹配数量和所述匹配的置信度的计数值和置信度值。9.根据权利要求1所述的方法,还包括:将所述整数数组存储在所述搜索索引的单个列内。10.一种被配置为将相关的稀疏数据存储在搜索索引中的系统,所述系统包括:通信模块,其被配置为在所述系统的一个或多个服务器和与所述系统相关联的一个或多个客户端设备之间传输数据;执行分类引擎...
【专利技术属性】
技术研发人员:R·威尔赫姆,O·托尔比约恩森,S·斯里尼瓦桑,C·小海诺,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。