【技术实现步骤摘要】
【国外来华专利技术】构建用于基于知识的匹配的特征和索引
本描述一般涉及生成包含在知识库中的文档或文章的增强的索引。背景软件应用程序的消费者通常会产生与软件相关联的问题。这些问题在从配置错误到系统崩溃的范围内。当消费者遇到这些类型的问题时,他们通常首先尝试通过咨询搜索引擎来查找该问题的解决方案。搜索引擎旨在从通过爬行经过web文档、讨论板、电子邮件线程、软件操作手册及其他公开可用的文档而创建的索引中查找相关的文档。如果搜索引擎不提供适当的结果,则消费者通常将呼叫客户支持服务。当处理客户支持时,客户支持代表或工程师试图例如通过搜索数据库或使用分类方案来将报告的问题与包含在知识库数据库中的信息匹配。此方法允许客户支持人员向用户提供专家编写的事实和规则来解决客户的问题。然而,公司提供使用人类的客户支持服务是极为昂贵的。其次,当大量的客户立即或在短时间窗口内向呼叫中心呼叫时,此方法会产生有显著的等待时间的风险。这通常例如在新功能被发布或有缺陷的软件修补程序导致在客户机器上引起新的问题时发生。第三,这种故障排除方法取决于数据库中的专家定义的规则,这些专家定义的规则随着软件发展会有不完整的风险或者会变得过时。最后,这种方法只解决由客户向客户支持报告或呈现的问题,但不会标识其他潜在地相关的问题,诸如应用特定的安全修补程序的需要。诸如Google和Bing之类的搜索引擎已经被优化以输出针对给定查询的高度相关的结果。然而,它们的技术专注于对查询项或其扩展(诸如拼写校正或改变项顺序)的基于文本的匹配,以允许相关文档的匹配。此方法使得难以基于包含在知识库中的文章(例如,技术解决方案)中的信息来正 ...
【技术保护点】
一种用于索引文档的系统,包括:被配置成预处理文档以创建经预处理的文档的预处理组件;被配置成处理所述经预处理的文档以生成令牌流的分析器,所述令牌流包括所述文档的多个令牌,其中所述令牌流包括至少一个经修改的令牌;被配置成将所述令牌流添加到所述文档中并生成所述文档的索引的索引器;以及被配置成存储所述文档的所述索引的知识库数据库。
【技术特征摘要】
【国外来华专利技术】2013.12.14 US 14/106,7621.一种用于索引文档的系统,包括:被配置成拍摄软件产品或计算机系统的配置文件的快照并且生成示例基于知识的文档的配置快照模块,其中所述快照被存储在知识库数据库中;被配置成预处理文档以创建正被转换为纯文本格式的经预处理的文档的预处理组件,其中任何HTML标签或其它嵌入内容被移除;被配置成处理所述经预处理的文档以生成令牌流的分析器,所述令牌流包括所述文档的多个令牌,其中令牌是从所述文档中的单词或单词组创建的,所述令牌被用于对所述文档进行索引或搜索,其中所述纯文本被转换成更小的原子单元,其中所述令牌流中的令牌被传递通过至少一个滤波器以构建增强的令牌流,其中所述分析器进一步包括值类型过滤器,所述值类型过滤器被配置成:从所述令牌中标识与所述令牌相关联的值类型,所述值类型包括数字、真/假以及版本号;以及将数字或布尔的令牌插入到所述令牌流中与标识出的与所述令牌相关联的值类型相对应的位置处;被配置成将所述增强的令牌流添加到所述文档中的索引器,所述增强的令牌流作为所述文档的索引与所述文档相关联,所述索引提供所述知识库数据库中的每一个文档到所述文档的相关联的特征的列表的映射;以及被配置成存储所述文档的所述索引的知识库数据库,其中所述快照以与所述文档相同的方式被处理和索引。2.如权利要求1所述的系统,其特征在于,所述分析器进一步包括:被配置成从所述经预处理的文档中生成至少一个令牌的令牌化器。3.如权利要求1所述的系统,其特征在于,所述分析器进一步包括:骆驼拼写法滤波器,其被配置成:标识所述令牌流中的骆驼拼写的令牌;将所述骆驼拼写的令牌拆分成其组成单词;以及将所述组成单词作为令牌插入到所述令牌流中与标识出的骆驼拼写的单词相对应的位置处。4.如权利要求1所述的系统,其特征在于,所述分析器进一步包括:命名实体过滤器,其被配置成:从所述令牌流中标识出彼此相关的两个或更多个令牌;以及修改所述令牌流,使得所述两个或更多个令牌变成单个令牌。5.如权利要求1所述的系统,其特征在于,所述分析器进一步包括:同义词过滤器,其被配置成:标识所述令牌流中与域专用级别上的单词组相关的单词;以及将所述单词组在所述令牌流的一位置处插入到所述令牌流中作为标识出的单词。6.如权利要求5所述的系统,其中,所述分析器进一步包括:第二同义词过滤器,其被配置成:标识所述令牌流中的具有至少一个同义词的单词;以及将所述至少一个同义词在所述令牌流的一位置处插入到所述令牌流中作为标识出的单词。7.一种索引文档的方法,包括:接收文档并预处理所述文档以创建正被转换成纯文本格式的经预处理的文档,其中任何HTML标签或其它嵌入内容被移除;令牌化所述文档以生成包括所述文档的多个令牌的令牌流,其中令牌是从所述文档中的单词或单词组创建的,所述令牌被用于对所述文档进行索引或搜索,其中所述纯文本被转换成更小的...
【专利技术属性】
技术研发人员:N·贾殷,L·胡,L·张,R·波塔居,V·弗洛什,M·王,J·K·W·陈,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。