构建用于基于知识的匹配的特征和索引制造技术

技术编号:13422542 阅读:36 留言:0更新日期:2016-07-28 15:12
此处公开了用于生成包含在知识库中的文档的增强的索引的系统和方法。将文档或配置快照令牌化,然后将它们传递通过多个过滤器。过滤器通过从令牌流中移除单词,并将域级别知识添加到令牌流中的各令牌中来修改该流以生成文档的增强的令牌流。然后,将令牌流添加到文档的索引中,以便当从配置快照或从输入的搜索查询生成搜索时,可以完成相对于知识库的搜索。

【技术实现步骤摘要】
【国外来华专利技术】构建用于基于知识的匹配的特征和索引
本描述一般涉及生成包含在知识库中的文档或文章的增强的索引。背景软件应用程序的消费者通常会产生与软件相关联的问题。这些问题在从配置错误到系统崩溃的范围内。当消费者遇到这些类型的问题时,他们通常首先尝试通过咨询搜索引擎来查找该问题的解决方案。搜索引擎旨在从通过爬行经过web文档、讨论板、电子邮件线程、软件操作手册及其他公开可用的文档而创建的索引中查找相关的文档。如果搜索引擎不提供适当的结果,则消费者通常将呼叫客户支持服务。当处理客户支持时,客户支持代表或工程师试图例如通过搜索数据库或使用分类方案来将报告的问题与包含在知识库数据库中的信息匹配。此方法允许客户支持人员向用户提供专家编写的事实和规则来解决客户的问题。然而,公司提供使用人类的客户支持服务是极为昂贵的。其次,当大量的客户立即或在短时间窗口内向呼叫中心呼叫时,此方法会产生有显著的等待时间的风险。这通常例如在新功能被发布或有缺陷的软件修补程序导致在客户机器上引起新的问题时发生。第三,这种故障排除方法取决于数据库中的专家定义的规则,这些专家定义的规则随着软件发展会有不完整的风险或者会变得过时。最后,这种方法只解决由客户向客户支持报告或呈现的问题,但不会标识其他潜在地相关的问题,诸如应用特定的安全修补程序的需要。诸如Google和Bing之类的搜索引擎已经被优化以输出针对给定查询的高度相关的结果。然而,它们的技术专注于对查询项或其扩展(诸如拼写校正或改变项顺序)的基于文本的匹配,以允许相关文档的匹配。此方法使得难以基于包含在知识库中的文章(例如,技术解决方案)中的信息来正确地标识并分析配置错误。这是因为,这些文章是以自然语言文本编写的,它们是高度领域特定的,而且它们常常使用技术单词的缩写和同义词,并且还可在特定的文档中的配置参数和值上描述指示该文档在哪里相关以及它在哪里不相关的配置的条件约束。如此,由消费者报告/呈现的问题或错误可能不能在知识库文章中被容易地搜索出。概述下面呈现了本专利技术的简要概述,以便向读者提供基本理解。本概述不是本专利技术的详尽概述,并且不标识本专利技术的关键/重要元素,也不描述本专利技术的范围。其唯一的目的是以简化形式呈现此处所公开的一些概念,作为稍后呈现的更详细的描述的序言。本示例提供了用于生成包含在知识库中的文档的增强的索引的系统和方法。该系统获得文档,并通过使该文档传递通过分析器中的一个或多个过滤器来生成该文档的增强的索引。分析器添加项、修改向或将项从文档的令牌流中移除。分析器可以向令牌流添加技术术语的同义词或认识到看起来像单独的单词的两个或更多单词实际标识特定的软件实体。分析器可确定出现在字符串中的数字不只是数字,而是指代特定的版本。然后,将令牌流添加到文档的索引中,使得当从配置快照或从输入的搜索查询中生成搜索时,可以相对知识库完成搜索。通过结合附图参考以下详细描述,可更易于领会并更好地理解许多附带特征。附图简述根据附图阅读以下详细描述,将更好地理解本专利技术,在附图中:图1是示出了根据一个说明性实施例的增强的索引系统的组件的框图。图2A是示出了根据一个说明性实施例的使用多个过滤器来生成增强的索引的分析器的框图。图2B是示出了根据一个说明性实施例的图2A的过滤器根据这些过滤器的基本功能的组织的框图。图3是示出了根据一个说明性实施例的生成增强的索引的过程的流程图。图4是示出了根据一个实施例的可实现增强的索引系统的计算设备的框图。在各个附图中使用相同的附图标记来指代相同的部件。详细描述下面结合附图提供的详细描述旨在作为本专利技术示例的描述,并不旨在表示可以构建或使用本专利技术示例的唯一形式。本描述阐述了本专利技术示例的功能,以及用于构建和操作本专利技术示例的步骤的序列。然而,可以通过不同的示例来实现相同或等效功能和序列。当元素被称为被“相连接”或“相耦合”时,这些元素可被直接连接或耦合在一起,或者也可存在一个或多个中间元素。相反,当元素被称为被“直接连接”或“直接耦合”时,不存在中间元素。本主题可被体现为设备、系统、方法、和/或计算机程序产品。因此,本主题的部分或全部可以用硬件和/或软件(包括固件、常驻软件、微码、状态机、门阵列等)来具体化。此外,本主题可以采用计算机可使用或计算机可读存储介质上的计算机程序产品的形式,介质中收录了供指令执行系统使用或结合指令执行系统一起使用的计算机可使用或计算机可读的程序代码。在本文档的上下文中,计算机可使用或计算机可读介质可以是可包含、储存、通信、传播、或传输程序以供指令执行系统、装置或设备使用或结合指令执行系统、装置或设备一起使用的任何介质。计算机可使用或计算机可读介质可以是,例如,但不限于,电、磁、光、电磁、红外、或半导体系统、装置、设备或传播介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的任意方法或技术来实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或可用于储存所需信息且可由指令执行系统访问的任何其他介质。注意,计算机可使用或计算机可读介质可以是其上打印有程序的纸张或其他合适的介质,因为程序可经由例如对纸张或其他合适的介质的光学扫描来被电子地捕获,随后如有必要被编译、解释,或以其他合适的方式处理,并且随后被储存在计算机存储器中。通信介质通常以诸如载波或其他传输机制之类的已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传送介质。术语“已调制数据信号”可被定义为其一个或多个特性以对信号中的信息编码的方式被设置或改变的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述的任何组合也应包含在计算机可读介质的范围内。当本主题在计算机可执行指令的一般上下文中具体化时,该实施例可包括由一个或多个系统、计算机、或其他设备执行的程序模块。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。通常,程序模块的功能可在各个实施例中按需进行组合或分布。图1是示出了根据本公开的一个说明性实施例的索引系统100的组件的框图。系统100包括多个基于知识的文章或文档101、知识库110、任选的配置快照模块120,以及知识发现模块130。在一个实施例中,知识库110是存储涉及指定的知识库的文章或文档101的数据库或其他数据储存库。例如,知识库110可包含涉及一般而言为计算系统的特定计算机软件产品(诸如SQLServer或MicrosoftWord)或其中可产生或消费基于知识的文章和文档的任何其他主题的多个文章,该知识库还可包括由客户服务人员在报告或对事件的协助期间创建的文档。在一些实施例中,知识库110可以保持多个不同的主题的或涉及许多不同的产品的基于知识的文章。保持在知识库110中的文档101按使得允许文档被搜索引擎或其他查询输送系统快速地访问的方式在索引111中本文档来自技高网...

【技术保护点】
一种用于索引文档的系统,包括:被配置成预处理文档以创建经预处理的文档的预处理组件;被配置成处理所述经预处理的文档以生成令牌流的分析器,所述令牌流包括所述文档的多个令牌,其中所述令牌流包括至少一个经修改的令牌;被配置成将所述令牌流添加到所述文档中并生成所述文档的索引的索引器;以及被配置成存储所述文档的所述索引的知识库数据库。

【技术特征摘要】
【国外来华专利技术】2013.12.14 US 14/106,7621.一种用于索引文档的系统,包括:被配置成拍摄软件产品或计算机系统的配置文件的快照并且生成示例基于知识的文档的配置快照模块,其中所述快照被存储在知识库数据库中;被配置成预处理文档以创建正被转换为纯文本格式的经预处理的文档的预处理组件,其中任何HTML标签或其它嵌入内容被移除;被配置成处理所述经预处理的文档以生成令牌流的分析器,所述令牌流包括所述文档的多个令牌,其中令牌是从所述文档中的单词或单词组创建的,所述令牌被用于对所述文档进行索引或搜索,其中所述纯文本被转换成更小的原子单元,其中所述令牌流中的令牌被传递通过至少一个滤波器以构建增强的令牌流,其中所述分析器进一步包括值类型过滤器,所述值类型过滤器被配置成:从所述令牌中标识与所述令牌相关联的值类型,所述值类型包括数字、真/假以及版本号;以及将数字或布尔的令牌插入到所述令牌流中与标识出的与所述令牌相关联的值类型相对应的位置处;被配置成将所述增强的令牌流添加到所述文档中的索引器,所述增强的令牌流作为所述文档的索引与所述文档相关联,所述索引提供所述知识库数据库中的每一个文档到所述文档的相关联的特征的列表的映射;以及被配置成存储所述文档的所述索引的知识库数据库,其中所述快照以与所述文档相同的方式被处理和索引。2.如权利要求1所述的系统,其特征在于,所述分析器进一步包括:被配置成从所述经预处理的文档中生成至少一个令牌的令牌化器。3.如权利要求1所述的系统,其特征在于,所述分析器进一步包括:骆驼拼写法滤波器,其被配置成:标识所述令牌流中的骆驼拼写的令牌;将所述骆驼拼写的令牌拆分成其组成单词;以及将所述组成单词作为令牌插入到所述令牌流中与标识出的骆驼拼写的单词相对应的位置处。4.如权利要求1所述的系统,其特征在于,所述分析器进一步包括:命名实体过滤器,其被配置成:从所述令牌流中标识出彼此相关的两个或更多个令牌;以及修改所述令牌流,使得所述两个或更多个令牌变成单个令牌。5.如权利要求1所述的系统,其特征在于,所述分析器进一步包括:同义词过滤器,其被配置成:标识所述令牌流中与域专用级别上的单词组相关的单词;以及将所述单词组在所述令牌流的一位置处插入到所述令牌流中作为标识出的单词。6.如权利要求5所述的系统,其中,所述分析器进一步包括:第二同义词过滤器,其被配置成:标识所述令牌流中的具有至少一个同义词的单词;以及将所述至少一个同义词在所述令牌流的一位置处插入到所述令牌流中作为标识出的单词。7.一种索引文档的方法,包括:接收文档并预处理所述文档以创建正被转换成纯文本格式的经预处理的文档,其中任何HTML标签或其它嵌入内容被移除;令牌化所述文档以生成包括所述文档的多个令牌的令牌流,其中令牌是从所述文档中的单词或单词组创建的,所述令牌被用于对所述文档进行索引或搜索,其中所述纯文本被转换成更小的...

【专利技术属性】
技术研发人员:N·贾殷L·胡L·张R·波塔居V·弗洛什M·王J·K·W·陈
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1