生成标识在web文档中表达的主题之间的关系的图形数据结构制造技术

技术编号:37136717 阅读:30 留言:0更新日期:2023-04-06 21:37
一种技术基于分散在web文档上的至少部分非结构化信息来产生图形数据结构。该技术涉及将机器训练模型应用于文档(或更一般地,“文档单元”)集合以标识文档中的主题。然后,该技术通过对文档中单个主题的出现和主题配对的共同出现进行计数来生成计数信息。该技术基于计数信息来生成条件概率信息。条件概率信息的实例描述了在给定第二主题的出现的情况下第一主题将出现的概率,以及在给定第一主题的出现的情况下第二主题将出现的概率。然后,该技术在图形数据结构中制定条件概率信息。该技术还提供了一种应用系统,其利用图形数据结构向用户提供任何种类的计算机实现的服务。户提供任何种类的计算机实现的服务。户提供任何种类的计算机实现的服务。

【技术实现步骤摘要】
【国外来华专利技术】生成标识在web文档中表达的主题之间的关系的图形数据结构

技术介绍

[0001]已经认识到,万维网(World Wide Web)包含可以在各种计算机应用中收获和应用的大量知识。然而,这种知识以潜在的和非结构化的形式存在,经常散布在彼此没有正式关系并且不共享公共域、布局或信息质量的网页上。以可靠和高效的方式从这些非结构化和变化的源中提取知识是困难的。

技术实现思路

[0002]一种技术基于分散在web文档上的至少部分非结构化信息来产生图形数据结构。该技术涉及将机器训练模型应用于文档(或者更一般地,“文档单元”)集合以标识文档中的主题。该技术通过对文档中的单个主题的出现和主题对的共同出现进行计数来生成计数信息。然后,该技术基于计数信息来生成条件概率信息。条件概率信息的实例描述了在给定第二主题在文档中的假定出现的情况下第一主题将出现在文档中的概率,以及在给定第一主题的假定出现的情况下第二主题将出现的概率。然后,该技术在图形数据结构中制定条件概率信息。该图形数据结构包括多个节点和多个边。多个节点表示候选主题集合中的主题,并且连接两个节点的每个边体现了分别与两个本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于处理web文档的计算机实现的方法,包括:将机器训练模型应用于文档单元集合以产生主题信息,每个文档单元包括经由广域网可访问的至少一个web文档的至少一部分,所述文档单元对应于不同的域,所述应用包含处理被包括在每个文档单元中的令牌以标识由每个文档单元表达的一个或多个主题,而不考虑所述一个或多个主题如何彼此相关;通过以下步骤基于所述主题信息生成计数信息:针对候选主题集合,对所述候选主题集合中的每个主题在所述文档单元集合内出现的次数进行计数;以及针对所述候选主题集合中的多个主题配对,对每个主题配对在所述文档单元集合内出现的次数进行计数;将所述计数信息存储在数据表中;基于所述计数信息生成条件概率信息,条件概率信息的实例描述了在给定第二主题在给定文档单元中的假定出现的情况下第一主题将在所述给定文档单元内出现的概率,以及在给定所述第一主题的假定出现的情况下所述第二主题将在所述给定文档单元内出现的概率;在图形数据结构中制定所述条件概率信息,所述图形数据结构包括多个节点和多个边,所述多个节点表示所述候选主题集合中的所述主题,并且连接两个节点的每个边体现分别与所述两个节点相关联的两个主题之间的层次关系;以及提供应用系统,所述应用系统被配置为使用所述图形数据结构向用户提供计算机实现的服务。2.根据权利要求1所述的计算机实现的方法,其中所述生成所述条件概率信息通过以下步骤生成条件概率信息的所述实例:将所述第一主题和所述第二主题在所述文档单元内共同出现的次数除以所述第二主题在所述文档单元内出现的次数,以产生第一条件概率分数;以及将所述第一主题和所述第二主题在所述文档单元内共同出现的次数除以所述第一主题在所述文档单元内出现的次数,以产生第二条件概率分数。3.根据权利要求2所述的计算机实现的方法,其中所述制定包括将所述第一条件概率分数和所述第二条件概率分数中的每个与规定阈值相比较以产生比较结果,以及基于所述比较结果确定存在关系。4.根据权利要求3所述的计算机实现的方法,其中,当所述比较结果指示所述第一条件概率分数或所述第二概率分数高于所述规定阈值,但所述第一概率分数和所述第二概率分数都没有高于所述规定阈值时,所述关系指示所述第二主题相对于所述第一主题具有子关系,或所述第一主题相对于所述第二主题具有子关系。5.用于处理由用户提交的输入消息的一个或多个计算设备,包括:硬件逻辑电路,所述硬件逻辑电路包括:(a)通过执行存储在存储器中的机器可读指令来执行操作的一个或多个硬件处理器,和/或(b)使用逻辑门的任务专用集合来执行所述操作的一个或多个其他硬件逻辑单元,所述操作包括:经由计算机网络接收由所述用户提交的输入消息;使用由所述硬件逻辑电路提供的应用系统生成对所述输入消息的响应,所述应用系统通过利用由过程产生的条件概率信息生成所述响应,所述过程包含:
将机器训练模型应用于文档单元集合以产生主题信息,每个文档单元包括经由广域网可访问的至少一个web文档的至少一部分,所述文档单元对应于不同的域,所述应用包含处理被包括在每个文档单元中的令牌以标识由每个文档单元表达的一个或多个主题,而不考虑所述一个或多个主题如何彼此相关;通过以下步骤基于所述主题信息生成计数信息:针对候选主题集合,对所述候选主题集合中的每个主题在所述文档单元集合内出现的次数进行计数;以及针对所述候选主题集合中的多个主题配对,对每个主题配对在所述文档单元集合内出现的次数进行计数;将所述计数信息存储在数据表中;基于所述计数信息生成所述条件概率信息,条件概率信息的实例描述了在给定第二主题在给定文档单元中的假定出现的情况下第一主题将在所述给定文档单元内出现的概率,以及在给定所述第一主题的假定出现的情况下所述第二主题将在所述给定文档单元内出现的概率;以及在图形数据结...

【专利技术属性】
技术研发人员:李子柳J
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1