当前位置: 首页 > 专利查询>微软公司专利>正文

语义内容搜索制造技术

技术编号:8539186 阅读:204 留言:0更新日期:2013-04-05 04:32
公开了提供文档检索的一个或多个技术和/或系统,其中用户可以标识所需潜在目标文档的关键属性(例如,具有对用户而言的特定语义内容)。此外,可检索包括该所需语义内容的相关文档。另外,用户可以提供对检索到的文档的反馈,例如基于文档中找到的关键语义概念,并且输入可被用来更新分类。例如,这一过程可重复进行以提高通过机器学习技术来找到的文档的检索和准确度。

【技术实现步骤摘要】
【国外来华专利技术】语义内容搜索
技术介绍
企业环境中的文档检索是非常重要的问题,尤其是在希望及时地找到关键信息的情况下。例如,在医疗环境中,找到医生当前正在从事的一个案例的相关备选案例(如找出模式和/或特定治疗方案)可能是有用的。作为示例,医生可能对找出既是吸烟者又对阿司匹林过敏的先前病人感兴趣。通常,文档搜索涉及关键词搜索,其中可在文档中找到的相关词语被输入到搜索引擎,并且检索包括该关键词的那些文档。文档检索可以在企业数据库(如医院)、分布式数据库以及在线资源(如因特网)上执行。
技术实现思路
提供本“
技术实现思路
”是为了以简化的形式介绍将在以下“具体实施方式”中进一步描述的一些概念。实施方式。本“
技术实现思路
”并非旨在标识所要求保护的主题的的关键因素或者必要特征,也并非旨在用于限定所要求保护的主题的范围。当前,诸如通过关键词这样的自由文本搜索经常会导致太少或太多的结果。作为示例,当使用基于因特网的搜索引擎来执行关键词搜索时可能会返回数百万结果。审阅关键词搜索的返回结果可能是耗时的并经常令人沮丧,因为返回的文档中经常缺少相关信息。例如,用户可能正找寻带有特定涵义的单词或短语的文档,但是搜索引擎可能返回了包含相同但具有不同意义的关键词的不相关文档。作为另一示例,英文单词和短语通常使用具有完全不同意义的相同单词(如“bass”的意思可以是鱼、乐器,或者鞋)。然而,用户希望从大型数据库中快速检索关键信息。因此,本文公开了提供文档检索的一个或多个技术和/或系统,其中用户可标识所需潜在目标文档的关键属性(比如具有对用户而言的特定语义内容)。此外,可检索包含所需语义内容的相关文档。另外,用户可提供对检索到的文档的反馈,例如基于在该文档中发现的关键语义概念,并且可使用输入来更新分类。例如,该过程可重复进行以提高通过机器学习技术所发现文档的检索和准确度。在一个通过语义内容进行文档搜索的实施方式中,接收最终用户对来自包括潜在目标文档的数据库的初始文档的所需第一部分的选择,其中初始文档包含描述该初始文档的各组成的属性的元数据标签,并且所选择的第一部分包含具有用户所需语义内容的初始文档组成。该初始文档连同所选择的第一部分穿过(run through) —个或多个已训练的分类器,以从数据库中标识具有包含与第一部分(如,由用户选择)相同语义内容的第二部分的第一潜在目标文档。在该实施方式中,若第二部分不具有与第一部分相同的语义内容,则接收最终用户对第一潜在目标文档的第三部分选择,其中该第三部分包含与第一部分相同的语义内容。此外,第一潜在目标文档连同所选择的第三部分穿过一个或多个已训练的分类器,以从数据库中标识第二潜在目标文档,其中第二潜在目标文档带有具有与第三部分相同的语义内容的第四部分。为实现上述及相关的目的,以下描述和附图阐述了某些的说明性方面和实现。这些仅指示可采用一个或多个方面的各种方式中的少数几种。结合附图阅读以下“具体实施方式”则本专利技术的其他方面、优点以及新颖特征将变得显而易见。附图说明图1是提供用于通过语义内容进行文档搜索的示例性方法的流程图。图2是示出通过语义内容进行文档搜索的方法的实现的示例性实施方式的流程图。图3是可用于在视觉上标识分类器准确率的示例图表的图示。图4是用于通过语义内容进行搜索的示例性系统的组件图。 图5是示出其中可实现本文所述的一个或多个系统和/或技术的示例性实施方式的组件图。图6是包含被配置成具体化本文所阐明的原理中的一个或多个的处理器可执行指令的示例性计算机可读介质的图示。图7示出了其中可实现本文所阐明的原理中的一个或多个的示例性计算环境。具体实施例方式现在参考附图来描述所要求保护的主题,所有附图中使用相同的附图标记来指代相同的元素。在以下说明中,为解释起见,阐明了众多具体细节以提供对所要求保护的主题的全面理解。然而,显而易见的是,所要求保护的主题可以在没有这些具体细节的情况下实施。在其它情况下,以框图形式示出了各种结构和设备以便于描述所要求保护的主题。图1是提供通过语义内容进行文档搜索的示例性方法100的流程图。示例性方法100始于102并在104涉及接收最终用户对来自包含潜在目标文档的数据库中的初始文档的所需第一部分的选择。在此,初始文档包含描述初始文档的各组成(如单词)的属性的元标签,而且所选第一部分包含初始文档的具有所需语义内容的组成。例如,可解析文档以确定该文档的语法结构。即,文档可包含诸如单词这样的词例(token)序列,而且该一个或多个序列可被词例化成各单独的组成,并且这些组成被根据其语法结构(如诸如名词和动词这样的单词类型)加了标签。此外,某些类型的解析可允许确定各相应组成(如医学术语、工程术语等等)的特定上下文。在一个实施方式中,数据库中的文档可能先前已经根据用户所需用途进行了解析,而且各相应组成(如单词、文本块等等)被用例如可描述其类型甚至是上下文的元数据标签来加了标签。此外,在一个实施方式中,用户可选择文档的包含所需语义内容的部分。S卩,例如用户可选择放射学报告的标识三周内的推荐追踪的部分。在该示例中,在三周内让病人返回进行追踪访问的推荐包含语义内容,因为其在周围词语和放射学报告的上下文中有特定的意义。例如,追踪推荐能以几种不同的方法来撰写,但词语所蕴含的意义却是十分特定的。作为另一示例,医生报告的诊断部分可包括诸如“本诊断是……”,“我认为病人有……”,“检查结果指出……”或者多种其他变型等这样的词语。然而,同样的是,诊断的意义是十分特定的。在一个实施方式中,诸如医生或者希望标识数据库中的具有特定语义内容的多个文档的某其他最终用户之类的最终用户可选择初始文档。例如,最终用户可被赋予这样的任务标识企业数据库中的其中标识了涉及不良反应时间的抱怨的客户报告文档。在该示例中,不良反应时间包括可用多种不同方法撰写的语义含义。在过去,可呼叫IT职业人员来设置搜索,训练分类器,运行测试,复位并调整系统以标识所需文档。在该实施方式中,诸如行政管理助理、客户服务代表或者其他的最终用户例如可选择所需语义内容来标识所需文档。在106处,将具有所选第一部分的初始文档穿过一个或多个已训练的分类器,以从数据库中标识第一潜在目标文档。在该实施方式中,第一潜在目标文档具有第二部分,该第二部分具有与最终用户选择的第一部分相同语义内容。例如,一个或多个分类器可被训练成使用多种技术来标识文档中的单词,这样的技术诸如隐马尔可夫模型(HMM)、支持向量机(SVM)、条件随机域(CRF)、统计语言模型,等等。在此,例如,一个或多个分类器可尝试从数据库中标识具有最终用户在初始文档中标识的相同语义内容的目标文档。此外,在该示例中,该一个或多个分类器可尝试突出显示目标文档的包含与最终用户突出显示的部分(第一部分)相同的语义内容的部分(第二部分)。这样,该一个或多个分类器被用来找寻具有最终用户所需内容的文档,该文档例如可能使用或不使用相同的单词但是具有相同的意义。在示例性方法100的108处,若第二部分不具有与第一部分相同的语义内容,则在110处接收最终用户对第一潜在目标文档的第三部分的选择,其中该第三部分包含与第一部分相同的语义内容。例如,由一个或多个分类器突出显示的目标文档部分可能不具有与最终用户从初始文档中所选择部分相同的所需语义本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.06.18 US 12/818,2861.一种用于通过语义内容进行文档搜索的基于计算机的方法,包括 接收对来自包括潜在目标文档的数据库的初始文档的所需第一部分的最终用户选择,所述初始文档包括描述所述初始文档的各组成部分的属性的元数据标签,所选第一部分包括所述初始文档的具有所需语义内容的各组成部分; 使用计算机的处理器使包括所选第一部分的所述初始文档穿过一个或多个已训练的分类器以从所述数据库中标识包括具有与所述第一部分相同的语义内容的第二部分的第一潜在目标文档;以及 如果所述第二部分不具有与所述第一部分相同的语义内容,则 接收对所述第一潜在目标文档的包括与所述第一部分相同的语义内容的第三部分的最终用户选择;以及 使包括所选第三部分的所述第一潜在目标文档穿过所述一个或多个已训练的分类器以从所述数据库中标识包括具有与所述第三部分相同的语义内容的第四部分的第二潜在目标文档。2.如权利要求1所述的方法,其特征在于,还包括通过对一组文档执行关键词搜索来使用潜在目标文档填充所述数据库。3.如权利要求1所述的方法,其特征在于,如果所述第二部分具有与所述第一部分相同的语义内容,则所述方法包括 接收所述第二部分是正确的选择的最终用户指示;以及 对所述数据库运行所述一个或多个分类器以选择第三潜在目标文档。4.如权利要求1所述的方法,其特征在于,如果所述第二部分不具有与所述第一部分相同的语义内容并且所述第一潜在目标文档不包括具有与所述第一部分相同的语义内容的内容,则所述方法包括 接收所述第一潜在目标文档不包括具有与所述第一部分相同的语义内容的内容的最终用户指示;以及 对所述数据库运行所述一个或多个分类器以选择第三潜在目标文档。5.如权利要求1所述的方法,其特征在于,包括利用对所述一个或多个分类器所返回的潜在目标文档的用户输入来更新所述一个或多个分类器。6.如权利要求1所述的方法,其特征在于,包括使多个文档穿过所述一个或多个分类器,直至达到所需阈值为止。7.如权利要求6所述的方法,其特征在于,包括接收对相应文档的最终用户输入,所述输入包括以下各项中的一个或多个 所述一个或多个分类器从所述数据库检索到的文档包括所需语义内容的指示; 所述一个或多个分类器从所述数据库检索到的文档不包括所需语义内容的指示;以及所述一个或多个分类器从所述数据库检索到的文档的所选部分,其中该所选部分包括所需...

【专利技术属性】
技术研发人员:E·IC·张M·T·吉勒姆许燕C·菲尔德J·汉德勒
申请(专利权)人:微软公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1