用于获取、分析和挖掘数据和信息的系统和方法技术方案

技术编号:5344456 阅读:201 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供获取、分析和挖掘感兴趣的数据和/或信息的方法,该方法使用至少一个主要搜索项目搜索至少一个数据库来获得包含感兴趣的信息的数据和/或信息以便获得原始数据集;对该原始数据集应用数据挖掘工具以获得挖掘的数据;和对挖掘的数据应用用户界面以获得感兴趣信息的可视化。

【技术实现步骤摘要】
【国外来华专利技术】
获取、分析和挖掘感兴趣的数据和/或信息的方法。
技术介绍
获取、处理和挖掘数据很大程度上仍然是人工过程,其利用广泛 的人工输入。许多方面已经自动化,但是整个过程还没有集成到一起 以便允许搜索者利用一个集成系统来获取、分析和挖掘数据和信息并且得到结论。具有搜索引擎的数据库可以获得,诸如Google、 Dialog 和PubMed。每个数据库具有不同的搜索规则、不同的"通配符"使用 和不同的资源,诸如百科全书。所有数据库产生原始数据集,该数据 集必须通过直接人工交互或诸如OmniViz的工具进行分析。美国取得 了 6070133、 6484168、 6665661、 6718336、 6772170、 6898530和6940509 的专利。但是,这些工具是复杂的,并且要求对数学和计算机编程的 一定程度的了解,而这种了解典型搜索者是不具有的。另外,每个工 具以不同方式分析数据甚至要求数学和计算机技能的更多知识。另外, 每个工具通过专有界面使用公共概念,诸如百科全书或搜索标准。假 定能够比较和对比来自不同工具的搜索结果,可以发现这些搜索使用 相同的搜索项目、相同的百科全书等。专有界面使得不同工具不能同 时利用公共界面、数据和同义词。即使通过人工措施联合使用这些工 具,得到的数据分类可能需要更多问题而不是意味着答案。对挖掘的 数据的分析的产生,与数据相关的报告和观点的生成,仍然需要密集 的人类劳力。从诸如数据库的源取得数据、对数据分类以确定什么是 感兴趣的、以及分析所挖掘的数据结果的过程的复杂性导致损失时间。 另外人工步骤需要保证工具之间搜索的一致性,这导致获得的结果的 完全性没有保证,以及经济冒险的低效。
技术实现思路
本专利技术包括获取、分析和挖掘感兴趣的数据和/或信息的方法,该 方法使用至少一个主要搜索项目搜索至少一个数据库来获得包含感兴13趣的信息的数据和/或信息以便获得原始数据集;对该原始数据集应用 数据挖掘工具以获得挖掘的数据;和对挖掘的数据应用用户界面以获 得感兴趣信息的可视化。本专利技术还包括在机器中或编程来执行该方法的计算机与机器的组 合中使用该方法,或对该机器或该组合使用该方法;具有执行该方法 的指令的物品;通过运行该方法并且由此提供结果来进行商务的方法; 运行该方法的系统;由此生成的报告。附图说明图1示出了数据挖掘阶段。图2示出了从数据库到用户界面的信息流。图3示出了典型的数据采集(harvesting)结果。图4示出了数据挖掘的结果。图5是通配符高级搜索的屏幕快照。图6是通配符基本搜索的屏幕快照。图7是通配符基本分类/挖掘的屏幕快照。图8是挖掘分析工具的通配符选项的屏幕快照。图9是具有主题加亮的通配符挖掘步骤1的屏幕快照。图IO是通配符挖掘步骤1的屏幕快照。图11是没有主题性的通配符挖掘步骤2的屏幕快照。图12是有主题性的通配符挖掘步骤2的屏幕快照。图13是描述所选数据集内的文本的通配符挖掘步骤3的屏幕快照 照图14是描述数据集接下来的搜索项的通配符挖掘步骤3的屏幕快具体实施例方式本专利技术包括获取、分析和挖掘感兴趣的数据和/或信息的方法,该 方法使用至少一个主要搜索项目搜索至少一个数据库来获得包含感兴 趣的信息的数据和/或信息以便获得原始数据集;对该原始数据集应用 数据挖掘工具以获得挖掘的数据;和对挖掘的数据应用用户界面以获 得感兴趣信息的可视化。本专利技术还包括在机器中或编程来执行该方法的计算机与机器的组合中4吏用该方法,或对该才几器或该组合使用该方法;具有执行该方法 的指令的物品;通过运行该方法并且由此提供结果来进行商务的方法; 运行该方法的系统;由此生成的报告(图13-14)。该方法可选地包含对所挖掘的数据应用至少一个数据同步挖掘工 具的附加步骤。优选的,该数据同步挖掘工具基于主题性对所挖掘的 数据聚类(图9-12);利用当前技术已知的任何模型,包括但是不限 于K-means、笛卡尔分析、改进的分子模型、弹簧模型,并且产生主 要搜索项目的潜在衍生物(latent derivative)。潜在衍生物是例如, 当主要搜索项目是阿司匹林和疼痛的时候产生关于头疼的数据的结 果。数据同步挖掘工具可以是当前技术已知的任何概率性潜在语义分 析,诸如Penn Aspect (Hofmann, T.概率性潜在语义分析,人工智能 不确定性第十五界会i义论文集(Hofmaim, T. Probabilistic Latent Semantic Analysis. Proceedings of the Fifteenth Conference on Uncertainty in Artificial IntelIigence)(UAr99) http:〃www.cs.brown. edu/ th/papers/Hofmann画UAI99.pdf, US20020107853; US20060242U8。感兴趣的信息可以在当前技术中已知的任何数据源中找到,包括 但是不限于知识产权、文学、微阵列管线、专利数据、来自专有实验 的输出、来自仪表设备(instrumentation)的数据、市场数据、普查数 据等。数据库可以是公众可获得的数据库或内部数据库。数据库的例 子包括但是不限于,美国专利和商标局数据库、世界知识产权组织数 据库、MicropatentTM、欧洲专利局数据库、Dialog 、 Medline 、 PubMedTM、 GoogleTM、内部系统、EDGAR、 FDA橙皮书(Orange book )、 Crisp、 Lexis/NexisTM、和WestlawTM。数据挖掘工具可以是当前技术已知的,包括但是不限于,自然语 言处理器和SQL采集、简单搜索或共生矩阵。自然语言处理器可以是 例如OmniViz或MIT工具集。用户界面可以是当前技术中任何已知的, 包括但是不限于,包含子程序的计算机代码。图l-6示出了该过程,图 7和8示出了可视化。该方法子程序提供单个计算机屏幕上的至少一个合并多数据挖掘 工具,让用户选择对每个搜索使用哪个(哪些)工具;将多个数据源 合并到单个计算机屏幕中,让用户选择对每个搜索使用哪个(哪些)数据源;将所有百科全书合并到相同屏幕,让用户选择对每个搜索使用哪个百科全书;维护执行的每个搜索和挖掘事务的电子历史,允许 用户回顾他们自己的历史搜索;允许回顾其他用户的搜索;和维护动 作的日志,该日志自身可以被挖掘以便确定动作的共同领域(common area)。可以为每个项目-类别维护公共百科全书;执行所有必需的电 子翻译,以将每个百科全书转换为适合于每个工具的形式,例如通过 为每个项目类别维护公共百科全书而允许按照可以与任何工具一起使 用的类别评估同义词的能力。所述类别可以是当前技术中任何已知的 类别,包括但是不限于,公司名字、疾病状态和人类基因。所述翻译 功能允许跨越所有工具使用一个公共百科全书(每个类别),并且除 了选择工具和百科全书组合外不需要用户的其他输入。本专利技术提供通过人机界面获取、挖掘和分析数据的方法和系统, 该界面在提供了当前系统中没有的优势的有效、成本节约的方法中综 合利用了人类专门知识。计算机无论如何复杂现在也不可能读取你的 思想并且告诉你你在想什么。相反,很本文档来自技高网
...

【技术保护点】
一种获取、分析和挖掘感兴趣的数据和/或信息的方法,包括以下步骤: a.使用至少一个主要搜索项目搜索至少一个数据库,以便获得包含感兴趣的信息的数据和/或信息以得到原始数据集; b.对该原始数据集应用数据挖掘工具以获得挖掘的数据;和  c.对挖掘的数据应用用户界面,以便获得感兴趣的信息的可视化。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:CD哈特维希R马西洛S基佩尔曼
申请(专利权)人:维里德克斯有限责任公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1