【技术实现步骤摘要】
【国外来华专利技术】使用关系树的搜索工具本申请涉及一种在知识发现活动中使用关系树来支持用户以进行搜索的系统和计算机实现的方法。
技术介绍
一系列字段中的知识发现者有兴趣从可用的知识集合中解密新信息。搜索引擎提供强大的信息检索工具,并且对于从公共领域和其他信息源检索已建立的事实和信息是理想的。典型地,以相关性的顺序在有序列表中呈现搜索结果,其中使用搜索算法来计算相关性。被认为是最相关的结果被呈现在列表的顶部,被认为较不相关的结果被进一步向下呈现。搜索引擎生成数十页或数百页的搜索结果并不罕见。这给用户造成了信息过载的问题,并且用户具有以有意义的方式有效地筛选或过滤结果的有限方式。通过搜索算法计算的相关性的次序支配用户的治疗结果和与结果交互的方式,并且用户难以检测可能在结果页面中被淹没的模式或趋势。例如,如果显著结果出现在搜索结果的页面100上,则用户找到该显著结果是非常耗时的。用户也难以注意到页面100上的结果可能以潜在相关的方式与页面204上的结果相关。这对试图从可用事实中辨别先前未知的信息如模式、趋势和关系的知识发现者提出了挑战。例如,在药物发现领域 ...
【技术保护点】
1.一种用于确定相关的生物实体的系统,所述系统包括:/n用户输入模块,被配置为接收包括生物实体的表示的搜索项;/n搜索模块,被配置为确定集合的哪些生物实体与所述搜索项的所述生物实体具有已知关联,具有已知关联的生物实体是结果,不具有已知关联的生物实体是非结果,其中集合的生物实体通过关系树中的亲子关系彼此相关;和/n分析模块,被配置为通过识别在所述关系树中的边界内具有一个或多个结果的非结果来确定相关生物实体。/n
【技术特征摘要】
【国外来华专利技术】20180328 GB 1805067.41.一种用于确定相关的生物实体的系统,所述系统包括:
用户输入模块,被配置为接收包括生物实体的表示的搜索项;
搜索模块,被配置为确定集合的哪些生物实体与所述搜索项的所述生物实体具有已知关联,具有已知关联的生物实体是结果,不具有已知关联的生物实体是非结果,其中集合的生物实体通过关系树中的亲子关系彼此相关;和
分析模块,被配置为通过识别在所述关系树中的边界内具有一个或多个结果的非结果来确定相关生物实体。
2.根据权利要求1所述的系统,其中,所述一个或多个结果至少包括阈值数量的结果。
3.根据权利要求1或2所述的系统,其中,所述分析模块被配置为使用第一阈值定义用户输入来设置所述阈值数量的结果。
4.根据权利要求1、2或3所述的系统,其中,所述边界涵盖所述非结果的任何亲代、兄弟和子代。
5.根据权利要求4所述的系统,其中,所述边界涵盖所述非结果的任何孙代。
6.根据权利要求5所述的系统,其中,所述边界涵盖所述非结果的任何后代。
7.根据权利要求1、2或3所述的系统,其中,所述边界涵盖所述非结果的阈值树遍历距离内的任何生物实体。
8.根据任一项前述权利要求所述的系统,其中,使用边界定义用户输入来定义所述边界。
9.根据任一项前述权利要求所述的系统,其中,所述分析模块被配置为针对每个非结果计算分数。
10.根据权利要求9的系统,其中对于每个非结果而言,边界内的结果越多,分数越高。
11.根据权利要求9或10所述的系统,其中,对于每个非结果而言,所述关系树中到所述边界内的结果的树遍历距离越短,所述分数越高。
12.根据权利要求9、10或11所述的系统,其中,所述分析模块被配置为使用函数来计算所述分数,所述函数使用函数定义用户输入来至少部分地定义。
13.根据权利要求12所述的系统,其中,所述函数定义用户输入包括使用代码或方程工具的函数的至少一部分的定义。
14.根据权利要求12所述的系统,其中,所述函数定义用户输入包括预定函数的用户选择或函数的预定部分的用户选择。
15.根据任一项前述权利要求所述的系统,其中,所述分析模块被配置为仅将具有等于或高于阈值分数的分数的非结果作为相关的生物实体进行处理。
16.根据权利要求15所述的系统,其中,所述分析模块被配置为使用第二阈值定义用户输入来设置所述阈值分数。
17.根据权利要求9至16中的任一项所述的系统,其中,所述分析模块被配置为生成按其相应分数排序的所述相关的实体的列表。
18.根据任一项前述权利要求所述的系统,其中,所述搜索模块被配置为通过查询数据库来确定关联。
19.根据权利要求18所述的系统,其中,所述数据库包括由用户治疗的关联数据。
20.根据权利要求18或19所述的系统,其中所述数据库包括基于机器学习预测生成的关联数据。
21.根据权利要求18、19或20所述的系统,其中,所述数据库包括基于所述搜索项的所述生物实体和所述集合的生物实体在文献中的共现而生成的关联数据,所述共现由自然语言处理工具检测。
22.根据任一项前述权利要求所述的系统,其中,所述搜索模块被配置为通过使机器学习算法生成机器学习预测来生成关联数据。
23.根据任一项前述权利要求所述的系统,其中,所述搜索模块被配置为通过使自然语言处理工具检测所述搜索项的所述生物实体和所述集合的生物实体在文献中的至少一个共现来生成关联数据。
24.根据权利要求20或22所述的系统,其中,所述用户输入模块被配置为接收设置所述机器学习预测的置信度分数的可接受范围的置信度范围输入,以过滤所述关联数据。
25.根据权利要求21或23所述的系统,其中,所述用户输入模块被配置为接收证据范围输入,所述证据范围输入设置由自然语言处理检测到的所述同现的证据计数的可接受范围,以过滤所述关联数据。
26.根据任一项前述权利要求所述的系统,包括可视化模块,所述可视化模块被配置为呈现所述关系树的可视化以及标识相关的每个生物实体的视觉指示。
27.根据权利要求26所述的系统,其中,所述关系树的可视化包括重复的生物实体。
28.根据权利要求26或27所述的系统,其中,所述可视化模块被配置为呈现标识每个结果的视觉指示。
29.根据权利要求26、27或28所述的系统,其中,所述可视化模块被配置为呈现结果的关联的证据类型的视觉指示。
30.根据权利要求29所述的系统,其中所述证据类型包括人类治疗、机器学习预测或自然语言处理。
31.根据任一项前述权利要求所述的系统,其中所述生物实体的集合包括成组的疾病、基因、蛋白质、药物、生物途径或生物过程。
32.根据任一项前述权利要求所述的系统,其中...
【专利技术属性】
技术研发人员:DP史密斯,
申请(专利权)人:伯耐沃伦人工智能科技有限公司,
类型:发明
国别省市:英国;GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。