用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质技术方案

技术编号:21519510 阅读:38 留言:0更新日期:2019-07-03 10:44
公开的系统、方法和计算机可读介质可以检测语义实体之间的关联并生成实体之间的语义信息。例如,可以识别知识库中存在于的语义实体和相关联的语义集合。可以确定时间段并将其划分成时间片。可以为每个时间片生成所识别的语义实体的词嵌入;可以确定第一语义实体输入和第二语义实体输入之间的第一语义关联强度;以及可以确定第一语义实体输入和与语义集合相关联的语义实体之间的第二语义关联强度,所述语义集合与第二语义实体相关联。可以基于第一和第二语义关联强度来提供输出。

System, Method and Computer Readable Media for Visualization of Semantic Information and Inference of Time Signals Indicating Significant Association between Life Science Entities

【技术实现步骤摘要】
【国外来华专利技术】用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质相关申请本申请根据35U.S.C.§119(e)要求2016年9月22日提交的题为“用于语义信息可视化的方法和系统”的第62/398,386号美国临时专利申请和2017年6月2日提交的题为“用于指示生命科学实体之间显著关联的时间信号推断的方法和系统”的第62/514,697号美国临时专利申请的权益,其全部内容通过引用整体明确并入本文。
技术介绍

本公开的实施例涉及用于分析数据中潜在关系的系统、方法和计算机可读介质。现有技术不论数据是多维的还是实时的,数据可视化的复杂性——特别是利用与线性相反的二维和三维布局——都在迅速提升,这促进了对数据和潜在关系的理解。然而,这些可视化方法对于呈现其中信息是非结构化的且需要语义推理来提取结构化信息的数据源是不太有效的。某些数据源包含丰富的非结构化和半结构化信息,通常在制药行业不同组成部分的不同孤岛中访问。例如,转化医学和临床开发团队通常会访问clinicaltrials.gov网站;药物警戒研发科学家和进行市场调研的商业数据科学家等通常访问联邦不良事件报告系本文档来自技高网...

【技术保护点】
1.一种检测语义实体之间的关联的方法,包括:识别一个或多个知识库中存在的语义实体和相关联的语义集合,其中所述语义实体包括单个词或多词短语中的一个或多个,并且语义集合的所述语义实体共享实体类型;确定用于分析的时间段;将所述时间段划分成一个或多个时间片;基于一个或多个语料库为每个时间片生成所述识别的语义实体的一组词嵌入;为每个时间片确定第一语义实体输入和第二语义实体输入之间的第一语义关联强度;为每个时间片确定所述第一语义实体输入和语义集合中的多个语义实体之间的第二语义关联强度,所述语义集合与所述第二语义实体相关联;以及基于所述一个或多个时间片的所述第一和第二语义关联强度提供输出。

【技术特征摘要】
【国外来华专利技术】2016.09.22 US 62/398,386;2017.06.02 US 62/514,6971.一种检测语义实体之间的关联的方法,包括:识别一个或多个知识库中存在的语义实体和相关联的语义集合,其中所述语义实体包括单个词或多词短语中的一个或多个,并且语义集合的所述语义实体共享实体类型;确定用于分析的时间段;将所述时间段划分成一个或多个时间片;基于一个或多个语料库为每个时间片生成所述识别的语义实体的一组词嵌入;为每个时间片确定第一语义实体输入和第二语义实体输入之间的第一语义关联强度;为每个时间片确定所述第一语义实体输入和语义集合中的多个语义实体之间的第二语义关联强度,所述语义集合与所述第二语义实体相关联;以及基于所述一个或多个时间片的所述第一和第二语义关联强度提供输出。2.根据权利要求1所述的方法,其中所述一个或多个语料库包括结构化数据和非结构化数据。3.根据权利要求1所述的方法,其中识别语义实体包括以下一个或多个:(1)将一个或多个单个词或多词短语识别为属于语义集合的语义实体的自动方法,和(2)从所述一个或多个知识库中强制选择一个或多个单个词或多词短语。4.根据权利要求3所述的方法,其中从由结构化数据库编译的信息中强制选择所述一个或多个单个词或多词短语。5.根据权利要求1所述的方法,其中在所述时间段内对所述一个或多个知识库中的所有文本进行语义实体识别。6.根据权利要求1所述的方法,其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。7.根据权利要求1所述的方法,其中独立于为其他时间片生成的词嵌入,为每个时间片生成所述词嵌入。8.根据权利要求1所述的方法,其中利用先前时间片的词嵌入生成时间片的所述词嵌入。9.根据权利要求1所述的方法,其中与所述语义集合相关联的所述多个语义实体不包括所述第二语义实体,所述语义集合与所述第二语义实体相关联。10.根据权利要求1所述的方法,其中所述第二语义关联强度是所述第一语义实体输入和与语义集合相关联的所述多个语义实体之间的一组语义关联强度的平均值、中位数或百分位数,所述语义集合与所述第二语义实体相关联。11.根据权利要求1所述的方法,进一步包括:检测第一时间片的所述第一语义关联强度相对于随后的第二时间片的所述第一语义关联强度的增量;和确定所述第一语义关联强度的所述增量相对于所述相应的第二语义关联是否具有统计显著性。12.根据权利要求11所述的方法,其中基于p值来确定所述增量的所述统计显著性,所述p值用作所述第一语义关联强度相对于所述对应的第二语义关联的统计显著性的度量。13.根据权利要求1所述的方法,进一步包括:基于所述一个或多个知识库中所述第一实体和所述第二实体之间的共现水平来选择所述第一实体输入和所述第二实体输入。14.根据权利要求13所述的方法,其中所述第一实体和所述第二实体之间的所述共现水平为零。15.根据权利要求1所述的方法,进一步包括:从用户接收所述第一实体输入和所述第二实体输入。16.根据权利要求1所述的方法,进一步包括:为每个时间片确定包含所述第一实体和所述第二实体的所述一个或多个语料库中存在的文档的计数;和确定与第一时间片的所述第一语义关联强度相对于随后的第二时间片的所述第一语义关联强度的增量相关联的第一日期(1)和与第三时间片的包含所述第一实体和所述第二实体的文档计数相对于第四时间片的包含所述第一实体和所述第二实体的文档计数的增量相关联的第二日期(2)之间的时间差。17.根据权利要求16所述的方法,进一步包括:基于固定轴的曲线斜率检测包含所述第一实体和所述第二实体的所述文档计数的所述增量,其中所述曲线基于所述曲线x轴上的所述时间段和所述曲线y轴上的所述文档计数。18.根据权利要求16所述的方法,进一步包括:基于文档计数阈值检测包含所述第一实体和所述第二实体的所述文档计数的所述第二增量。19.根据权利要求1所述的方法,其中所述第一实体和所述第二实体中的每一个是以下实体类型中的一个或多个:生物分子、生物实体、疾病、不良事件、表型、公司、机构、大学、医院、人、药物、医疗器械和医疗程序。20.根据权利要求1所述的方法,其中所述输出使用户设备显示图形线,所述图形线通过绘制所述时间段内每个所述时间片的每个所述第一语义关联强度而创建。21.根据权利要求1所述的方法,其中所述输出使用户设备显示图形线,所述图形线通过绘制所述时间段内每个所述时间片的每个平均第二语义关联强度而创建。22.根据权利要求1所述的方法,其中所述输出使用户设备显示图形线,所述图形线通过绘制所述时间段内每个所述时间片的包含所述第一实体和所述第二实体的所述一个或多个语料库中存在的文档的计数而创建。23.一种检测语义实体之间的关联的系统,包括:存储器,其存储模块;和处理器,其配置为运行存储在所述存储器中的所述模块,所述模块配置为使所述处理器:识别一个或多个知识库中存在的语义实体和相关联的语义集合,其中所述语义实体包括单个词或多词短语中的一个或多个,并且语义集合的所述语义实体共享实体类型;确定用于分析的时间段;将所述时间段划分成一个或多个时间片;基于一个或多个语料库为每个时间片生成所述识别的语义实体的一组词嵌入;为每个时间片确定第一语义实体输入和第二语义实体输入之间的第一语义关联强度;为每个时间片确定所述第一语义实体输入和语义集合中的多个语义实体之间的第二语义关联强度,所述语义集合与所述第二语义实体相关联;以及基于所述一个或多个时间片的所述第一和第二语义关联强度提供输出。24.根据权利要求23所述的系统,其中所述一个或多个语料库包括结构化数据和非结构化数据。25.根据权利要求23所述的系统,其中识别语义实体包括以下一个或多个:(1)将一个或多个单个词或多词短语识别为属于语义集合的语义实体的自动方法,和(2)从所述一个或多个知识库中强制选择一个或多个单个词或多词短语。26.根据权利要求25所述的系统,其中从由结构化数据库编译的信息中强制选择所述一个或多个单个词或多词短语。27.根据权利要求23所述的系统,其中在所述时间段内对所述一个或多个知识库中的所有文本进行语义实体识别。28.根据权利要求23所述的系统,其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。29.根据权利要求23所述的系统,其中独立于为其他时间片生成的词嵌入,为每个时间片生成所述词嵌入。30.根据权利要求23所述的系统,其中利用先前时间片的词嵌入生成时间片的所述词嵌入。31.根据权利要求23所述的系统,其中与所述语义集合相关联的所述多个语义实体不包括所述第二语义实体,所述语义集合与所述第二语义实体相关联。32.根据权利要求23所述的系统,其中所述第二语义关联强度是所述第一语义实体输入和与语义集合相关联的所述多个语义实体之间的一组语义关联强度的平均值、中位数或百分位数,所述语义集合与所述第二语义实体相关联。33.根据权利要求23所述的系统,其中存储在所述存储器中的所述模块还配置为使所述处理器:检测第一时间片的所述第一语义关联强度相对于随后的第二时间片的所述第一语义关联强度的增量;和确定所述第一语义关联强度的所述增量相对于所述相应的第二语义关联是否具有统计显著性。34.根据权利要求23所述的系统,其中基于p值来确定所述增量的所述统计显著性,所述值用作所述第一语义关联强度相对于所述对应的第二语义关联的统计显著性的度量。35.根据权利要求23所述的系统,其中存储在所述存储器中的所述模块还配置为使所述处理器:基于所述一个或多个知识库中所述第一实体和所述第二实体之间的共现水平来选择所述第一实体输入和所述第二实体输入。36.根据权利要求35所述的系统,其中所述第一实体和所述第二实体之间的所述共现水平为零。37.根据权利要求23所述的系统,其中存储在所述存储器中的所述模块还配置为使所述处理器:从用户接收所述第一实体输入和所述第二实体输入。38.根据权利要求23所述的系统,其中存储在所述存储器中的所述模块还配置为使所述处理器:为每个时间片确定包含所述第一实体和所述第二实体的所述一个或多个语料库中存在的文档的计数;和确定与第一时间片的所述第一语义关联强度相对于之后的第二时间片的所述第一语义关联强度的增量相关联的第一日期(1)和与第三时间片的包含所述第一实体和所述第二实体的文档计数相对于第四时间片的包含所述第一实体和所述第二实体的文档计数的增量相关联的第二日期(2)之间的时间差。39.根据权利要求38所述的系统,其中存储在所述存储器中的所述模块还配置为使所述处理器:基于固定轴的曲线斜率检测包含所述第一实体和所述第二实体的所述文档计数的所述增量,其中所述曲线基于所述曲线x轴上的所述时间段和所述曲线y轴上的所述文档计数。40.根据权利要求38所述的系统,其中存储在所述存储器中的所述模块还配置为使所述处理器:基于文档计数阈值检测包含所述第一实体和所述第二实体的所述文档计数的所述第二增量。41.根据权利要求23所述的系统,其中所述第一实体和所述第二实体中的每一个是以下实体类型中的一个或多个:生物分子、生物实体、疾病、不良事件、表型、公司、机构、大学、医院、人、药物、医疗器械和医疗程序。42.根据权利要求23所述的系统,其中所述输出使用户设备显示图形线,所述图形线通过绘制所述时间段内每个所述时间片的每个所述第一语义关联强度而创建。43.根据权利要求23所述的系统,其中所述输出使用户设备显示图形线,所述图形线通过绘制所述时间段内每个所述时间片的每个平均第二语义关联强度而创建。44.根据权利要求23所述的系统,其中所述输出使用户设备显示图形线,所述图形线通过绘制所述时间段内每个所述时间片的包含所述第一实体和所述第二实体的所述一个或多个语料库中存在的文档的计数而创建。45.一种生成实体之间语义信息的方法,包括:识别一个或多个语料库中的多个语义实体,其中所述语义实体包括单个词或多词短语中的一个或多个;识别所述一个或多个语料库中的多个语义实体类型;将一个或多个语义实体类型与来自所述多个语义实体的语义实体相关联;为所述多个语义实体生成词嵌入;基于所述词嵌入确定来自所述多个语义实体的语义实体之间的一个或多个语义关联分数;接收查询项;基于所述一个或多个语义关联分数生成与所述查询项相关联的结果语义实体的第一列表;基于与结果语义实体的所述第一列表中的所述语义实体相关联的所述语义实体类型生成语义实体集合的第二列表,其中来自所述第二列表的每个语义实体集合与语义实体类型相关联;以及基于语义实体集合的所述第二列表提供输出。46.根据权利要求45所述的方法,其中所述一个或多个语料库包括结构化数据和非结构化数据。47.根据权利要求45所述的方法,其中基于以下一个或多个来识别所述多个语义实体类型:结构化数据库、实体类型的定制列表、来自神经网络的输出、来自监督机器学习的输出或者来自无监督机器学习的输出。48.根据权利要求47所述的方法,其中所述神经网络结构是以下一个或多个:递归神经网络(RNN)或长短时记忆(LSTM)。49.根据权利要求45所述的方法,其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。50.根据权利要求45所述的方法,其中所述基于与结果语义实体的所述第一列表的所述语义实体相关联的所述语义实体类型生成语义实体集合的所述第二列表包括使所述生成仅基于满足以下一个或多个条件的结果语义实体:与潜在语义实体类型相关联的结果语义实体的数量最大;结果语义实体的语义关联分数最小;所述结果语义实体在所述一个或多个语料库中出现次数最少;所述结果语义实体出现在所述一个或多个语料库的最小数量的文档中;所述查询项和所述结果语义实体的共现次数最少;所述查询项和所述结果语义实体的共现次数最多;所述一个或多个语料库中所述查询项和所述结果语义实体共现的文档的数量最小;以及所述一个或多个语料库中所述查询项和所述结果语义实体共现的文档的数量最大。51.根据权利要求45所述的方法,其中所述生成语义实体集合的所述第二列表包括将所述第二列表中的语义实体集合的数量限制到最大数量。52.根据权利要求45所述的方法,其中所述生成语义实体集合的所述第二列表包括要求所述第二列表的每个所述语义实体集合中的语义实体的数量最小。53.根据权利要求45所述的方法,其中所述生成语义实体集合的所述第二列表包括要求所述第二列表的每个所述语义实体集合中的每个所述语义实体的语义关联分数最小。54.根据权利要求45所述的方法,其中所述生成语义实体集合的所述第二列表进一步基于与所选语义实体集合相关联的所述一个或多个结果语义实体。55.根据权利要求45所述的方法,其中所述输出使用户设备从所述第一列表中列出一个或多个所述结果语义实体,并且从所述第二列表中列出一个或多个所述语义实体集合。56.一种生成实体之间语义信息的系统,包括:存储器,其存储模块;和处理器,其配置为运行存储在所述存储器中的所述模块,所述模块配置为使所述处理器:识别一个或多个语料库中的多个语义实体,其中所述语义实体包括单个词或多词短语中的一个或多个;识别所述一个或多个语料库中的多个语义实体类型;将一个或多个语义实体类型与来自所述多个语义实体的语义实体相关联;为所述多个语义实体生成词嵌入;基于所述词嵌入确定来自所述多个语义实体的语义实体之间的一个或多个语义关联分数;接收查询项;基于所述一个或多个语义关联分数生成与所述查询项相关联的结果语义实体的第一列表;基于与结果语义实体的所述第一列表中的所述语义实体相关联的所述语义实体类型生成语义实体集合的第二列表,其中来自所述第二列表的每个语义实体集合与语义实体类型相关联;以及基于语义实体集合的所述第二列表提供输出。57.根据权利要求56所述的系统,其中所述一个或多个语料库包括结构化数据和非结构化数据。58.根据权利要求56所述的系统,其中基于以下一个或多个来识别所述多个语义实体类型:结构化数据库、实体类型的定制列表、来自神经网络的输出、来自监督机器学习的输出或者来自无监督机器学习的输出。59.根据权利要求58所述的系统,其中所述神经网络结构是以下一个或多个:递归神经网络(RNN)或长短时记忆(LSTM)。60.根据权利要求56所述的系统,其中所述词嵌入是使用Word2vec、AdaGram、fastText和Doc2vec中的一个或多个生成的。61.根据权利要求56所述的系统,其中所述基于与结果语义实体的所述第一列表的所述语义实体相关联的所述语义实体类型生成语义实体集合的所述第二列表包括使所述生成仅基于满足以下一个或多个条件的结果语义实体:与潜在语义实体类型相关联的结果语义实体的数量最大;结果语义实体的语义关联分数最小;所述结果语义实体在所述一个或多个语料库中出现的次数最少;所述结果语义实体出现在所述一个或多个语料库的最小数量的文档中;所述查询项和所述结果语义实体的共现次数最少;所述查询项和所述结果语义实体的共现次数最多;所述一个或多个语料库中所述查询项和所述结果语义实体共现的文档的数量最小;以及所述一个或多个语料库中所述查询项和所述结果语义实体共现的文档的数量最大。62.根据权利要求56所述的系统,其中所述生成语义实体集合的所述第二列表包括将所述第二列表中的语义实体集合的数量限制到最大数量。63.根据权利要求56所述的系统,其中所述生成语义实体集合的所述第二列表包括要求所述第二列表的每个所述语义实体集合中的语义实体的数量最小。64.根据权利要求56所述的系统,其中所述生成语义实体集合的所述第二列表包括要求所述第二列表的每个所述语义实体集合中的每个所述语义实体的语义关联分数最小。65.根据权利要求56所述的系统,其中所述生成语义实体集合的所述第二列表进一步基于与所选语义实体集合相关联的所述一个或多个结果语义实体。66.根据权利要求56所述的系统,其中所述输出使用户设备从所述第一列表中列出一个或多个结果语义实体,并且从所述第二列表中列出一个或多个语义实体集合。67.一种生成实体之间语义信息的方法,包括:识别一个或多个语料库中的多个语义实体,其中所述语义实体包括单个词或多词短语中的一个或多个;为所述多个语义实体生成词嵌入,其中至少一个所述语义实体是具有多个含义和相应的多个词嵌入的多含义语义实体,其中每个含义与相应的词嵌入相关联;基于所述词嵌入确定来自所述多个语义实体的语义实体之间的一个或多个语义关联分数;接收查询项;确定所述查询项是否对应于与多个嵌入相关联的语义实体;当所述查询项对应于与多个嵌入相关联的语义实体时,生成一组列表,每个列表包含用于所述多个嵌入的每个嵌入的语义实体,其中基于所述一个或多个语义关联分数的比较,语义实体被包括在一个或多个列表中;以及当所述查询项对应于与多个嵌入相关联的语义实体时,基于该组列表提供输出。68.根据权利要求67所述的方法,其中所述一个或多个语料库包括结构化数据和非结构化数据。69.根据权利要求67所述的方法,进一步包括:确定一组度量,其测量所述一个或多个语料库中所述多含义语义实体的所述多个含义中的每个含义的出现。70.根据权利要求69所述的方法,其中所述度量是所述多含义语义实体的所述特定含义与所述多个语义实体中的一个或多个所述语义实体在所述一个或多个语料库的一个或多个文档中共现次数的计数。71....

【专利技术属性】
技术研发人员:穆拉利·阿拉瓦穆丹温卡塔拉马南·桑达拉贾阿吉特·拉贾耶克哈兰普拉桑·叶琳娜阿尔俊·普拉尼克阿什文·穆拉利威廉·吉普森恩里克·加西亚里维拉卡西克·穆卢加多斯
申请(专利权)人:恩芙润斯公司
类型:发明
国别省市:美国,US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1