当前位置: 首页 > 专利查询>舒辅医疗专利>正文

基于机器学习的自然语言情境中数值数据的语义分类制造技术

技术编号:24597362 阅读:26 留言:0更新日期:2020-06-21 03:47
本申请公开了用于自然语言情境中数值数据的语义分类的方法和系统。方法和系统利用具有卷积神经网络的机器学习模型作为特征检测器并且利用前馈神经网络作为数值数据分类器。

Semantic classification of numerical data in natural language context based on machine learning

【技术实现步骤摘要】
【国外来华专利技术】基于机器学习的自然语言情境中数值数据的语义分类相关申请的交叉引用本申请根据35U.S.C.§119(e)要求于2017年6月26日提交的美国临时专利申请序列号62/537,369的优先权,其公开的全部内容通过引用合并于本文中。
本专利技术总体上涉及自然语言情境中数值数据的语义分类领域。
技术介绍
许多文档都含有重要的数值数据,数值数据对自然语言处理具有重大价值。例如,在医疗记录中,数值数据(比如,心律、血压、血液测试结果)是医疗诊断和治疗的重要依据。对那些医疗记录的解释需要通过自然语言情境中数值数据的语义分类来正确理解医疗记录中包含的数值数据。目前有许多解决方案可对自然语言中的词语进行语义分类,但是这些解决方案不能有效地根据自然语言情境中数字的语义来对数字进行分类。传统的基于规则的模式匹配算法是这样的解决方案中的一种。需要所有可能的规则/标准的先验知识来对数字进行分类,这样做是无效率的,并且无法很好地实现扩缩。相应地,持续需要自然语言情境中数值数据的语义分类的方法和系统。公开的方法和系统可用于医疗保健、金融、法律和财会服务。
技术实现思路
本公开提供了一种用于处理自然语言情境中的数值数据的方法。所述方法包括检测自然语言文本段中存在包括一个或更多个数字的数值数据。在确定出文本段中存在数值数据时,所述方法包括提取数字、数字周围并且在预定长度的窗口中的词语。所述方法还包括:对每个提取词语创建词向量,并且通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征。该方法还包括将提取词语的最相关特征与数字相关联,并且通过将数字和相关联的最相关特征输入至第二机器学习模块中来将自然语言文本段进行分类。在一些实施方案中,所述方法也可以包括基于数值数据和自然语言文本段的分类来提供医疗诊断。在一些实施方案中,所述方法可以包括基于医疗诊断来生成治疗计划。在一些实施方案中,第一机器学习模块包括卷积神经网络。在一些实施方案中,通过利用词向量(Word2Vec)算法来执行创建词向量的步骤。在一些实施方案中,通过利用最大池化算法来执行确定提取词语的最相关特征的步骤。在一些实施方案中,第二机器学习模块包括前馈神经网络。在一些实施方案中,前馈神经网络包括柔性最大值(softmax)层。在一些实施方案中,将自然语言文本段分类的步骤包括:对提取词语的最相关特征创建特征向量,并且将所述特征向量输入至第二机器学习模块中。在一些实施方案中,自然语言文本段包括:段落、语句或者短语。在一些实施方案中,自然语言文本段包括一部分医疗记录。在一些实施方案中,窗口具有六个词语的预定长度,使得数字之前和数字之后设置有三个词语。在一些实施方案中,通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。本公开还提供了一种用于处理自然语言情境中的数值数据的系统。所述系统包括:非易失性计算机可读存储器;一个或更多个处理器;以及计算机可读介质,所述计算机可读介质中包含编程指令,当由一个或更多个处理器执行所述编程指令时,使系统:检测自然语言文本段中存在包括一个或更多个数字的数值数据;当确定出在文本段中存在数值数据时,提取数字以及数字周围的词语,词语在预定长度的窗口中;对每个提取词语创建词向量;通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征;将提取词语的最相关特征与数字相关联;通过将数字和相关联的最相关特征输入至第二机器学习模块中来将自然语言文本段进行分类。在一些实施方案中,所述系统可以基于数值数据和自然语言文本段的分类来提供医疗诊断。在一些实施方案中,所述系统可以基于医疗诊断来生成治疗计划。在一些实施方案中,第一机器学习模块包括卷积神经网络。在一些实施方案中,所述系统可以通过利用词向量(Word2Vec)算法来创建词向量。在一些实施方案中,所述系统可以通过利用最大池化算法来确定提取词语的最相关特征。在一些实施方案中,第二机器学习模块包括前馈神经网络。在一些实施方案中,前馈神经网络包括柔性最大值(softmax)层。在一些实施方案中,系统可以将自然语言文本段分类,所述系统还包括编程指令,所述编程指令配置为:对提取词语的最相关特征创建特征向量,将特征向量输入至第二机器学习模块中。在一些实施方案中,自然语言文本段包括段落、语句或者短语。在一些实施方案中,自然语言文本段包括一部分医疗记录。在一些实施方案中,窗口具有六个词语的预定长度,使得在数字之前和数字之后设置三个词语。在一些实施方案中,所述系统可以通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。根据结合所附附图考虑的以下描述,本专利技术的这些和其它特征和优点将变得更加显然。附图说明图1说明了示出用于对自然语言情境中的数值数据进行语义分类的机器学习方法和架构的框图/流程图。图2说明了用于训练机器学习模型的过程的示例。图3说明了包括数值数据的文本段的示例,其中示出了六个词语窗口的示例。图4说明了用于实施所公开的方法的计算设备的示例性架构。具体实施方式本公开描述了用于自然语言情境中对数值数据进行语义分类的基于机器学习的方法和系统。对数字周围的嵌入词语应用卷积神经网络,以进行特征检测和选择。具有数字及其关联词语特征输入的前馈神经网络与卷积神经网络共同训练,以学习数字的语义以及根据自然语言情境的分类。卷积神经网络作为语义特征检测器,在训练结束时被收集。这个机器学习过程是独特的并具有创造性,因为语义特征检测器的预期输出不需要提前知晓。在远程医疗系统中,常常整个医院的就诊流程都被捕获到数字化媒体中。比如,麻省总医院利用运用视频会议的远程医疗系统。如果保存了所有演示医生如何治疗患者的视频,就可以提供包括以前未记录在电子医疗记录系统中的信息的额外数据,现在正越来越多地应用于美国的各医院中。这些新医疗数据构成了丰富的信息源,为大数据分析和新医疗保健技术开发提供不可思议的潜力。通过越来越多利用远程医疗系统来开启可用的新医疗数据的潜力的一种方法是应用自然语言处理(NaturalLanguageProcessing,NLP)。自然语言处理是计算机科学和语言学的新领域,专注于帮助机器来处理和理解自然语言。当前的自然语言处理程序已证明了成功识别临床叙述中的关键词,并且可以用于准确识别患有前列腺癌的患者,并从他们的电子医疗记录(EMR)中检索相关的病理信息。所公开的方法和系统的专利技术性特征包括利用神经网络构建的自然语言处理程序,神经网络使得程序学习自然语言的含义。这样的自然语言处理程序作为一种有效的工具,使我们能够对以前不可用的数据以自然语言格式进行构造和组织。现在参见图1,其中提供了用于处理自然语言情境中的数值数据的基于机器学习的方法100的框图/流程图。该图说明了机器学习模型的示例的程序和架构。该方法通过提供自然语言文本段而开始于102。自然语言文本段可以包括一个或更多个段落、语句或者短语、或它们的组合。自然语言文本段可以采用任何国家本文档来自技高网...

【技术保护点】
1.一种处理自然语言情境中的数值数据的方法,所述方法包括:/n检测自然语言文本段中存在包括一个或更多个数字的数值数据;/n提取检测到的数字以及数字周围的词语,所述词语在预定长度的窗口内;/n对每个提取词语创建词向量;/n通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征;/n将提取词语的最相关特征与数字相关联;以及/n通过将数字和相关联的最相关特征输入至第二机器学习模块中来对自然语言文本段进行分类。/n

【技术特征摘要】
【国外来华专利技术】20170726 US 62/537,3691.一种处理自然语言情境中的数值数据的方法,所述方法包括:
检测自然语言文本段中存在包括一个或更多个数字的数值数据;
提取检测到的数字以及数字周围的词语,所述词语在预定长度的窗口内;
对每个提取词语创建词向量;
通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征;
将提取词语的最相关特征与数字相关联;以及
通过将数字和相关联的最相关特征输入至第二机器学习模块中来对自然语言文本段进行分类。


2.根据权利要求1所述的方法,还包括:
基于数值数据和自然语言文本段的分类来提供医疗诊断。


3.根据权利要求2所述的方法,还包括:
基于医疗诊断来生成治疗计划。


4.根据前述权利要求中任一项所述的方法,其中,第一机器学习模块包括卷积神经网络。


5.根据前述权利要求中任一项所述的方法,其中,通过利用Word2Vec算法来执行创建词向量的步骤。


6.根据前述权利要求中任一项所述的方法,其中,通过利用最大池化算法来执行确定提取词语的最相关特征的步骤。


7.根据前述权利要求中任一项所述的方法,其中,所述第二机器学习模型包括前馈神经网络。


8.根据权利要求7所述的方法,其中,所述前馈神经网络包括softmax层。


9.根据前述权利要求中任一项所述的方法,其中,将自然语言文本段进行分类的步骤包括:对提取词语的最相关特征创建特征向量,并且将所述特征向量输入至第二机器学习模块中。


10.根据前述权利要求中任一项所述的方法,其中,所述自然语言文本段包括段落、语句、短语以及它们的组合中的任何一种。


11.根据前述权利要求中任一项所述的方法,其中,所述自然语言文本段包括医疗记录的一部分。


12.根据前述权利要求中任一项所述的方法,其中,所述窗口具有六个词语的预定长度,使的数字之前和数字之后设置有三个词语。


13.根据前述权利要求中任一项所述的方法,其中,通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。


14.一种处理自然语言情境中的数值数据的系统,其包括:
非易失性计算机可读存储器;
一个或更...

【专利技术属性】
技术研发人员:B·沈
申请(专利权)人:舒辅医疗
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1