System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术总体上涉及自然语言情境中数值数据的语义分类领域。
技术介绍
1、许多文档都含有重要的数值数据,数值数据对自然语言处理具有重大价值。例如,在医疗记录中,数值数据(比如,心律、血压、血液测试结果)是医疗诊断和治疗的重要依据。对那些医疗记录的解释需要通过自然语言情境中数值数据的语义分类来正确理解医疗记录中包含的数值数据。目前有许多解决方案可对自然语言中的词语进行语义分类,但是这些解决方案不能有效地根据自然语言情境中数字的语义来对数字进行分类。传统的基于规则的模式匹配算法是这样的解决方案中的一种。需要所有可能的规则/标准的先验知识来对数字进行分类,这样做是无效率的,并且无法很好地实现扩缩。
2、相应地,持续需要自然语言情境中数值数据的语义分类的方法和系统。公开的方法和系统可用于医疗保健、金融、法律和财会服务。
技术实现思路
1、本公开提供了一种用于处理自然语言情境中的数值数据的方法。所述方法包括检测自然语言文本段中存在包括一个或更多个数字的数值数据。在确定出文本段中存在数值数据时,所述方法包括提取数字、数字周围并且在预定长度的窗口中的词语。所述方法还包括:对每个提取词语创建词向量,并且通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征。该方法还包括将提取词语的最相关特征与数字相关联,并且通过将数字和相关联的最相关特征输入至第二机器学习模块中来将自然语言文本段进行分类。
2、在一些实施方案中,所述方法也可以包括基于数值数据和自然语言
3、在一些实施方案中,第一机器学习模块包括卷积神经网络。在一些实施方案中,通过利用词向量(word2vec)算法来执行创建词向量的步骤。在一些实施方案中,通过利用最大池化算法来执行确定提取词语的最相关特征的步骤。在一些实施方案中,第二机器学习模块包括前馈神经网络。在一些实施方案中,前馈神经网络包括柔性最大值(softmax)层。
4、在一些实施方案中,将自然语言文本段分类的步骤包括:对提取词语的最相关特征创建特征向量,并且将所述特征向量输入至第二机器学习模块中。
5、在一些实施方案中,自然语言文本段包括:段落、语句或者短语。在一些实施方案中,自然语言文本段包括一部分医疗记录。在一些实施方案中,窗口具有六个词语的预定长度,使得数字之前和数字之后设置有三个词语。在一些实施方案中,通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。
6、本公开还提供了一种用于处理自然语言情境中的数值数据的系统。所述系统包括:非易失性计算机可读存储器;一个或更多个处理器;以及计算机可读介质,所述计算机可读介质中包含编程指令,当由一个或更多个处理器执行所述编程指令时,使系统:检测自然语言文本段中存在包括一个或更多个数字的数值数据;当确定出在文本段中存在数值数据时,提取数字以及数字周围的词语,词语在预定长度的窗口中;对每个提取词语创建词向量;通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征;将提取词语的最相关特征与数字相关联;通过将数字和相关联的最相关特征输入至第二机器学习模块中来将自然语言文本段进行分类。
7、在一些实施方案中,所述系统可以基于数值数据和自然语言文本段的分类来提供医疗诊断。在一些实施方案中,所述系统可以基于医疗诊断来生成治疗计划。
8、在一些实施方案中,第一机器学习模块包括卷积神经网络。在一些实施方案中,所述系统可以通过利用词向量(word2vec)算法来创建词向量。在一些实施方案中,所述系统可以通过利用最大池化算法来确定提取词语的最相关特征。在一些实施方案中,第二机器学习模块包括前馈神经网络。在一些实施方案中,前馈神经网络包括柔性最大值(softmax)层。
9、在一些实施方案中,系统可以将自然语言文本段分类,所述系统还包括编程指令,所述编程指令配置为:对提取词语的最相关特征创建特征向量,将特征向量输入至第二机器学习模块中。在一些实施方案中,自然语言文本段包括段落、语句或者短语。在一些实施方案中,自然语言文本段包括一部分医疗记录。在一些实施方案中,窗口具有六个词语的预定长度,使得在数字之前和数字之后设置三个词语。在一些实施方案中,所述系统可以通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。
10、根据结合所附附图考虑的以下描述,本专利技术的这些和其它特征和优点将变得更加显然。
本文档来自技高网...【技术保护点】
1.一种处理自然语言情境中的数值数据的方法,所述方法包括:
2.根据权利要求1所述的方法,还包括:
3.根据权利要求2所述的方法,还包括:
4.根据前述权利要求中任一项所述的方法,其中,所述第一机器学习模块包括卷积神经网络。
5.根据前述权利要求中任一项所述的方法,其中,所述第二机器学习模块包括前馈神经网络。
6.根据前述权利要求中任一项所述的方法,其中,通过利用Word2Vec算法来执行创建词向量的步骤。
7.根据前述权利要求中任一项所述的方法,其中,通过利用最大池化算法来执行确定提取词语的最相关特征的步骤。
8.根据权利要求1所述的方法,其中,所述前馈神经网络包括softmax层。
9.根据前述权利要求中任一项所述的方法,其中,所述自然语言文本段包括段落、语句、短语以及它们的组合中的任何一种。
10.根据前述权利要求中任一项所述的方法,其中,所述自然语言文本段包括医疗记录的一部分。
11.根据前述权利要求中任一项所述的方法,其中,所述窗口具有六个词语的预定长
12.根据前述权利要求中任一项所述的方法,其中,通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。
13.一种处理自然语言情境中的数值数据的系统,其包括:
14.根据权利要求13所述的处理自然语言情境中的数值数据的系统,还包括配置为如下的编程指令:
15.根据权利要求14所述的处理自然语言情境中的数值数据的系统,还包括配置为如下的编程指令:
16.根据权利要求13至15中任一项所述的处理自然语言情境中的数值数据的系统,其中,所述第一机器学习模块包括卷积神经网络。
17.根据权利要求13至16中任一项所述的处理自然语言情境中的数值数据的系统,其中,所述第二机器学习模块包括前馈神经网络。
18.根据权利要求13至17中任一项所述的处理自然语言情境中的数值数据的系统,还包括配置为通过利用Word2Vec算法来创建词向量的编程指令。
19.根据权利要求13至18中任一项所述的处理自然语言情境中的数值数据的系统,还包括配置为通过利用最大池化算法来确定提取词语的最相关特征的编程指令。
20.根据权利要求13所述的处理自然语言情境中的数值数据的系统,其中,所述前馈神经网络包括softmax层。
21.根据权利要求13至20中任一项所述的处理自然语言情境中的数值数据的系统,其中,所述自然语言文本段包括段落、语句、短语以及它们的组合的任何一种。
22.根据权利要求13至21中任一项所述的处理自然语言情境中的数值数据的系统,其中,所述自然语言文本段包括医疗记录的一部分。
23.根据权利要求13至22中任一项所述的处理自然语言情境中的数值数据的系统,其中,所述窗口具有六个词语的预定长度,使得在数字之前和数字之后设置有三个词语。
24.根据权利要求13至23中任一项所述的处理自然语言情境中的数值数据的系统,还包括配置为通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块的编程指令。
...【技术特征摘要】
1.一种处理自然语言情境中的数值数据的方法,所述方法包括:
2.根据权利要求1所述的方法,还包括:
3.根据权利要求2所述的方法,还包括:
4.根据前述权利要求中任一项所述的方法,其中,所述第一机器学习模块包括卷积神经网络。
5.根据前述权利要求中任一项所述的方法,其中,所述第二机器学习模块包括前馈神经网络。
6.根据前述权利要求中任一项所述的方法,其中,通过利用word2vec算法来执行创建词向量的步骤。
7.根据前述权利要求中任一项所述的方法,其中,通过利用最大池化算法来执行确定提取词语的最相关特征的步骤。
8.根据权利要求1所述的方法,其中,所述前馈神经网络包括softmax层。
9.根据前述权利要求中任一项所述的方法,其中,所述自然语言文本段包括段落、语句、短语以及它们的组合中的任何一种。
10.根据前述权利要求中任一项所述的方法,其中,所述自然语言文本段包括医疗记录的一部分。
11.根据前述权利要求中任一项所述的方法,其中,所述窗口具有六个词语的预定长度,使得数字之前和数字之后设置有三个词语。
12.根据前述权利要求中任一项所述的方法,其中,通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。
13.一种处理自然语言情境中的数值数据的系统,其包括:
14.根据权利要求13所述的处理自然语言情境中的数值数据的系统,还包括配置为如下的编程指令:
15.根据权利要求14所述的处理自然语言情境中的数值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。