基于机器学习的自然语言情境中数值数据的语义分类制造技术

技术编号：24597362 阅读：26 留言：0更新日期：2020-06-21 03:47

本申请公开了用于自然语言情境中数值数据的语义分类的方法和系统。方法和系统利用具有卷积神经网络的机器学习模型作为特征检测器并且利用前馈神经网络作为数值数据分类器。

Semantic classification of numerical data in natural language context based on machine learning

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】基于机器学习的自然语言情境中数值数据的语义分类相关申请的交叉引用本申请根据35U.S.C.§119(e)要求于2017年6月26日提交的美国临时专利申请序列号62/537,369的优先权，其公开的全部内容通过引用合并于本文中。
本专利技术总体上涉及自然语言情境中数值数据的语义分类领域。
技术介绍
许多文档都含有重要的数值数据，数值数据对自然语言处理具有重大价值。例如，在医疗记录中，数值数据(比如，心律、血压、血液测试结果)是医疗诊断和治疗的重要依据。对那些医疗记录的解释需要通过自然语言情境中数值数据的语义分类来正确理解医疗记录中包含的数值数据。目前有许多解决方案可对自然语言中的词语进行语义分类，但是这些解决方案不能有效地根据自然语言情境中数字的语义来对数字进行分类。传统的基于规则的模式匹配算法是这样的解决方案中的一种。需要所有可能的规则/标准的先验知识来对数字进行分类，这样做是无效率的，并且无法很好地实现扩缩。相应地，持续需要自然语言情境中数值数据的语义分类的方法和系统。公开的方法和系统可用于医疗保健、金融、法律和财会服务。
技术实现思路
本公开提供了一种用于处理自然语言情境中的数值数据的方法。所述方法包括检测自然语言文本段中存在包括一个或更多个数字的数值数据。在确定出文本段中存在数值数据时，所述方法包括提取数字、数字周围并且在预定长度的窗口中的词语。所述方法还包括：对每个提取词语创建词向量，并且通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征。...

【技术保护点】
1.一种处理自然语言情境中的数值数据的方法，所述方法包括：/n检测自然语言文本段中存在包括一个或更多个数字的数值数据；/n提取检测到的数字以及数字周围的词语，所述词语在预定长度的窗口内；/n对每个提取词语创建词向量；/n通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征；/n将提取词语的最相关特征与数字相关联；以及/n通过将数字和相关联的最相关特征输入至第二机器学习模块中来对自然语言文本段进行分类。/n

【技术特征摘要】
【国外来华专利技术】20170726 US 62/537,3691.一种处理自然语言情境中的数值数据的方法，所述方法包括：
检测自然语言文本段中存在包括一个或更多个数字的数值数据；
提取检测到的数字以及数字周围的词语，所述词语在预定长度的窗口内；
对每个提取词语创建词向量；
通过将每个提取词语的词向量输入至第一机器学习模块中来确定提取词语的最相关特征；
将提取词语的最相关特征与数字相关联；以及
通过将数字和相关联的最相关特征输入至第二机器学习模块中来对自然语言文本段进行分类。

2.根据权利要求1所述的方法，还包括：
基于数值数据和自然语言文本段的分类来提供医疗诊断。

3.根据权利要求2所述的方法，还包括：
基于医疗诊断来生成治疗计划。

4.根据前述权利要求中任一项所述的方法，其中，第一机器学习模块包括卷积神经网络。

5.根据前述权利要求中任一项所述的方法，其中，通过利用Word2Vec算法来执行创建词向量的步骤。

6.根据前述权利要求中任一项所述的方法，其中，通过利用最大池化算法来执行确定提取词语的最相关特征的步骤。

7.根据前述权利要求中任一项所述的方法，其中，所述第二机器学习模型包括前馈神经网络。

8.根据权利要求7所述的方法，其中，所述前馈神经网络包括softmax层。

9.根据前述权利要求中任一项所述的方法，其中，将自然语言文本段进行分类的步骤包括：对提取词语的最相关特征创建特征向量，并且将所述特征向量输入至第二机器学习模块中。

10.根据前述权利要求中任一项所述的方法，其中，所述自然语言文本段包括段落、语句、短语以及它们的组合中的任何一种。

11.根据前述权利要求中任一项所述的方法，其中，所述自然语言文本段包括医疗记录的一部分。

12.根据前述权利要求中任一项所述的方法，其中，所述窗口具有六个词语的预定长度，使的数字之前和数字之后设置有三个词语。

13.根据前述权利要求中任一项所述的方法，其中，通过利用梯度下降算法来训练第一机器学习模块和第二机器学习模块。

14.一种处理自然语言情境中的数值数据的系统，其包括：
非易失性计算机可读存储器；
一个或更...

【专利技术属性】
技术研发人员：B·沈，
申请(专利权)人：舒辅医疗，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人