一种基于大数据的金融领域人机对话意图识别方法技术

技术编号：20045118 阅读：53 留言：0更新日期：2019-01-09 04:13

本发明专利技术公开了一种基于大数据的金融领域人机对话意图识别方法，包括：101对金融领域人机对话所产生的文本数据的预处理；102对于给定文本数据集进行划分；103根据人机对话的数据进行文本数据特征的构建，包括特征提取，文本向量化；104针对构建完成后的特征，进行降维，稀疏处理；105针对文本数据，建立机器学习模型，来对未知的人机对话进行意图识别。本发明专利技术提出利用机器学习来对文本数据进行预测，对已知标签的文本数据训练而得到模型，来预测未知标签的文本数据(该问题属于多分类问题)，从而获取该对话所表达的意图(多分类概率最大的概率)。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的金融领域人机对话意图识别方法
本专利技术属于机器学习，自然语言处理，大数据处理

技术介绍
随着搜索引擎技术的发展，现代搜索引擎、问答系统和对话机器人需要的不再是简单的相关性信息检索，而是能深刻理解用户的信息需求。正确识别用户的意图是实现这一目标的关键步骤。基于对话的意图识别是一个有挑战性的任务的原因是对话中的用户输入通常非常短，而且缺少足够的信息，需要系统准确理解上文含义后，再做出最终判断。本专利技术在传统的自然语言处理上，结合数据挖掘和自然语言处理，首先对文本数据去除噪声，剔除冗余信息，然后对文本特征进行过滤，降维等等，最后对于该预测文本，设计机器学习模型，并且进行了算法层面上的融合，以提高文本分类的准确率，本专利技术有效的解决了传统文本分类精度低，处理时间较长的问题。
技术实现思路
本专利技术旨在解决以上现有技术出现的问题。提出了一种基于大数据的金融领域人机对话意图识别方法，从而使得对话意图识别能有更高的准确率。为了实现上述目的，本专利技术采用的技术方案是，一种基于大数据的金融领域人机对话意图识别方法,其包括以下步骤：101、对金融领域app上人机对话所产生的历史文本数据进行预处理操作；102、对于步骤101处理后的数据集进行划分，分为训练集和验证集；103、根据人机对话历史文本数据进行文本数据特征的构建，包括特征提取和文本表示；104、针对构建完成后的特征，进行降维、稀疏的处理；105、根据人机对话历史文本数据进行模型的设计及其优化，建立机器学习模型，来对未知的人机对话进行意图识别。本专利技术提出利用机器学习来对文本数据进行预测...

【技术保护点】
1.一种基于大数据的金融领域人机对话意图识别方法，其特征在于，包括以下步骤：101、对金融领域app上人机对话所产生的历史文本数据进行预处理操作；102、对于步骤101处理后的数据集进行划分，分为训练集和验证集；103、根据人机对话历史文本数据进行文本数据特征的构建，包括特征提取和文本表示；104、针对构建完成后的特征，进行降维、稀疏的处理；105、根据人机对话历史文本数据进行模型的设计及其优化，建立机器学习模型，来对未知的人机对话进行意图识别。

【技术特征摘要】
1.一种基于大数据的金融领域人机对话意图识别方法，其特征在于，包括以下步骤：101、对金融领域app上人机对话所产生的历史文本数据进行预处理操作；102、对于步骤101处理后的数据集进行划分，分为训练集和验证集；103、根据人机对话历史文本数据进行文本数据特征的构建，包括特征提取和文本表示；104、针对构建完成后的特征，进行降维、稀疏的处理；105、根据人机对话历史文本数据进行模型的设计及其优化，建立机器学习模型，来对未知的人机对话进行意图识别。2.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法，其特征在于：步骤101所述预处理操作包括：(1)对文档进行切分，进行文本分词；所述文本分词包括词典的构造和分词算法的操作两个主要步骤；(2)去停用词，利用人工规则对停用词进行处理，即利用人工建立的停用词词典对特殊符号，标点，数字进行替换。3.根据权利要求2所述一种基于大数据的金融领域人机对话意图识别方法，其特征在于：所述词典的构造，利用双数组Trie数来构造字典树；采用最短路径方法进行分词操作。4.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法，其特征在于：步骤102所述划分训练集和验证集，采用留出法划分为训练集和验证集，在用留出法对数据进行划分时，采用的是分层抽样的方法。5.根据权利要求4所述一种基于大数据的金融领域人机对话意图识别方法，其特征在于：所述分层抽样为，原始数据集为D,对D分层抽样分为训练集S和验证集T,使得S和T数据集中正负样本比例和D中保持一致。6.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法，其特征在于：步骤103所述特征提取，文本中的某一个单词就能以某种程度来表征某句话，这个程度具体衡量的标准就是概率；概率越大，说明这个单词越能表征这句话；反之则越不能表征这句话...

【专利技术属性】
技术研发人员：王进，孙万彤，孙开伟，欧阳卫华，邓欣，陈乔松，李智星，胡峰，雷大江，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人