一种基于自然语言处理技术的服务自动推送系统及方法技术方案

技术编号:20842265 阅读:17 留言:0更新日期:2019-04-13 08:42
本发明专利技术公开了一种基于自然语言处理技术的服务自动推送系统及方法。该系统包括:M1、词表维护模块;M2、文本获取模块;M3、文本预处理模块;M4、模型模块;M5、交互模块;M6、存储模块。附图1为该系统架构图。该方法包括学习和使用模式。学习模式包含以下步骤:S1、关键词表维护;S2、文本数据获取;S3、数据标注;S4、数据预处理;S5、数据集划分;S6、模型构建、验证、测试。使用模式包含以下步骤:U1、实时文本获取;U2、文本判别;U3、文本归类;U4、服务推送。附图2左右框内分别为学习和使用模式的流程图。本发明专利技术避免了消费者手动查找服务和服务商被动等待消费者的弊端,极大提高了消费者和服务的匹配效率。

【技术实现步骤摘要】
一种基于自然语言处理技术的服务自动推送系统及方法
本专利技术涉及自然语言处理
,具体涉及一种基于自然语言处理技术的服务自动推送系统及方法。
技术介绍
随着互联网的迅猛发展,互联网上的文本信息量呈爆炸式增长。文本信息是一种非结构化的数据,无法按照传统的结构化数据的处理方法对其及进行处理,从而难以实现各种基于文本信息的任务的自动化解决。自然语言处理即是针对该问题而产生的技术,其致力于让计算机实现对自然语言的自动理解与处理。近年来基于互联网的消费者服务模式大量涌现,在很多行业都实现了对传统模式的颠覆式创新。例如基于互联网的购物服务、生活服务和出行服务等,均是这种服务模式的典型代表。而在这种服务模式中蕴含有大量的基于自然语言的自动化识别、分类、预测、检索等需求,本专利技术所要解决正是基于自然语言处理技术的服务自动化精准推送问题。一方面,现有的服务推送技术多为基于互联网用户行为记录、用户身份特征等信息的推送方法,基本没有基于自然语言文本的服务推送方法;另一方面,网络中的自然语言文本往往是反映用户需求的一种更为直接的信息,因此基于自然语言处理技术的服务自动推送方法是一项有迫切需求的技术方案。
技术实现思路
针对上述问题,本专利技术要解决的技术问题是提供一种高效、精准的互联网服务自动推送方法。为了解决上述技术问题,本专利技术所采用的技术方案为:一种基于自然语言处理技术的服务自动推送系统及方法,其特征如下。一种基于自然语言处理技术的服务自动推送系统包括以下模块:M1、词表维护模块,用于词表中词条的增删、去重、合并、替换等;M2、文本获取模块,用于获取和词表中词条相关的自然语言文本;M3、文本预处理模块,进行文本裁剪、生僻词替换、分词、关键词处理等;M4、模型模块,是该系统的核心算法模块,用来自动识别文本和关键词的匹配度,进而决定是否推送服务;M5、交互模块,用来和操作人员进行交互操作,主要包括参数设置、任务选择、请求帮助等功能;M6、存储模块,用来存储系统运行所需数据。作为本专利技术所述系统的一种改进,其模型模块通过循环神经网络(Recurrentneuralnetwork,RNN)或其改进结构对文本信息进行表征,将RNN的输出向量与词表中的关键词的词向量处理形成一个能够反映文本信息、关键词信息及其关系的高维实数向量,将该向量输入一个分类器模型进行分类。作为本专利技术所述系统的一种改进,其模型模块中RNN的输出向量与词表中的关键词词向量的处理方法可以为按元素求平均、按元素求和或者拼接。作为本专利技术所述系统的一种改进,其模型模块中的分类器模型为二类分类模型。一种基于自然语言处理技术的服务自动推送方法,该方法包括学习和使用两种模式。所述方法的学习模式包括以下步骤:S1、关键词表维护,根据需求维护一个关键词表;S2、文本数据获取,获取网络中和上述关键词相关的新闻文本,组成关键词-文本两要素的数据对;S3、数据标注,判断上述步骤所得到的文本的语义是否符合关键词语义,若符合则将该条文本标注为1,反之则标注为0,最后形成标签-关键词-文本三要素的数据对;S4、数据预处理,对上述数据对中的文本数据进行预处理,包括文本裁剪、分词、生僻词替换、关键词处理等;S5、数据集划分,将S4中得到的数据根据一定比例划分为训练集、验证集和测试集;S6、构建模型,并使用S5中得到的训练集和验证集进行模型训练和模型调整,直至模型在测试集上的性能达到一定要求则具备部署使用条件。所述方法的使用模式包括以下步骤:U1、实时获取关键词相关的新闻文本,组成关键词-文本两要素数据对;U2、利用学习模式得到的合格模型,自动计算U1所得到数据归为各标签类别的概率,若概率大于模型自动分类阈值,即判定该数据属于该标签类别,若各类标签概率小于模型自动分类阈值大于提请人工判别阈值,则提请人工专家判断,若小于提请人工专家判别阈值,则丢弃数据;U3、根据U2判断得出的结果,将数据作为已标注数据放入数据库中,用于模型训练;U4、根据U2得出的结果来决定是否推送相关的服务。作为本专利技术所述方法的一种改进,判别新闻文本所述类别标签的概率阈值取值(0.5,1)之间,阈值越大则准确度越高,故可根据对结果准确度需求的高低来确定阈值。本专利技术的有益效果在于:利用已经人工标注的新闻数据对,训练构建的神经网络模型;通过部署已经训练合格的神经网络模型,来自动判断实时产生的新闻数据对的所述标签。相较于已有方法,该方法能够利用自然语言文本信息来建模自动获知用户需求,避免了消费者手动查找服务和服务商被动等待消费者的弊端,极大地提高了消费者和服务的匹配效率。附图说明图1为本专利技术所述系统的结构框架图。图2为本专利技术所述方法两种模式下的流程图,其中左边虚线框内为学习模式流程图,右边虚线框内为使用模式流程图。具体实施方式为了能够更好地理解本专利技术的技术方案,下面结合附图及优选实施例对本专利技术做进一步详细的描述。如图1所示,在本专利技术一种基于自然语言处理技术的服务自动推送系统的实施例中,该系统包括以下模块:M1、词表维护模块,用于词表中词条的增删、去重、合并、替换等;M2、文本获取模块,用于获取和词表中词条相关的自然语言文本;M3、文本预处理模块,进行文本裁剪、生僻词替换、分词、关键词处理等;M4、模型模块,是该系统的核心算法模块,用来自动识别文本和关键词的匹配度,进而决定是否推送服务;M5、交互模块,用来和操作人员进行交互操作,主要包括参数设置、任务选择、请求帮助等功能;M6、存储模块,用来存储系统运行所需数据。具体地,本实施例中,词表维护模块可以手动增删、编辑关键词;交互模块可以指定文本获取量的大小,切换模型的使用模式,设置模型的训练参数,提请人工判别等。更佳地,所述系统的模型模块通过循环神经网络(Recurrentneuralnetwork,RNN)或其改进结构对文本信息进行表征,将RNN的输出向量与词表中的关键词的词向量处理形成一个能够反映文本信息、关键词信息及其关系的高维实数向量,将该向量输入一个分类器模型进行分类。具体地,本实施例中,选用512个单向LSTM(longshort-termmemory)构成一层网络,和关键词词向量拼接后连接到三层全连接神经网络,构成整个模型的架构。更佳地,所述系统的模型模块中RNN的输出向量与词表中的关键词词向量的处理方法可以为按元素求平均、按元素求和或者拼接。具体地,本实施例中的处理方法为拼接。更佳地,所述系统的模型模块中的分类器模型为二类分类模型。具体地,本实施例中的二分类模型为三层全连接神经网络,中间层神经元个数为10,输出层神经元个数为2。如图2所示,在本专利技术一种基于自然语言处理技术的服务自动推送方法的实施例中,包括学习和使用两种模式。所述方法的学习模式包括以下步骤:S1、关键词表维护,根据需求维护一个关键词表;S2、文本数据获取,获取网络中和上述关键词相关的新闻文本,组成关键词-文本两要素的数据对;S3、数据标注,判断上述步骤所得到的文本的语义是否符合关键词语义,若符合则将该条文本标注为1,反之则标注为0,最后形成标签-关键词-文本三要素的数据对;S4、数据预处理,对上述数据对中的文本数据进行预处理,包括文本裁剪、分词、生僻词替换、关键词处理等;S5、数据集划分,将S4中得到的数据本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理技术的服务自动推送系统及方法,其特征在于,该系统包括以下模块:M1、词表维护模块,用于词表中词条的增删、去重、合并、替换;M2、文本获取模块,用于获取和词表中词条相关的自然语言文本;M3、文本预处理模块,进行文本裁剪、生僻词替换、分词、关键词处理;M4、模型模块,是该系统的核心算法模块,用来自动识别文本和关键词的匹配度,进而决定是否推送服务;M5、交互模块,用来和操作人员进行交互操作,主要包括参数设置、任务选择、请求帮助等功能;M6、存储模块,用来存储系统运行所需数据。

【技术特征摘要】
1.一种基于自然语言处理技术的服务自动推送系统及方法,其特征在于,该系统包括以下模块:M1、词表维护模块,用于词表中词条的增删、去重、合并、替换;M2、文本获取模块,用于获取和词表中词条相关的自然语言文本;M3、文本预处理模块,进行文本裁剪、生僻词替换、分词、关键词处理;M4、模型模块,是该系统的核心算法模块,用来自动识别文本和关键词的匹配度,进而决定是否推送服务;M5、交互模块,用来和操作人员进行交互操作,主要包括参数设置、任务选择、请求帮助等功能;M6、存储模块,用来存储系统运行所需数据。2.根据权利要求1所述的系统,其特征在于:所述的模型模块通过循环神经网络(Recurrentneuralnetwork,RNN)或其改进结构对文本信息进行表征,将RNN的输出向量与词表中的关键词的词向量处理形成一个能够反映文本信息、关键词信息及其关系的高维实数向量,将该向量输入一个分类器模型进行分类。3.根据权利要求2所述的系统,其特征在于,所述RNN的输出向量与词表中的关键词词向量的处理方法可以为按元素求平均、按元素求和或者拼接。4.根据权利要求2所述的系统,其特征在于,所述分类器模型为二类分类模型。5.一种基于自然语言处理技术的服务自动推送方法,其特征在于,该方法包括学习和使用两种模式。6.根据权利要求5所述的方法,其特征在于,所述方法的学习模式包括以下步骤:S1、关键词表维护,根据需求维护一个关键词表...

【专利技术属性】
技术研发人员:高新瑞
申请(专利权)人:宇捷东方北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1