一种文本属性的划分方法、装置、服务器和存储介质制造方法及图纸

技术编号:17879050 阅读:2 留言:0更新日期:2018-05-06 00:50
本发明专利技术实施例公开了一种文本属性的划分方法、装置、服务器和存储介质。所述方法包括:将文本数据转化为矢量数据;将所述矢量数据作为预先基于深度神经网络构建的分类模型的输入,并将所述分类模型中特征转化部分的输出作为所述文本数据对应的特征数据,其中所述分类模型还包括特征重构部分,所述特征转化部分用于从矢量数据中抽象得到特征数据,所述特征重构部分用于将特征数据经过重构得到矢量数据;对所述文本数据对应的特征数据进行聚类,并依据聚类结果对所述文本数据进行属性划分。本发明专利技术实施例的技术方案可以基于文本数据自身的特征对文本属性进行自动划分,提高了效率。

A text attribute partition method, device, server and storage medium

The embodiment of the invention discloses a method for dividing text attributes, a device, a server and a storage medium. The method includes: converting the text data into vector data, using the vector data as the input of a classification model built in advance based on the deep neural network, and taking the output of the feature transformation part of the classified model as the characteristic data corresponding to the text data, and the classification model in it also includes the feature reconstruction. In part, the feature conversion section is used to abstract feature data from the vector data, which is used for reconstructing the feature data to get vector data, clustering the characteristic data corresponding to the text data, and dividing the attributes of the text data according to the clustering results. The technical proposal of the embodiment of the invention can automatically partition the text property based on the characteristics of the text data and improve the efficiency.

【技术实现步骤摘要】
一种文本属性的划分方法、装置、服务器和存储介质
本专利技术实施例涉及计算机
,尤其涉及一种文本属性的划分方法、装置、服务器和存储介质。
技术介绍
随着深度学习技术的快速发展,深度学习算法已经被广泛应用到文本识别领域。例如从文本集合中自动识别“车牌号”、“身份证号”、“银行卡号”、“电话号码”等特定应用。然而,这些应用基本上都属于封闭式问题,即首先限定一个目标分类的具体范围,在已经知道目标分类都具备什么样的显性特征前提下,通过有监督的训练和预测,判断新的文本数据属于哪一种属性分类。但是,随着互联网的高速发展,各种新型的文本数据层出不穷。在互联网文本中,可能随时会出现新的属性类型,这些新属性对于用户信息的挖掘应用十分重要,但却无法被封闭式的文本识别方法提取出来,造成信息的流失和浪费。例如,如果一个系统只能够识别“车牌号”和“手机号”两种文本属性,当出现新的文本类型如“手机识别码”时,该系统将被迫将其以较低的置信度划分为“车牌号”或“手机号”,而无法给出额外的新属性划分。要想解决这一问题,现有技术通常采用人工的方式,即根据人的经验判断,不定期的对文本识别的属性集合进行扩充和变更,并为新属性创建标注数据集。这种方式效率低下,会带来大量的人力浪费。
技术实现思路
本专利技术实施例提供一种文本属性的划分方法、装置、服务器和存储介质,可以基于文本数据自身的特征对文本属性进行自动划分,提高了效率。第一方面,本专利技术实施例提供了一种文本属性的划分方法,包括:将文本数据转化为矢量数据;将所述矢量数据作为预先基于深度神经网络构建的分类模型的输入,并将所述分类模型中特征转化部分的输出作为所述文本数据对应的特征数据,其中所述分类模型还包括特征重构部分,所述特征转化部分用于从矢量数据中抽象得到特征数据,所述特征重构部分用于将特征数据经过重构得到矢量数据;对所述文本数据对应的特征数据进行聚类,并依据聚类结果对所述文本数据进行属性划分。第二方面,本专利技术实施例还提供了一种文本属性的划分装置,该装置包括:矢量数据模块,用于将文本数据转化为矢量数据;特征转化模块,用于将所述矢量数据作为预先基于深度神经网络构建的分类模型的输入,并将所述分类模型中特征转化部分的输出作为所述文本数据对应的特征数据,其中所述分类模型还包括特征重构部分,所述特征转化部分用于从矢量数据中抽象得到特征数据,所述特征重构部分用于将特征数据经过重构得到矢量数据;属性划分模块,用于对所述文本数据对应的特征数据进行聚类,并依据聚类结果对所述文本数据进行属性划分。第三方面,本专利技术实施例还提供了一种服务器,所述服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的文本属性的划分方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本属性的划分方法。本专利技术实施例通过将文本数据转化为矢量数据,将所述矢量数据作为预先基于深度神经网络构建的分类模型的输入,并将所述分类模型中特征转化部分的输出作为所述文本数据对应的特征数据,对所述文本数据对应的特征数据进行聚类,并依据聚类结果对所述文本数据进行属性划分。本专利技术实施例的技术方案可以基于文本数据自身的特征对文本属性进行自动划分,提高了效率,还通过特征重构部分对分类模型的参数进行训练,减小了属性划分的误差。附图说明图1为本专利技术实施例一中的文本属性的划分方法的流程图;图2为本专利技术实施例二中的文本属性的划分方法的流程图;图3为本专利技术实施例三中的文本属性的划分装置的结构示意图;图4为本专利技术实施例四中的服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一中的文本属性的划分方法的流程图,本实施例可适用于文本划分的情况,该方法可以由文本属性的划分装置来执行,该装置可以采用软件和/或硬件的方式实现,例如,该装置可配置于服务器中。如图1所示,该方法具体可以包括:步骤110、将文本数据转化为矢量数据。在本实施例中,所述文本数据可以为从互联网中获取的非结构化短文本数据集合,或者对长文本进行分词后得到的短文本片段集合数据。具体的,文本数据转化为矢量数据的具体过程可以为:将所有的短文本进行去重后,对每一条短文本中的每个字符之间用空格分开,作为语料库。采用CBOW或Skip-gram算法进行训练,从而将每一个字符转化为一个k维的矢量(k可根据实际应用情况设定),并采用归一化函数统一将各个字符在k维空间中的坐标调整到0至1之间。随后,对每一条文本截取前s个字符的k维向量,不足s个字符的用k维的零向量填充。最终,所有的短文本都将被转化为一个s×k的二维矩阵。步骤120、将所述矢量数据作为预先基于深度神经网络构建的分类模型的输入,并将所述分类模型中特征转化部分的输出作为所述文本数据对应的特征数据,其中所述分类模型还包括特征重构部分,所述特征转化部分用于从矢量数据中抽象得到特征数据,所述特征重构部分用于将特征数据经过重构得到矢量数据。其中,所述分类模型可以基于深度神经网络构建,所述分类模型可以包括特征转化部分和特征重构部分,可选的,所述特征转化部分依次包括输入层、卷积层、池化层和长短期记忆网络层,所述特征重构部分依次包括重复层、长短期记忆网络层、上采样层和卷积层。其中,所述长短期记忆网络层可以采用其他类型的循环层来替代。并且,所述特征转化部分用于从矢量数据中抽象得到特征数据,所述特征重构部分用于将特征数据经过重构得到矢量数据。所述特征数据不受既有的文本属性类型的限制。具体的,可以将步骤110中的矢量数据作为预先构建的分类模型的输入,基于深度神经网络对所述分类模型中的特征转化部分和特征重构部分的参数进行训练,直到所述特征重构部分的输出与输入满足迭代停止条件为止,取特征转化部分的输出作为所述文本数据对应的特征数据。其中,所述迭代停止条件可以为所述特征重构部分的输出和特征转化部分的输入(矢量数据)无限趋于接近。在分类模型训练时,矢量化的文本数据既可以作为输入数据,也可以作为监督标注,因此构成了没有外部标注情况下的自监督学习。步骤130、对所述文本数据对应的特征数据进行聚类,并依据聚类结果对所述文本数据进行属性划分。具体的,对于非结构化文本数据对应的特征数据,可以根据所述非结构化文本数据的特征数据在特征空间内的k维均方标准差σ的大小确定聚类的簇个数,簇个数c=f(σ,p),f为根据σ计算c的函数,p为调整参数。函数f的形式可以采用线性函数、对数函数和指数函数等多种形式。根据c的大小,利用K-Means算法,可以在特征空间内对特征数据进行无监督聚类,将特征数据聚为c个簇。按照聚类的簇标号,可以对原始的短文本数据进行标注,实现对文本数据的属性划分。结果可以通过表格和/或图进行展现,并可以由人工对各个簇的真实含义以及是否为新发现的属性进行最终确认。本实施例通过将文本数据转化为矢量数据,将所述矢量数据作为预先基于深度神经网络本文档来自技高网...
一种文本属性的划分方法、装置、服务器和存储介质

【技术保护点】
一种文本属性的划分方法,其特征在于,包括:将文本数据转化为矢量数据;将所述矢量数据作为预先基于深度神经网络构建的分类模型的输入,并将所述分类模型中特征转化部分的输出作为所述文本数据对应的特征数据,其中所述分类模型还包括特征重构部分,所述特征转化部分用于从矢量数据中抽象得到特征数据,所述特征重构部分用于将特征数据经过重构得到矢量数据;对所述文本数据对应的特征数据进行聚类,并依据聚类结果对所述文本数据进行属性划分。

【技术特征摘要】
1.一种文本属性的划分方法,其特征在于,包括:将文本数据转化为矢量数据;将所述矢量数据作为预先基于深度神经网络构建的分类模型的输入,并将所述分类模型中特征转化部分的输出作为所述文本数据对应的特征数据,其中所述分类模型还包括特征重构部分,所述特征转化部分用于从矢量数据中抽象得到特征数据,所述特征重构部分用于将特征数据经过重构得到矢量数据;对所述文本数据对应的特征数据进行聚类,并依据聚类结果对所述文本数据进行属性划分。2.根据权利要求1所述的方法,其特征在于,所述将文本数据转化为矢量数据,包括:将结构化文本数据整理为无字段标签和有字段标签两种格式的数据;对无字段标签格式的数据进行字符分离操作,将得到的字符作为语料库;依据所述语料库将有字段标签格式的数据转化为矢量数据。3.根据权利要求1所述的方法,其特征在于,分类模型的构建包括:将文本数据对应的矢量数据作为输入,基于深度神经网络对所述分类模型中的特征转化部分和特征重构部分的参数进行训练,直到所述特征重构部分的输出与输入满足迭代停止条件为止。4.根据权利要求1所述的方法,其特征在于,所述特征转化部分依次包括输入层、卷积层、池化层和长短期记忆网络层;所述特征重构部分依次包括重复层、长短期记忆网络层、上采样层和卷积层。5.根据权利要求1所述的方法,其特征在于,所述对所述文本数据对应的特征数据进行聚类,包括:对于结构化文本数据对应的特征数据,根据所述结构化文本数据对应的特征数据在特征空间的分布特性将所述结构化文本数据对应的特征数据分为干净数据和混杂数据;将所述干净数据作为一个簇;根据所述混杂数据在特征空间的方差大小确定混杂数据的簇的个数,并根据混杂数据的簇的个数对所述混杂数据...

【专利技术属性】
技术研发人员:谢永恒冯宇波火一莽董清风万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1