【技术实现步骤摘要】
一种语料信息的处理方法和装置
本申请实施例涉及信息处理领域,尤指一种语料信息的处理方法和装置。
技术介绍
语料模型可以划分为上游的语料处理以及下游的分析模型;其中,语料处理的对象是进过标注的语料,其中标注可以由人工进行标注,或者,采用语料模进行语料的标注。由于人工语料标注往往是耗时耗力的问题,所以常用的标注手段是语料模型。因为语料模型对训练集有着极大的依赖性,因此对于语言模型的训练不能抛开训练集的考虑。训练集的处理可以是将一个通用的训练充分的模型和一个特定的训练不充分的模型通过某种方式组合成一个新的模型。其中,训练通用模型需要针对多个领域搜集大量的语料并进行手工标注,其过程往往是无选择性且极耗精力以及财力的。在相关技术中,可以采用文本聚类的方式对语料进行分析,例如,采用K最近邻(KNN,K-NearestNeighbor)分类算法。KNN算法的核心策略是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。在实际应用中,发现上述分类算法 ...
【技术保护点】
1.一种语料信息的处理方法,包括:/n对获取到的语料进行多维的词向量的转换;/n通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度;/n按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;/n根据所述词向量的分布信息,控制对所述语料的标注操作。/n
【技术特征摘要】
1.一种语料信息的处理方法,包括:
对获取到的语料进行多维的词向量的转换;
通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度;
按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;
根据所述词向量的分布信息,控制对所述语料的标注操作。
2.根据权利要求1所述的方法,其特征在于,所述损失信息是通过预先获取的双内积PIP损失函数确定的,其中PIP损失的计算表达式如下,包括:
f(x,y)=‖xxT-yyT‖
其中,y=xU,UUT=UTU=I;
其中,x为给定数据训练的词向量,y为理想下的词向量,U为矩阵,I为单位矩阵;
其中,
其中,d为理想情况下的维度,k是实际选择的维度,α由词向量方法决定的,λ为M的奇异值,共现矩阵为其中矩阵Z的奇异值独立同分布,均值为0,方差为σ,共现矩阵M为glove之后的词向量矩阵。
3.根据权利要求1所述的方法,其特征在于,所述按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息,包括:
获取基于广义双曲分布的模型;
利用基于广义双曲分布的模型对词向量的特征维度进行聚类分析,得到以密度信息进行标记的词向量的分布信息。
4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述词向量的分布信息,控制对所述语料的标注操作,包括:
根据所述词向量分布信息,选择密度最高的N处的词向量作为第一轮标注操作对象,其中N为正整数;
在得到第一轮标注操作的结果后,控制预先设置的深度学习模型根据第一轮标注操作的操作结果执行半监督学习,得到深度学习模型对词向量的标注结果;
根据所述深度学习模型对词向量的标注结果,对词向量进行聚类分析,得到新的分布信息;
选择所述新的分布信息中符合边界点的判断条件的词向量作为第二轮标注操作对象;
在得到第二轮标注操作的结果,控制预先设置的深度学习模型根据第二轮标注操作的操作结果执行半监督学习,得到预测的语料标签。
5.一种语料信息的处理装置,包括:
获取模块,被设置为对获取到的语料进行多维的词向量的转换;
确定模块,被设置为通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度;
聚类模块...
【专利技术属性】
技术研发人员:王璋琪,卢亿雷,
申请(专利权)人:恩亿科北京数据科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。