The invention discloses a corpus processing method and a device. Among them, the method includes: the data is divided into a plurality of word fragments; determine the location information of each word fragment multiple words fragment in the vector space; clustering objects, each word fragment corresponding statistics were determined according to the location information of the object in the vector space, clustering of each word corresponds to the distance between the fragments the distance is less than or equal to the threshold value; based on the statistical results of clustering objects, the maximum value of the statistical clustering object corresponding words fragment location as the data center. The invention solves the technical problems of inaccurate calculation results of long word centers caused by uneven distribution of short words in related technologies.
【技术实现步骤摘要】
语料处理方法及装置
本专利技术涉及自然语言处理领域,具体而言,涉及一种语料处理方法及装置。
技术介绍
Kmeans算法是自然语言处理领域中经典的基于划分的聚类算法。在Kmeans算法中,对长词聚类时,需要先将长词分成几个有实际含义的短词,再用短词来计算长词的中心。在相关技术中,为了通过所有短词算出长词的中心,需要将所有短词对应维度向量的坐标加和取平均值,得到长词对应的维度向量的坐标,依次计算加和取平均值就可以得到长词所有维度向量的坐标。比如,长词:ABCDEFG,对该长词进行分词处理,得到各短词为:ABC,DE,FG,它们对应的维度向量分别为:V(ABC),V(DE),V(FG),经汇总计算,得到长词的维度向量为:(V(ABC)+V(DE)+V(FG))/3。但是,上述方案存在缺陷,例如,在所有短词在空间中不是均匀分布的,即分布区域的密度变化很大时,加和求平均值就不能精准的算出长词的中心。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语料处理方法及装置,以至少解决相关技术中由于短词分布不均匀造成的长词中心的计算结果不精确的技术问题。根据本专利技术实施例的一个方面,提供了一种语料处理方法,包括:将语料划分为多个词语片段;确定上述多个词语片段中每个词语片段在向量空间的位置信息;根据确定的位置信息分别统计上述每个词语片段对应的聚类对象,其中,在向量空间中,上述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值;根据聚类对象统计结果,将最大聚类对象统计值对应的词语片段的位置作为上述语料的中心。进一步地,将语料划分为多个词语片 ...
【技术保护点】
一种语料处理方法,其特征在于,包括:将语料划分为多个词语片段;确定所述多个词语片段中每个词语片段在向量空间的位置信息;根据确定的位置信息分别统计所述每个词语片段对应的聚类对象,其中,在向量空间中,所述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值;根据聚类对象统计结果,将最大聚类对象统计值对应的词语片段的位置作为所述语料的中心。
【技术特征摘要】
1.一种语料处理方法,其特征在于,包括:将语料划分为多个词语片段;确定所述多个词语片段中每个词语片段在向量空间的位置信息;根据确定的位置信息分别统计所述每个词语片段对应的聚类对象,其中,在向量空间中,所述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值;根据聚类对象统计结果,将最大聚类对象统计值对应的词语片段的位置作为所述语料的中心。2.根据权利要求1所述的方法,其特征在于,将语料划分为多个词语片段包括:判断所述语料中是否包含多个具有实际语义的词语片段;在判断结果为所述语料中包含所述多个具有实际语义的词语片段的情况下,按语义将所述语料划分为所述多个词语片段。3.根据权利要求2所述的方法,其特征在于,判断所述语料中是否包含多个具有实际语义的词语片段包括:将所述语料与预设词典中的词语进行匹配,其中,所述预设词典中的词语为在语义上不能划分的最小语料单位;在所述语料与所述预设词典中的词语匹配失败的情况下,确定所述语料中包含所述多个具有实际语义的词语片段。4.根据权利要求1或2所述的方法,其特征在于,将所述语料划分为所述多个词语片段之前,所述方法还包括:对所述语料进行预处理,除去所述语料中没有实际语义的词或词语。5.根据权利要求1所述的方法,其特征在于,确定所述多个词语片段中每个词语片段在向量空间的位置信息包括:将所述多个词语片段中每个词语片段与预设词典中的词语进行匹配,找出所述每个词语片段的坐标数据,其中,所述预设词典中的词语为在语义上不能划分的最小语料单位;将找出的坐标数据作为所述每个词语片段在向量空间的位置信息。6.一种语料处理装置,其特征在于,包括:划分单元...
【专利技术属性】
技术研发人员:赵凯,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。