The embodiment of the application provides a method and apparatus for data processing, the method to describe the information of the object in the acquisition, according to the pre stored in the server of each standard word will describe information that matches the standard of the word segmentation as the candidate words of the object, and through the discrimination rules of presupposition sure, a feature of the object from the candidate words, and then extract the corresponding feature data, the data processing related work. In the method, even if the description information for users to fill in error, then the candidate words in the server may be a candidate word wrong, but by some discriminant rules, can be determined from the candidate word feature words, therefore, compared with the existing technology, can effectively improve the server of feature words the recognition accuracy, and improve the accuracy of data processing.
【技术实现步骤摘要】
一种数据处理的方法及装置
本申请涉及计算机
,尤其涉及一种数据处理的方法及装置。
技术介绍
随着计算机技术的飞速发展,服务器对数据信息的处理能力已变得愈加的成熟,使得人们可通过服务器方便完成数据存储、数据调取、数据分型等数据处理工作,极大的提高了人们在进行数据处理工作时的工作效率,节省了工作时间。在实际应用中,人们有时需要对一些对象的数据信息进行处理,而人们在对数据信息进行处理之前,通常需要通过服务器来对各对象的数据信息进行归一化处理,即,将同一对象在不同使用场景中的各数据信息进行汇总,然后,服务器再根据汇总后得到的数据信息来确定出该对象的分析数据,进而,供人们对其进行处理。服务器在对各对象的数据信息进行归一化处理时,通常需要从各对象的描述信息(描述对象具体特征的信息)中提取特征词,进而基于特征词,来对同一对象在不同使用场景中的各数据信息进行汇总。现有技术中基于特征词进行数据处理的方法为,服务器在获取到对象的描述信息后,将该描述信息拆分成若干个分词,并将各个分词与预先建立的特征库中存储的特征词进行匹配,当对象的描述信息中的某个分词与特征库中存储的特征词相匹配时,则将该分词确定为该对象的特征词。通过此种方法,服务器在确定出各对象的特征词后,可将同一特征词对应的数据信息进行汇总,从而确定出各对象的分析数据。然而,在现有技术中,对象的描述信息通常都是由用户自行填写的,由于受主观因素的影响,用户所填写的各对象的描述信息可能并不准确,这就导致后续服务器不能准确的确定出对象的特征词,进而导致数据处理的准确性较低。
技术实现思路
本申请实施例提供一种数据处理方法及装置 ...
【技术保护点】
一种数据处理的方法,其特征在于,包括:服务器获取对象的描述信息;根据预先保存的各标准词,确定所述描述信息中与标准词相匹配的各分词,作为所述对象的各候选词;根据预设的判别规则,从各候选词中确定出所述对象的特征词;根据确定出的所述特征词,提取所述特征词对应的数据,并对提取的数据进行处理。
【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:服务器获取对象的描述信息;根据预先保存的各标准词,确定所述描述信息中与标准词相匹配的各分词,作为所述对象的各候选词;根据预设的判别规则,从各候选词中确定出所述对象的特征词;根据确定出的所述特征词,提取所述特征词对应的数据,并对提取的数据进行处理。2.如权利要求1所述的方法,其特征在于,根据预设的判别规则,从各候选词中确定出所述对象的特征词,具体包括:根据提取出的各候选词以及预设的分类模型,确定所述对象所属的对象类别;从预设的各判别规则中,选择与所述对象类别对应的判别规则;根据选择出的判别规则,从各候选词中确定出所述对象的特征词。3.如权利要求2所述的方法,其特征在于,预设分类模型,具体包括:根据各样本对象的描述信息中的候选词以及各样本对象所属的对象类别,训练得到分类模型。4.如权利要求1所述的方法,其特征在于,根据预设的判别规则,从各候选词中确定出所述对象的特征词,具体包括:根据预设的标准特征词形式,从各候选词中,筛选出符合所述标准特征词形式的候选词,作为所述对象的特征词。5.如权利要求1所述的方法,其特征在于,所述对象包括商品;所述描述信息包括商品的描述信息;所述特征词包括商品型号词;提取所述特征词对应的数据,具体包括:提取所述特征词对应的...
【专利技术属性】
技术研发人员:肖汉平,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。