一种数据处理的方法及装置制造方法及图纸

技术编号:15910753 阅读:21 留言:0更新日期:2017-08-01 22:28
本申请实施例提供一种数据处理的方法及装置,该方法在获取到对象的描述信息后,可根据服务器中预先保存的各标准词,将描述信息中与各标准词相匹配的各分词作为该对象的各候选词,并通过预设的判别规则,从各候选词中确定出该对象的特征词,进而提取出该特征词所对应的数据,进行该数据的相关处理工作。在上述方法中,即使用户填写的描述信息错误,那么服务器得到的候选词中有可能会出现错误的候选词,但通过一定的判别规则,仍可从各候选词中确定出特征词,因此,与现有技术相比,可有效的提高服务器对特征词进行识别的准确度,进而提高数据处理的准确性。

Method and device for data processing

The embodiment of the application provides a method and apparatus for data processing, the method to describe the information of the object in the acquisition, according to the pre stored in the server of each standard word will describe information that matches the standard of the word segmentation as the candidate words of the object, and through the discrimination rules of presupposition sure, a feature of the object from the candidate words, and then extract the corresponding feature data, the data processing related work. In the method, even if the description information for users to fill in error, then the candidate words in the server may be a candidate word wrong, but by some discriminant rules, can be determined from the candidate word feature words, therefore, compared with the existing technology, can effectively improve the server of feature words the recognition accuracy, and improve the accuracy of data processing.

【技术实现步骤摘要】
一种数据处理的方法及装置
本申请涉及计算机
,尤其涉及一种数据处理的方法及装置。
技术介绍
随着计算机技术的飞速发展,服务器对数据信息的处理能力已变得愈加的成熟,使得人们可通过服务器方便完成数据存储、数据调取、数据分型等数据处理工作,极大的提高了人们在进行数据处理工作时的工作效率,节省了工作时间。在实际应用中,人们有时需要对一些对象的数据信息进行处理,而人们在对数据信息进行处理之前,通常需要通过服务器来对各对象的数据信息进行归一化处理,即,将同一对象在不同使用场景中的各数据信息进行汇总,然后,服务器再根据汇总后得到的数据信息来确定出该对象的分析数据,进而,供人们对其进行处理。服务器在对各对象的数据信息进行归一化处理时,通常需要从各对象的描述信息(描述对象具体特征的信息)中提取特征词,进而基于特征词,来对同一对象在不同使用场景中的各数据信息进行汇总。现有技术中基于特征词进行数据处理的方法为,服务器在获取到对象的描述信息后,将该描述信息拆分成若干个分词,并将各个分词与预先建立的特征库中存储的特征词进行匹配,当对象的描述信息中的某个分词与特征库中存储的特征词相匹配时,则将该分词确定为该对象的特征词。通过此种方法,服务器在确定出各对象的特征词后,可将同一特征词对应的数据信息进行汇总,从而确定出各对象的分析数据。然而,在现有技术中,对象的描述信息通常都是由用户自行填写的,由于受主观因素的影响,用户所填写的各对象的描述信息可能并不准确,这就导致后续服务器不能准确的确定出对象的特征词,进而导致数据处理的准确性较低。
技术实现思路
本申请实施例提供一种数据处理方法及装置,用以解决现有技术中数据处理准确性较低的问题。本申请实施例提供的一种数据处理的方法,包括:服务器获取对象的描述信息;根据预先保存的各标准词,确定所述描述信息中与标准词相匹配的各分词,作为所述对象的各候选词;根据预设的判别规则,从各候选词中确定出所述对象的特征词;根据确定出的所述特征词,提取所述特征词对应的数据,并对提取的数据进行处理。本申请实施例提供的一种数据处理的装置,包括:获取模块,用于获取对象的描述信息;确定分词模块,用于根据预先保存的各标准词,确定所述描述信息中与标准词相匹配的各分词,作为所述对象的各候选词;确定特征模块,用于根据预设的判别规则,从各候选词中确定出所述对象的特征词;提取模块,用于根据确定出的所述特征词,提取所述特征词对应的数据,并对提取的数据进行处理。本申请实施例提供一种数据处理的方法及装置,该方法在获取到对象的描述信息后,可根据服务器中预先保存的各标准词,将描述信息中与各标准词相匹配的各分词作为该对象的各候选词,并通过预设的判别规则,从各候选词中确定出该对象的特征词,进而提取出该特征词所对应的数据,进行该数据的相关处理工作。在上述方法中,即使用户填写的描述信息错误,那么服务器得到的候选词中有可能会出现错误的候选词,但通过一定的判别规则,仍可从各候选词中确定出特征词,因此,与现有技术相比,可有效的提高服务器对特征词进行识别的准确度,进而提高数据处理的准确性。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的数据处理的过程;图2为本申请实施例提供的数据处理装置的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请实施例提供的数据处理的过程,具体包括以下步骤:S101:服务器获取对象的描述信息。在实际应用中,服务器有时需要对一些对象的数据信息进行汇总,并对汇总后的数据信息进行处理,其中,该对象可以是商品、个人、实验物品等,而服务器在获取这些对象的数据信息之前,需要先确定出该对象的特征词,进而基于该特征词,来对该对象的相关数据进行汇总。通常情况下,各对象的特征词都位于每个对象的描述信息中,因此,服务器在确定出各对象的特征词之前,首先应获取各对象的描述信息,进而通过后续步骤S102~S103,来对该对象的特征词进行提取。通常情况下,对象的描述信息都是由用户根据实际的情况自行进行填写的,因此,用户在填写完各对象的描述信息后,可将各描述信息发送至服务器中,继而使得服务器可获取到各对象的描述信息,而除此之外,服务器也可自行来获取各对象的描述信息,即,服务器可通过扫描各用户在一些诸如商家店铺、社交网站或科学论坛等场景中所展示的各对象的描述信息,来获取到各对象的描述信息。S102:根据预先保存的各标准词,确定所述描述信息中与标准词相匹配的各分词,作为所述对象的各候选词。服务器在获取到各对象的描述信息后,可根据服务器中预先保存的各标准词,判断出各对象的描述信息中,有哪些词可能会是对象的特征词,其中,当描述信息存在与标准词相匹配的分词时,可将该分词作为对象的一个候选词进行提取。具体的,在实际应用中,服务器在获取到各对象的描述信息后,由于不确定描述信息中哪个词是真正的对象的特征词,则服务器需要先在描述信息中选出最有可能是对象特征词的若干个分词作为对象的候选词,而后再在这些候选词中进一步的确定出对象真正的特征词。因此,服务器可根据预先保存的各标准词,来确定出对象的特征词,其中,各标准词是由服务器预先收集大量样本对象的描述信息中的候选词来得到的,并且,各标准词都是具有一定特征的,服务器在确定对象的候选词时,可将预先保存的各标准词依次与描述信息中的各分词进行匹配,当描述信息中一个或几个分词与服务器预先保存的各标准词中的一个或几个相匹配时,则将这一个或几个分词作为对象的候选词,并对其进行提取。例如,假设某网络论坛要评选出在自由讨论区中用户最感兴趣的讨论话题时,需要汇总各用户在该网络论坛中的数据信息,因此,服务器需要对用户的描述信息进行提取,来确定出各用户的候选词,其中,用户A的描述信息为姓名XXX、年龄23、兴趣话题Game、账号名称picture001,服务器在将该描述信息与预先保存的各标准词进行匹配时,发现描述信息中的23、Game、picture001这几个分词与保存的标准词相匹配,则服务器可将这几个分词作为该用户A的候选词。需要说明的是,服务器中也可设置一个专门用于存储各标准词的标准库,使得服务器在获取到各对象的描述信息后,可从该标准库中调取其预先存储的各标准词,再将各标准词与该描述信息中的各分词进行匹配,确定出各候选词,或是服务器在获取到各对象的描述信息后,可将该描述信息在转发至服务器中设置的标准库中,由标准库去对描述信息中的各分词进行匹配,在将匹配得到的各候选词返回给服务器,进而使服务器确定出各候选词。S103:根据预设的判别规则,从各候选词中确定出所述对象的特征词。服务器在确定出各候选词后,可按照预先设置的判别规则,依次判别各候选词是否为符合对象特征词的形式,并将符合该形式的候选词作为该对象的特征本文档来自技高网...
一种数据处理的方法及装置

【技术保护点】
一种数据处理的方法,其特征在于,包括:服务器获取对象的描述信息;根据预先保存的各标准词,确定所述描述信息中与标准词相匹配的各分词,作为所述对象的各候选词;根据预设的判别规则,从各候选词中确定出所述对象的特征词;根据确定出的所述特征词,提取所述特征词对应的数据,并对提取的数据进行处理。

【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:服务器获取对象的描述信息;根据预先保存的各标准词,确定所述描述信息中与标准词相匹配的各分词,作为所述对象的各候选词;根据预设的判别规则,从各候选词中确定出所述对象的特征词;根据确定出的所述特征词,提取所述特征词对应的数据,并对提取的数据进行处理。2.如权利要求1所述的方法,其特征在于,根据预设的判别规则,从各候选词中确定出所述对象的特征词,具体包括:根据提取出的各候选词以及预设的分类模型,确定所述对象所属的对象类别;从预设的各判别规则中,选择与所述对象类别对应的判别规则;根据选择出的判别规则,从各候选词中确定出所述对象的特征词。3.如权利要求2所述的方法,其特征在于,预设分类模型,具体包括:根据各样本对象的描述信息中的候选词以及各样本对象所属的对象类别,训练得到分类模型。4.如权利要求1所述的方法,其特征在于,根据预设的判别规则,从各候选词中确定出所述对象的特征词,具体包括:根据预设的标准特征词形式,从各候选词中,筛选出符合所述标准特征词形式的候选词,作为所述对象的特征词。5.如权利要求1所述的方法,其特征在于,所述对象包括商品;所述描述信息包括商品的描述信息;所述特征词包括商品型号词;提取所述特征词对应的数据,具体包括:提取所述特征词对应的...

【专利技术属性】
技术研发人员:肖汉平
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1