一种名称数据库创建方法及装置制造方法及图纸

技术编号:17363661 阅读:47 留言:0更新日期:2018-02-28 13:43
本发明专利技术公开了一种名称数据库创建方法及装置,属于计算机通信技术领域。所述方法包括:对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据,其中,所述多个名称数据用于描述同一个对象,n大于或者等于m;分别计算所述m个名称数据的综合流行指数;根据所述综合流行指数,对名称数据进行过滤处理,获得对象的标准名称数据。本发明专利技术通过提供一种名称数据库创建方法及装置,减少了原有名称库的冗余数据,使现有的名称数据较为精简,并且从生活习惯等多个方面对名称数据进行适应性的处理,满足现有用户对信息数据的需求,可广泛用于涉及信息提供、信息服务、搜索、查询在内的多种领域。

A method and device for creating a name database

The invention discloses a method and device for creating a name database, which belongs to the field of computer communication technology. The method includes: n data to the database name name of the redundant processing, to obtain m name data, wherein the plurality of data name used to describe the same object, n is greater than or equal to m; respectively calculate the comprehensive fashion m names data index; according to the comprehensive fashion the name index, data filtering, to obtain the standard name data object. The present invention provides a method and a device for creating database name, reduce the redundant data of the original name database, the name of the existing data more streamlined, and from many aspects of life habits on the name of the data for adaptive processing, to meet user demand for existing information data, which can be widely used in various fields of information provided and information services, including search and query.

【技术实现步骤摘要】
一种名称数据库创建方法及装置
本专利技术涉及计算机通信
,特别涉及一种名称数据库创建方法及装置。
技术介绍
随着信息网络的普及,人们的日常生活越来越与网络密不可分,很明显的一块是人们对于信息的获取很大程度上是通过网络,因此如何让较短时间内使用户获取更多有效信息是对大数据时代相关技术人员的考验。日常生活所需信息涉及吃、穿、住、行的方方面面,然而尽管网络带给人们获取信息的便利,同时来自不同渠道的繁芜庞杂的信息也会让人望而却步。拿食品领域来举例,目前食品中文命名非常混乱,要得到一个标准的食品中文名称库比较困难。一方面,食品名称五花八门,同样的食品可能拥有多种不同的叫法,即:“同物异名”现象。例如食品“山楂卷”可以被称作“果丹皮”,食品“生鱼片”可以被称作“刺身”。另一方面,多数食品是常见的,大家都熟悉;同样也存在一些食品相对罕见,只有小众群体熟知。然而,一个食品中文名称库要能适应目前信息时代的发展需要,首先需要做好标准化的工作。标准的食品名称库应该能够避免出现“同物异名”现象,而且应该能提供食品受欢迎程度,即:食品的流行指数,以方便数据分析人员进行清洗。况且,对于注重生活品质的当代人来说,健康饮食监控、烹饪、食品推荐系统等研究备受关注。在各种食品相关的研究中,创建一个标准食品名称库是很有价值的。在美食菜谱分享网站或美食点评网站中,标准的食品名称库更有利于精准统计分析;在食品识别研究中,收集食品数据集是十分重要的,而收集食品数据集更需要标准的食品名称库支撑。然而,对于种类数量较多(例如1000类以上)的食品集合,通过人工清洗实现食品名称数据库标准化显然是不现实的。而目前还不存在公开的有效的方法,可以满足上述标准化要求。事实上,不仅仅是食品领域的名称库存在以上问题,其他一些领域同样也存在类似问题,使得人们在通过网络利用或获取所需信息时存在极大的不便。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种名称数据库创建方法及装置。所述技术方案如下:第一方面,提供了一种名称数据库创建方法,所述方法包括:对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据,其中,所述多个名称数据用于描述同一个对象,n大于或者等于m;分别计算所述m个名称数据的综合流行指数;根据所述综合流行指数,对名称数据进行过滤处理,获得对象的标准名称数据。结合第一方面,在第一种可能实现方式中,所述对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据包括:创建所述n个名称数据对应的多维向量函数;所述多维向量包括所述n个名称数据;对所述多维向量进行降维处理,去除冗余的名称特征信息数据;对所述降维处理的结果进行聚类,去除相似或冗余的名称数据;获取所述m个名称数据。结合第一方面或第一方面的第一种可能实现方式,在第二、三种可能实现方式中,所述分别计算所述m个名称数据的综合流行指数包括:获取与所述名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度;分别计算与所述名称常见度对应的第一流行指数、与所述名称长度因子对应的第二流行指数以及与所述名称相关元素常见度对应的第三流行指数;根据所述第一流行指数、所述第二流行指数以及所述第三流行指数,计算所述名称数据的综合流行指数。结合第一方面的第二、三种可能实现方式,在第四、五种可能实现方式中,所述获取与所述名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度包括:根据所述名称数据在所述名称数据库的出现频率,计算所述名称常见度;根据预设阈值,计算所述名称长度因子;根据预设规则,计算所述名称相关元素常见度。结合第一方面,在第六种可能实现方式中,所述根据所述综合流行指数,对名称数据进行过滤处理,获得所述对象的标准名称数据包括:对所述m个名称数据的综合流行指数进行排序,获得排序结果;根据所述排序结果,获取所述对象的标准名称数据。结合第一方面的第六种可能实现方式,在第七种可能实现方式中,所述对名称的综合流行指数进行排序处理,获得排序结果还包括:根据位置信息,对所述m个名称数据的综合流行指数进行排序,获得与多个位置信息分别对应的多个排序结果;根据所述多个排序结果,获取与所述位置信息对应的所述对象的标准名称数据。结合第一方面的第七可能实现方式,在第八可能实现方式中,所述方法还包括:获取用户发起的对象名称查询请求,所述对象名称查询请求至少包括所述对象的多个名称数据中的至少一个以及用户所在地的位置信息;获取与所述位置信息对应的所述对象的标准名称数据,并向用户反馈所述对象的标准名称数据。第二方面,提供了一种名称数据库创建装置,所述装置包括:去冗余处理模块,用于对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据,其中,所述多个名称数据用于描述同一个对象,n大于或者等于m;计算模块,用于分别计算所述m个名称数据的综合流行指数;过滤处理模块,用于根据所述综合流行指数,对名称数据进行过滤处理,获得对象的标准名称数据。第三方面,提供了一种名称数据库创建装置,所述装置包括存储器以及与所述存储器连接的处理器,其中,所述存储器用于存储一组程序代码,所述处理器调用所述存储器所存储的程序代码用于执行以下操作:对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据,其中,所述多个名称数据用于描述同一个对象,n大于或者等于m;分别计算所述m个名称数据的综合流行指数;根据所述综合流行指数,对名称数据进行过滤处理,获得对象的标准名称数据。第四方面,提供了一种名称数据库创建系统,所述系统包括:去冗余处理装置,用于对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据,其中,所述多个名称数据用于描述同一个对象,n大于或者等于m;计算装置,用于分别计算所述m个名称数据的综合流行指数;过滤处理装置,用于根据所述综合流行指数,对名称数据进行过滤处理,获得对象的标准名称数据。本专利技术实施例提供的技术方案带来的有益效果是:1、通过对名称库的名称进行去冗余处理,可以去除名称库中不必要的名称数据,这些名称数据包括同物异名的名称数据、不符合大众习惯的名称数据或者生僻近乎淘汰的名称数据,通过这样的去冗余处理,能够使得名称库的名称数据更精简,提高了数据有效性,满足用户对高效利用信息的需求;2、通过计算名称的流行指数,能够掌握名称库名称的市场流行情况,根据名称的市场流行情况数据,对市场流行度低的数据作进一步精简,并且方便用户获知或获取名称库不同名称的各种流行情况;3、通过根据名称的流行指数对名称进行过滤处理,获得名称标准化数据,能够充分利用名称的流行指数来对数据作排序、分类、滤除等过滤处理,使得名称库的名称标准化程度更高,提高用户的应用体验。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例1提供的名称数据库创建方法流程图;图2是本专利技术实施例2提供的名称数据库创建方法流程图;图3是本专利技术实施例3提供的名称数据库创建装置结构示意图;图4是本专利技术实施例4提供的名称数据库创建装置结构示意图;图5是本专利技术实施例5提供的名称数据库创建系本文档来自技高网
...
一种名称数据库创建方法及装置

【技术保护点】
一种名称数据库创建方法,其特征在于,所述方法包括:对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据,其中,所述多个名称数据用于描述同一个对象,n大于或者等于m;分别计算所述m个名称数据的综合流行指数;根据所述综合流行指数,对名称数据进行过滤处理,获得对象的标准名称数据。

【技术特征摘要】
1.一种名称数据库创建方法,其特征在于,所述方法包括:对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据,其中,所述多个名称数据用于描述同一个对象,n大于或者等于m;分别计算所述m个名称数据的综合流行指数;根据所述综合流行指数,对名称数据进行过滤处理,获得对象的标准名称数据。2.根据权利要求1所述的方法,其特征在于,所述对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据包括:创建所述n个名称数据对应的多维向量函数,所述多维向量包括所述n个名称数据;对所述多维向量进行降维处理,去除冗余的名称特征信息数据;对所述降维处理的结果进行聚类对所述降维处理的结果进行聚类,去除相似或冗余的名称数据;获取所述m个名称数据。3.根据权利要求1或2所述的方法,其特征在于,所述分别计算所述m个名称数据的综合流行指数包括:获取与所述名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度;分别计算与所述名称常见度对应的第一流行指数、与所述名称长度因子对应的第二流行指数以及与所述名称相关元素常见度对应的第三流行指数;根据所述第一流行指数、所述第二流行指数以及所述第三流行指数,计算所述名称数据的综合流行指数。4.根据权利要求3所述的方法,其特征在于,所述获取与所述名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度包括:根据所述名称数据在所述名称数据库的出现频率,计算所述名称常见度;根据预设阈值,计算所述名称长度因子;根据预设规则,计算所述名称相关元素常见度。5.根据权利要求1所述的方法,其特征在于,所述根据所述综合流行指数,对名称数据进行过滤处理,获得所述对象的标准名称数据包括:对所述m个名称数据的综合流行指数进行排序,获得排序结果;根据所述排序结果,获取所述对象的标准名称数据。6.根据权利要求5所述的方法,其特征在于,所述对名称的综...

【专利技术属性】
技术研发人员:李宏宇傅致晖
申请(专利权)人:众安信息技术服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1