The invention discloses a method and device for creating a name database, which belongs to the field of computer communication technology. The method includes: n data to the database name name of the redundant processing, to obtain m name data, wherein the plurality of data name used to describe the same object, n is greater than or equal to m; respectively calculate the comprehensive fashion m names data index; according to the comprehensive fashion the name index, data filtering, to obtain the standard name data object. The present invention provides a method and a device for creating database name, reduce the redundant data of the original name database, the name of the existing data more streamlined, and from many aspects of life habits on the name of the data for adaptive processing, to meet user demand for existing information data, which can be widely used in various fields of information provided and information services, including search and query.
【技术实现步骤摘要】
一种名称数据库创建方法及装置
本专利技术涉及计算机通信
,特别涉及一种名称数据库创建方法及装置。
技术介绍
随着信息网络的普及,人们的日常生活越来越与网络密不可分,很明显的一块是人们对于信息的获取很大程度上是通过网络,因此如何让较短时间内使用户获取更多有效信息是对大数据时代相关技术人员的考验。日常生活所需信息涉及吃、穿、住、行的方方面面,然而尽管网络带给人们获取信息的便利,同时来自不同渠道的繁芜庞杂的信息也会让人望而却步。拿食品领域来举例,目前食品中文命名非常混乱,要得到一个标准的食品中文名称库比较困难。一方面,食品名称五花八门,同样的食品可能拥有多种不同的叫法,即:“同物异名”现象。例如食品“山楂卷”可以被称作“果丹皮”,食品“生鱼片”可以被称作“刺身”。另一方面,多数食品是常见的,大家都熟悉;同样也存在一些食品相对罕见,只有小众群体熟知。然而,一个食品中文名称库要能适应目前信息时代的发展需要,首先需要做好标准化的工作。标准的食品名称库应该能够避免出现“同物异名”现象,而且应该能提供食品受欢迎程度,即:食品的流行指数,以方便数据分析人员进行清洗。况且,对于注重生活品质的当代人来说,健康饮食监控、烹饪、食品推荐系统等研究备受关注。在各种食品相关的研究中,创建一个标准食品名称库是很有价值的。在美食菜谱分享网站或美食点评网站中,标准的食品名称库更有利于精准统计分析;在食品识别研究中,收集食品数据集是十分重要的,而收集食品数据集更需要标准的食品名称库支撑。然而,对于种类数量较多(例如1000类以上)的食品集合,通过人工清洗实现食品名称数据库标准化显然是不现 ...
【技术保护点】
一种名称数据库创建方法,其特征在于,所述方法包括:对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据,其中,所述多个名称数据用于描述同一个对象,n大于或者等于m;分别计算所述m个名称数据的综合流行指数;根据所述综合流行指数,对名称数据进行过滤处理,获得对象的标准名称数据。
【技术特征摘要】
1.一种名称数据库创建方法,其特征在于,所述方法包括:对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据,其中,所述多个名称数据用于描述同一个对象,n大于或者等于m;分别计算所述m个名称数据的综合流行指数;根据所述综合流行指数,对名称数据进行过滤处理,获得对象的标准名称数据。2.根据权利要求1所述的方法,其特征在于,所述对名称数据库的n个名称数据进行去冗余处理,获取m个名称数据包括:创建所述n个名称数据对应的多维向量函数,所述多维向量包括所述n个名称数据;对所述多维向量进行降维处理,去除冗余的名称特征信息数据;对所述降维处理的结果进行聚类对所述降维处理的结果进行聚类,去除相似或冗余的名称数据;获取所述m个名称数据。3.根据权利要求1或2所述的方法,其特征在于,所述分别计算所述m个名称数据的综合流行指数包括:获取与所述名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度;分别计算与所述名称常见度对应的第一流行指数、与所述名称长度因子对应的第二流行指数以及与所述名称相关元素常见度对应的第三流行指数;根据所述第一流行指数、所述第二流行指数以及所述第三流行指数,计算所述名称数据的综合流行指数。4.根据权利要求3所述的方法,其特征在于,所述获取与所述名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度包括:根据所述名称数据在所述名称数据库的出现频率,计算所述名称常见度;根据预设阈值,计算所述名称长度因子;根据预设规则,计算所述名称相关元素常见度。5.根据权利要求1所述的方法,其特征在于,所述根据所述综合流行指数,对名称数据进行过滤处理,获得所述对象的标准名称数据包括:对所述m个名称数据的综合流行指数进行排序,获得排序结果;根据所述排序结果,获取所述对象的标准名称数据。6.根据权利要求5所述的方法,其特征在于,所述对名称的综...
【专利技术属性】
技术研发人员:李宏宇,傅致晖,
申请(专利权)人:众安信息技术服务有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。