一种数据标示方法和管理系统技术方案

技术编号:12787725 阅读:67 留言:0更新日期:2016-01-28 16:17
本发明专利技术提供了一种数据标示方法和管理系统,涉及数据加工处理领域。方法包括:S1,服务器提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇;S2,服务器将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比,获取对比结果中匹配度大于90%的所述标题分词和/或所述正文的高词频分词和/或关键词汇,作为标示所述数据的第一位标签;所述第一位标签写入所述标签库;S3,人工读取所述数据的标题内容,用与所述标题内容匹配度大于90%的第一位标签对所述数据进行标示。采用本发明专利技术提供的技术方案,可以降低对技术人员的要求,提高工作效率,从而大大的降低数据加工成本。

【技术实现步骤摘要】

本专利技术涉及数据加工处理领域,尤其涉及一种数据标示方法和管理系统
技术介绍
如今,人们已经习惯于从互联网上获取信息,而对数据进行标示处理,使人们在标示的指引下,快速的获得有用的信息,受到了广大用户的欢迎,也得到了技术人员的广泛关注和研究。目前,数据标示处理技术主要是通过人工的方式进行,技术人员通过阅读、理解数据内容后,再根据自身的理解,归纳、整理出能够代表数据内容的标签,完成对数据的标示。但是,该过程对技术人员的要求高,且由于人工处理效率低,因此需要的技术人员的数量多,从而使得对数据进行标示处理的成本高;尤其当互联网上具有大量的数据时,采用上述技术对其进行标示处理成本就会更高。
技术实现思路
本专利技术的目的之一在于提供一种数据标示方法,本专利技术的目的之二在于提供一种数据表示管理系统,通过利用服务器的初次标示后,再经过人工简单的校正和调整,完成对数据内容的标示,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术采用的技术方案如下:—种数据标示方法,包括如下步骤:S1,服务器提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇;S2,服务器将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比,获取对比结果中匹配度大于90%的所述标题分词和/或所述正文的高词频分词和/或关键词汇,作为标示所述数据的第一位标签;所述第一位标签写入所述标签库;S3,人工读取所述数据的标题内容,用与所述标题内容匹配度大于90%的第一位标签对所述数据进行标示。进一步地,步骤S2和步骤S3之间,还包括用户自定义标签的步骤,所述用户自定义标签达到或超过规定数量时,在用户视图界面上,将所述用户自定义标签的位置提前,所述用户自定义标签的数量越大,其位置越靠前;所述用户自定义标签达到或超过规定数量时,所述用户自定义标签写入所述标签库。优选地,所述与所述标题内容匹配度大于90%的第一位标签按照所述匹配度大小进行倒排序显示在用户视图界面上。优选地,步骤S2中,所述第一位标签的数量达到设定值时,则继续;否则,用第二位标签进行补充,直到达到所述设定值,则继续;在用户视图界面上,所述第二位标签位于所述第一位标签的后面;所述第二位标签为所述标题分词;所述第二位标签写入所述标签库。具体地,所述设定值为5-20。具体地,所述用第二位标签进行补充,具体为,所述标题分词按照分值大小倒排序进行补充,所述标题分词的所述分值按照如下方法获得:为所有所述标题分词设定相同的初始分值;所述标题分词与所述正文的高词频分词和/或关键词汇相匹配,匹配度达到90%以上时,为所述标题分词的分值加分,匹配度越高,加分值越大;将所述初始分值与所述加分值求和,得到所述标题分词的分值。优选地,所述用第二位标签进行补充后,所述第一位标签和所述第二位标签的总量未达到所述设定值时,则用第三位标签进行补充,直到达到所述设定值,则继续;在用户视图界面上,所述第三位标签位于所述第二位标签的后面;所述第三位标签为所述正文的高词频分词和/或关键词汇;所述第三位标签写入所述标签库。具体地,所述用第三位标签进行补充,具体为,所述正文的高词频分词和/或关键词汇按照分值大小倒排序进行补充,所述正文的高词频分词和/或关键词汇的词频越高,其所述分值越大。一种数据标示管理系统,包括:标签树模块:用于以树形结构呈现分类之间的层级和逻辑关系,且在每个层级分类下预置标签;标签查询模块:用于对某一时间段内的标签进行查询,可以实现自定义(模糊)查询及条件查询;标签库模块:用于建立标签库;服务器标示模块:用于提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇,并与所述数据的标签库进行对比,获取对比结果中匹配度大于90%的所述标题分词和/或所述正文的高词频分词和/或关键词汇,作为标示所述数据的第一位标签;人工标示模块:用于与所述标题内容匹配度大于90%的第一位标签对所述数据进行标示。进一步地,所述数据标示管理系统,还包括:用户标示模块:用于用户自定义标签。本专利技术的有益效果是:与现有技术中,完全靠人工的方式完成数据标示的技术相比,本专利技术中,采用服务器标示和人工标示相结合的方式,在保证标示准确性的基础上,提高了工作效率,降低了对人员的要求,从而降低了对数据标示处理的成本,尤其针对大量数据时,标示处理成本得到了极大的降低。 由于现有技术中,需要技术人员阅读、理解数据内容后,再根据自身的理解,归纳、整理出能够代表数据内容的标签,完成对数据的标示。因此,要求技术人员具有较高的阅读、分析和理解能力,一般为具有硕士研究生学历的人员,这样,每个技术人员的成本就比较高。同时,每个人处理一篇文章的时间大概为5-10分钟,因此,每个人每天能够处理的文章大概是200篇,当数据库中有十万甚至百万数量级的数据时,对其进行标示,需要的人员量是很大的,从而数据加工成本会大大的增加。而本专利技术中,首先利用服务器的搜索、检索、分词等技术,获取对数据进行标示的标签,之后进行人工修整和调整时,只需要读取所述数据的标题内容即可,而不需要对整篇文章进行阅读和分析、理解,因此,采用本专利技术提供的技术方案,可以降低对技术人员的要求,从而降低人工成本,同时,由于人工需要完成的工作量小且任务简单,工作效率会得到极大的提升,每个人每天能够处理的文章至少为1200-2000篇,因此,当数据库中有十万甚至百万数量级的数据时,对其进行标示,需要的人员量则不会很大的,从而数据加工成本会大大的降低。【附图说明】图1是本专利技术实施例提供的数据标示方法的流程示意图;图2是本专利技术实施例提供的数据标示管理系统框架示意图。【具体实施方式】为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的【具体实施方式】仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,一种数据标示方法,包括如下步骤:S1,服务器提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇。S2,服务器将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比,获取对比结果中匹配度大于90%的所述标题分词和/或所述正文的高词频分词和/或关键词汇,作为标示所述数据的第一位标签;所述第一位标签写入所述标签库。S3,人工读取所述数据的标题内容,用与所述标题内容匹配度大于90%的第一位标签对所述数据进行标示。服务器首先利用搜索、检索、分词等技术提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇;工作效率高,处理大量数据需要的时间短。由于待标示的数据文字内容是隶属于各个分类的,因此把分类细化,最好将分类细化至3-4级,同时为每个细化的分类进行标签的预置定义,这样,可以加大标签库中的初始标签的数量,也可以增加利用标签库对数据内容进行标示的精准度。对于移动互联网中的信息而言,标签库中的标签均为当前社会热词和重点词。开始阶段,对数据内容进行的标示,服务器会将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库中的初始标签进行对比,随着标签库中的标签的添加、删除或修改,标签库不断的更新,则服务器会将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库中的更本文档来自技高网...

【技术保护点】
一种数据标示方法,其特征在于,包括如下步骤:S1,服务器提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇;S2,服务器将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比,获取对比结果中匹配度大于90%的所述标题分词和/或所述正文的高词频分词和/或关键词汇,作为标示所述数据的第一位标签;所述第一位标签写入所述标签库;S3,人工读取所述数据的标题内容,用与所述标题内容匹配度大于90%的第一位标签对所述数据进行标示。

【技术特征摘要】

【专利技术属性】
技术研发人员:汤潮汤杨
申请(专利权)人:北京龙源创新信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1