【技术实现步骤摘要】
一种节目数据入库方法及装置
本专利技术涉及数据处理
,具体而言,涉及一种节目数据入库方法及装置。
技术介绍
目前,多媒体节目数据存入后台数据库的过程中,存在着较为严重的数据重复入库的问题。例如,后台获取到的爬虫数据中通常可能包含着部分在数据库中已存储的节目数据,当将上述爬虫数据全部进行入库处理后,就会导致有些节目数据在数据库中进行了重复存储,造成数据库存储空间的严重浪费。
技术实现思路
本专利技术的目的在于提供一种节目数据入库方法及装置,以改善上述问题。本专利技术较佳实施例提供一种节目数据入库方法,该方法包括:分别计算数据库中已存储的节目数据与当前一待入库的节目数据之间的相似度;根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定;根据所述入库判定的结果对所述待入库的节目数据进行处理,其中,所述入库判定的结果包括入库、不入库两种判定结果。本专利技术另一较佳实施例提供一种节目数据入库装置,该装置包括:相似度计算模块,用于分别计算数据库中已存储的节目数据与当前一待入库的节目数据之间的相似度;入库判定模块,用于根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定;节目处理模块,用于根据所述入库判定的结果对所述待入库的节目数据进行处理,其中,所述入库判定的结果包括入库、不入库两种判定结果。本专利技术实施例提供的节目数据入库方法及装置,首先计算待入库的节目数据与当前数据库中已存储的节目数据之间的最大相似度,然后根据该最大相似度和预先设定的隶属度函数对上述待入库的节目数据进行入库判定。该种节目数据入库方法能 ...
【技术保护点】
一种节目数据入库方法,其特征在于,该方法包括:分别计算数据库中已存储的节目数据与当前一待入库的节目数据之间的相似度;根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定;根据所述入库判定的结果对所述待入库的节目数据进行处理,其中,所述入库判定的结果包括入库、不入库两种判定结果。
【技术特征摘要】
1.一种节目数据入库方法,其特征在于,该方法包括:分别计算数据库中已存储的节目数据与当前一待入库的节目数据之间的相似度;根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定;根据所述入库判定的结果对所述待入库的节目数据进行处理,其中,所述入库判定的结果包括入库、不入库两种判定结果。2.根据权利要求1所述的方法,其特征在于,所述分别计算数据库中已存储的节目数据与当前一待入库的节目数据之间的相似度的步骤包括:获取该待入库的节目数据的标签信息以及一存储在所述数据库中的节目数据的标签信息;分别去除上述两个标签信息中的无效字符;将去除无效字符后的两个标签信息进行字符匹配,根据匹配结果计算两个节目数据之间的相似度。3.根据权利要求1所述的方法,其特征在于,所述入库判定的结果还包括第三种判定结果:待定入库。4.根据权利要求3所述的方法,其特征在于,所述预设的隶属度函数通过以下方式得到:对预先构造的函数模型中的参数进行参数训练得到所述隶属度函数,其中,所述隶属度函数包括第一概率函数、第二概率函数和第三概率函数;所述第一概率函数为该待入库的节目数据被判定为入库的概率随相似度的变化函数,所述第二概率函数为该待入库的节目数据被判定为待定入库的概率随相似度的变化函数,所述第三概率函数为该待入库的节目数据被判定为不入库的概率随相似度的变化函数。5.根据权利要求4所述的方法,其特征在于,所述根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定的步骤包括:将所述计算出的所有相似度中的最大值分别代入第一概率函数、第二概率函数以及第三概率函数中,计算相应的函数值;将获得的三个函数值进行比较;若所述第一概率函数的函数值最大,则判定该待入库的节目数据入库;若所述第二概率函数的函数值最大或者该三个函数值中存在着两个相等的最大函数值时,则判定该待入库的节目数据待定入库;若所述第三概率函数的函数值最大,则判定该待入库的节目数据不入库。6.根据权利要求4所述的方法,其特征在于,所述根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定的步骤包括:计算所述第一概率函数与第二概率函数的因变量非零的交点对应的自变量取值,将该自变量取值设定为第一阈值;计算所述第二概率函数与第三概率函数的因变量非零的交点对应的自变量取值,将该自变量取值设定为第二阈值;将所述计算出的所有相似度中的最大值与所述第一阈值和第二阈值进行比较,根据比较结果对该待入库的节目数据进行入库判定。7.根据权利要求6所述的方法,其特征在于,所述第二阈值大于所述第一阈值;所述根据比较结果对该待入库的节目数据进行入库判定的步骤包括:若所述所有相似度中的最大值小于所述第一阈值,则该待入库的节目数据对应的判定结果为入库;若所述所有相似度中的最大值大于或等于所述第一阈值,且小于或等于所述第二阈值,则该待入库的节目数据对应的判定结果为待定入库;若所述所有相似度中的最大值大于所述第二阈值,则该待入库的节目数据对应的判定结果为不入库。8.根据权利要求5或7所述的方法,其特征在于,该方法还包括:当所述待入库的节目数据被判定为待定入库后,将该待入库的节目数据的内容信息和已存储在数据库中的与其具有最大相似度的节目数据的内容信息进行比对;若上述两个节目数据的内容信息的相似度小于设定阈值,则判定该待入库的节目数据入库,否则,判定该待入库的节目数据不入库。9.根据权利要求4所述的方法,其特征在于,对预先构造的函数模型进行参数训练得到所述隶属度函数的步骤包括:选取当前所有待入库的节目数据中的一部分节目数据作为训练集对所述预先构造的函数模型中的参数进行参数训练得到所述隶属度函数,该隶属度函数用于对其余待入库的节目数据进行入库判定。10.一种节目数据入库装置,其特征在于,该装置包括:相似度计算模块,用于分别计算数据库中已存储的节...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。