一种节目数据入库方法及装置制造方法及图纸

技术编号:15639608 阅读:48 留言:0更新日期:2017-06-16 00:38
本发明专利技术实施例提供一种节目数据入库方法及装置。该方法具体步骤为,首先计算待入库的节目数据与当前数据库中已存储的节目数据之间的最大相似度值,然后根据该最大相似度值和预先设定的隶属度函数对上述待入库的节目数据进行入库判定。该种节目数据入库方法能够较好的解决节目数据重复入库的问题,明显减少相同节目在数据库中重复存储的现象,有效避免数据库存储空间的浪费。

【技术实现步骤摘要】
一种节目数据入库方法及装置
本专利技术涉及数据处理
,具体而言,涉及一种节目数据入库方法及装置。
技术介绍
目前,多媒体节目数据存入后台数据库的过程中,存在着较为严重的数据重复入库的问题。例如,后台获取到的爬虫数据中通常可能包含着部分在数据库中已存储的节目数据,当将上述爬虫数据全部进行入库处理后,就会导致有些节目数据在数据库中进行了重复存储,造成数据库存储空间的严重浪费。
技术实现思路
本专利技术的目的在于提供一种节目数据入库方法及装置,以改善上述问题。本专利技术较佳实施例提供一种节目数据入库方法,该方法包括:分别计算数据库中已存储的节目数据与当前一待入库的节目数据之间的相似度;根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定;根据所述入库判定的结果对所述待入库的节目数据进行处理,其中,所述入库判定的结果包括入库、不入库两种判定结果。本专利技术另一较佳实施例提供一种节目数据入库装置,该装置包括:相似度计算模块,用于分别计算数据库中已存储的节目数据与当前一待入库的节目数据之间的相似度;入库判定模块,用于根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定;节目处理模块,用于根据所述入库判定的结果对所述待入库的节目数据进行处理,其中,所述入库判定的结果包括入库、不入库两种判定结果。本专利技术实施例提供的节目数据入库方法及装置,首先计算待入库的节目数据与当前数据库中已存储的节目数据之间的最大相似度,然后根据该最大相似度和预先设定的隶属度函数对上述待入库的节目数据进行入库判定。该种节目数据入库方法能够较好的解决节目数据重复入库的问题,明显减少相同节目在数据库中重复存储的现象,有效避免数据库存储空间的浪费。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提供的一种节目存储设备的方框示意图;图2为本专利技术实施例提供的一种节目数据入库方法的流程示意图;图3为本专利技术实施例提供的图2中步骤S101的一种子步骤流程图;图4为本专利技术实施例提供的一种预先构造的函数模型的示意图;图5为本专利技术实施例提供的另一种预先构造的函数模型的示意图;图6为本专利技术实施例提供的另一种预先构造的函数模型的示意图;图7为本专利技术实施例提供的一种节目数据入库装置的功能模块框图。图标:100-节目存储设备;110-节目数据入库装置;120-存储器;130-处理器;140-数据库;1102-相似度计算模块;1104-入库判定模块;1106-节目处理模块。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,是本专利技术实施例提供的一种节目存储设备100的方框示意图。所述节目存储设备100可以是,但不限于,智能电视、网络服务器、数据库服务器等。本专利技术实施例所涉及的节目数据入库方法可应用于该节目存储设备100中。如图1所示,该节目存储设备100包括节目数据入库装置110、存储器120、处理器130以及数据库140。其中,所述节目数据入库装置110包括至少一个可以软件或固件的形式存储于所述存储器120中或固化在所述节目存储设备100的操作系统中的软件功能模块。所述存储器120和处理器130之间直接或间接地电性连接,以进行数据的传输或交互。更为具体地,所述处理器130可以用于执行存储器120中存储的可执行模块,例如所述节目数据入库装置110包括的软件功能模块或计算机程序。下述本专利技术任一实施例揭示的流过程定义的节目存储设备100所执行的方法可以应用于处理器130中,或者由处理器130实现。所述数据库140用于存放节目数据。本实施例中,每一所述节目数据至少可以包括标签信息和内容信息两个部分。其中,所述标签信息可以是指节目数据中对应节目标识部分的数据,例如包括节目标题、导演、地区、演员(或歌手)中的一种或多种等。所述内容信息可以是指节目数据中对应节目内容部分的数据。所述节目数据可以是,但不限于,多媒体节目数据,如电视、电影、综艺、音乐以及动画等。本专利技术实施例中,该数据库140可以是位于上述存储器120中的一数据存储空间。请参阅图2,是本专利技术实施例提供的一种节目数据入库方法的流程示意图。所应说明的是,本专利技术提供的方法不以图2及以下所述的具体顺序为限制。下面将对图2中示出的各步骤进行详细说明。步骤S101,分别计算数据库140中已存储的节目数据与当前一待入库的节目数据之间的相似度。本实施例中,对于一当前待入库的节目数据,需要首先分别计算出数据库140中已存储的各个节目数据与该待入库的节目数据之间的相似度。然后比较计算出的所有相似度值,获得其中的最大值。作为一种实施方式,如图3所示,本实施例中的步骤S101可以包括如下子步骤。子步骤S111:获取该待入库的节目数据的标签信息以及一存储在所述数据库140中的节目数据的标签信息。可以理解的是,同一类型的多媒体节目不同的数据存储格式可能导致标签信息存储位置的不同。如以音乐节目为例,其节目数据中的标签信息可能存储于文件头,也可能存储于文件尾,甚至还可能是分别在文件头和文件尾中各存储一部分。所以,本实施例中,在获取上述两个节目数据的标签信息时,可以根据节目数据的类型、存储格式等信息判断标签信息可能的存储位置后再进行获取操作,以提高标签信息的获取效率。当在上述可能的存储位置未获取到所述标签信息时,再对节目数据进行遍历搜索。子步骤S113:分别去除上述两个标签信息中的无效字符。本实施方式中,所述“无效字符”主要是指预先设定的可能会对相似度的计算产生干扰的一些字符,如部分标点符号、乱码字符、连续多个空格等等。不难理解,将无效字符去除的目的是为了提高相似度计算结果的准确性。子步骤S115:将去除无效字符后的两个标签信息进行字符匹配,根据匹配结果计算两个节目数据之间的相似度。按照上述子步骤S111至S115描述的方法,逐一计算该待入库的节目数据与数据库140中已存储的各节目数据之间的相似度即为本实施例提供的步骤S101的一种可能实现方式。为了更为具体的说明本实施方式中相似度的计算过程,以下述表1中的两个节目的标签信息为示例作进一步阐述,其中,节目一已存储于所述数据库140中,节目二为当前一待入库的节目数据。表1首先,计算两个节目标题间的相似度。先将节目一标题中的末尾句号(在该示例中为预先设定的无效字符之一)去除后,采用动态规划算法,从两个节目标题的最左侧字符开始进行依次匹配,并记录匹配结果。经统计,两个节目标题中的第5个字符不匹配,其余8个字符均匹配。所以,标题间的相似度为其次,本文档来自技高网...
一种节目数据入库方法及装置

【技术保护点】
一种节目数据入库方法,其特征在于,该方法包括:分别计算数据库中已存储的节目数据与当前一待入库的节目数据之间的相似度;根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定;根据所述入库判定的结果对所述待入库的节目数据进行处理,其中,所述入库判定的结果包括入库、不入库两种判定结果。

【技术特征摘要】
1.一种节目数据入库方法,其特征在于,该方法包括:分别计算数据库中已存储的节目数据与当前一待入库的节目数据之间的相似度;根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定;根据所述入库判定的结果对所述待入库的节目数据进行处理,其中,所述入库判定的结果包括入库、不入库两种判定结果。2.根据权利要求1所述的方法,其特征在于,所述分别计算数据库中已存储的节目数据与当前一待入库的节目数据之间的相似度的步骤包括:获取该待入库的节目数据的标签信息以及一存储在所述数据库中的节目数据的标签信息;分别去除上述两个标签信息中的无效字符;将去除无效字符后的两个标签信息进行字符匹配,根据匹配结果计算两个节目数据之间的相似度。3.根据权利要求1所述的方法,其特征在于,所述入库判定的结果还包括第三种判定结果:待定入库。4.根据权利要求3所述的方法,其特征在于,所述预设的隶属度函数通过以下方式得到:对预先构造的函数模型中的参数进行参数训练得到所述隶属度函数,其中,所述隶属度函数包括第一概率函数、第二概率函数和第三概率函数;所述第一概率函数为该待入库的节目数据被判定为入库的概率随相似度的变化函数,所述第二概率函数为该待入库的节目数据被判定为待定入库的概率随相似度的变化函数,所述第三概率函数为该待入库的节目数据被判定为不入库的概率随相似度的变化函数。5.根据权利要求4所述的方法,其特征在于,所述根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定的步骤包括:将所述计算出的所有相似度中的最大值分别代入第一概率函数、第二概率函数以及第三概率函数中,计算相应的函数值;将获得的三个函数值进行比较;若所述第一概率函数的函数值最大,则判定该待入库的节目数据入库;若所述第二概率函数的函数值最大或者该三个函数值中存在着两个相等的最大函数值时,则判定该待入库的节目数据待定入库;若所述第三概率函数的函数值最大,则判定该待入库的节目数据不入库。6.根据权利要求4所述的方法,其特征在于,所述根据计算出的所有相似度中的最大值和预设的隶属度函数对该待入库的节目数据进行入库判定的步骤包括:计算所述第一概率函数与第二概率函数的因变量非零的交点对应的自变量取值,将该自变量取值设定为第一阈值;计算所述第二概率函数与第三概率函数的因变量非零的交点对应的自变量取值,将该自变量取值设定为第二阈值;将所述计算出的所有相似度中的最大值与所述第一阈值和第二阈值进行比较,根据比较结果对该待入库的节目数据进行入库判定。7.根据权利要求6所述的方法,其特征在于,所述第二阈值大于所述第一阈值;所述根据比较结果对该待入库的节目数据进行入库判定的步骤包括:若所述所有相似度中的最大值小于所述第一阈值,则该待入库的节目数据对应的判定结果为入库;若所述所有相似度中的最大值大于或等于所述第一阈值,且小于或等于所述第二阈值,则该待入库的节目数据对应的判定结果为待定入库;若所述所有相似度中的最大值大于所述第二阈值,则该待入库的节目数据对应的判定结果为不入库。8.根据权利要求5或7所述的方法,其特征在于,该方法还包括:当所述待入库的节目数据被判定为待定入库后,将该待入库的节目数据的内容信息和已存储在数据库中的与其具有最大相似度的节目数据的内容信息进行比对;若上述两个节目数据的内容信息的相似度小于设定阈值,则判定该待入库的节目数据入库,否则,判定该待入库的节目数据不入库。9.根据权利要求4所述的方法,其特征在于,对预先构造的函数模型进行参数训练得到所述隶属度函数的步骤包括:选取当前所有待入库的节目数据中的一部分节目数据作为训练集对所述预先构造的函数模型中的参数进行参数训练得到所述隶属度函数,该隶属度函数用于对其余待入库的节目数据进行入库判定。10.一种节目数据入库装置,其特征在于,该装置包括:相似度计算模块,用于分别计算数据库中已存储的节...

【专利技术属性】
技术研发人员:郝琪
申请(专利权)人:微鲸科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1