视频标题信息量的度量方法、可读存储介质及电子设备技术

技术编号:19177215 阅读:20 留言:0更新日期:2018-10-17 00:20
一种视频标题信息量的度量方法,包括以下步骤:S1、将待度量的视频标题文本切分为一个或多个单独的词语;S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在所述参照文本中出现的概率;S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵;以及S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。本发明专利技术还涉及相关的计算机可读存储介质和电子设备。

Measurement method of video title information, readable storage medium and electronic equipment

A method for measuring the amount of video title information includes the following steps: S1, dividing the video title text to be measured into one or more separate words; S2, counting the probability of each word appearing in all video title text, and selecting a reference text, counting the probability of each word appearing in the reference text. 3. Calculate the average information entropy of each word in all video title text, and calculate the average information entropy of each word in the reference text; 4. Weight the average information entropy of each word in all video title text and the average information entropy in the reference text, and take the result of the sum as the video title. The value of information. The invention also relates to the related computer readable storage medium and electronic equipment.

【技术实现步骤摘要】
视频标题信息量的度量方法、可读存储介质及电子设备
本专利技术涉及数据处理的
,更具体地,涉及一种视频标题信息量的度量方法以及相关的计算机可读存储介质和电子设备。
技术介绍
网站上视频的标题一般由用户在上传时填写,通过填写一些有意义的文字使得视频观看者能够通过标题快速的获取信息。标题的质量是视频质量的一部分,一个能够包含更多视频内容信息的标题可以吸引更多用户观看,因此对视频标题的信息量进行度量是非常重要的。目前,现有技术中并无对视频标题信息量进行度量的实现方案。
技术实现思路
针对上述问题,为了对视频标题信息量进行度量,作为本专利技术的一个方面,提出了一种视频标题信息量的度量方法,其中,该方法包括以下步骤:S1、将待度量的视频标题文本切分为一个或多个单独的词语;S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在所述参照文本中出现的概率;S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵;以及S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。在一些实施例中,步骤S1还包括去除所述词语中的无意义词语的步骤。在一些实施例中,在步骤S2中,通过下式统计各词语在所有视频标题文本中出现的概率:其中,pi是视频标题中第i个词语在所有视频标题文本中出现的概率,Ni是视频标题中第i个词语在所有视频标题文本中出现的次数,N是所有视频标题文本中出现的词语的总出现次数;以及通过下式统计各词语在所有参照文本中出现的概率:其中,si是视频标题中第i个词语在参照文本中出现的概率,Mi是视频标题中第i个词语在参照文本中出现的次数,M是参照文本中出现的词语的总出现次数。在一些实施例中,在步骤S3中,采用下式计算所述各词语在所有视频标题文本中的平均信息熵Hp:以及采用下式计算所述各词语在参照文本中的平均信息熵Hs:其中,log表示以10为底的对数,n为视频标题文本中出现的词语的个数。在一些实施例中,在步骤S4中,采用如下公式来进行加权求和:H=w1Hp+w2Hs其中,H为视频标题的信息量的值,w1为Hp的权重系数,w2为Hs的权重系数,w1+w2=1,且0.5<w1≤1。在一些实施例中,若Mi=0,则在一些实施例中,所述参照文本为人民日报文本。本专利技术的另一方面提供了一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令在由处理器执行时,实现如前任一项所述的视频标题信息量的度量方法的步骤。本专利技术另一方面提供了一种电子设备,包括:存储器,用于存储可执行指令;以及处理器,用于执行存储器中存储的可执行指令,以执行如上任一项所述的视频标题信息量的度量方法的步骤。基于上述技术方案可知,本专利技术至少取得了以下有益效果中的一个:本专利技术提供的视频标题信息量的度量方法及相关的可读存储介质和电子设备,基于如果词语在语料中出现的概率越大,那么该词语所包含的信息越多的思想,提出了一种基于信息熵的视频标题信息量的度量方式,可以方便、简洁、直观地完成视频标题信息量的度量;同时还选用了参照文本来综合考虑视频标题信息量的度量,使得度量结果更加客观可信。附图说明图1为根据本专利技术的实施例的视频标题信息量的度量方法的流程图。图2为根据本专利技术的实施例的计算机可读存储介质的示意图;图3为根据本专利技术的实施例的电子设备的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于所描述的本专利技术的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。除非另外定义,本专利技术使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。参照图1,示出了根据本专利技术的一个实施例的视频标题信息量的度量方法的流程图,包括以下步骤:S1、将待度量的视频的标题文本切分为一个或多个单独的词语。在对需要度量的某一视频的标题文本进行信息量的度量时,首先需要把待度量的视频的标题文本进行切分,比如可以将具有较长字符串的标题文本按照语义关系切分成一个或多个单独的词语。S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在参照文本中出现的概率。通过选用参照文本来综合考虑视频标题信息量的度量,使得度量结果更加客观可信。S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵。S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。如上在步骤S2中所述的所有视频标题文本和参照文本可以根据实际统计需求进行确定。例如,所有视频标题文本可以为一个视频网站中的全部视频标题文本;也可以综合考虑多个视频网站中的全部视频标题文本作为所有视频标题文本。在待度量的视频的标题属于较常规领域的情况下,上述参照文本可以为较为通用的文本,例如人民日报文本;当待度量的视频的标题涉及较特殊的领域时,上述参照文本可以为涉及相关领域的文本,例如,对于科普类视频的标题,可以选取相关科普文献或期刊文本作为参照文本。本专利技术的实施例基于如果词语在语料中出现的概率越大,那么该词语所包含的信息越多的思想,提出了一种基于信息熵的视频标题信息量的度量方法,可以方便、简洁、直观地完成视频标题信息量的度量。“信息熵”的概念最初由香农提出,香农借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。然而对于视频标题来说,并不是视频标题包括的词语越多则该视频标题质量越高、包含的信息量越多。本专利技术的实施例中将信息熵除以视频标题文本切分后得到的词语个数作为平均信息熵,以更加客观地反映视频标题的信息量。通过采用平均信息熵,使得视频标题中信息熵较高的词语占的比重越大,其包含的信息量越多。其中,所述所有视频标题文本实质上为一个包括了所有视频标题文本的文本库;所述参照文本实质上为参照文本的文本库。在一些实施例中,步骤S1还包括去除所述词语中的无意义词语的步骤。例如,对于标题“视频标题信息量的度量方法”,则将其切分为“视频”、“标题”、“信息量”、“度量”和“方法”,而去除了无意义的助词“的”。通过去除无意义的词语,优化了度量结果。在一些实施例中,所述参照文本为人民日报文本。人民日报文本属于较通用的文本,而视频标题文本具有较高的专业性。因此,计算得到的在所有视频标题文本中的平均信息熵表示视频标题在较专业的领域中的信息量;在人民日报文本中的平均信息熵表示视频标题在通用领域中的信息量。对二者进行综合考虑,使得视频标题信息量度量结果更加客观可信。在一些实施例中,在步骤S2中,通过下式统计各词语在所有视频标题文本中出现的概率:其中,pi是视频标题中第i个词语在所有视频标题文本中出现的概率,Ni是视频标题中第i个词语在所有视频标题文本中出现的次数,N是所有视频标题文本中出现的词语的总出现次数;以及通过下式统计各词语在所有参照文本中出现的概率:其中,si是视频标题中第i个词语在参照文本中出现的概率,Mi是视频标题中第本文档来自技高网...

【技术保护点】
1.一种视频标题信息量的度量方法,包括以下步骤:S1、将待度量的视频标题文本切分为一个或多个单独的词语;S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在所述参照文本中出现的概率;S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵;以及S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。

【技术特征摘要】
1.一种视频标题信息量的度量方法,包括以下步骤:S1、将待度量的视频标题文本切分为一个或多个单独的词语;S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在所述参照文本中出现的概率;S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵;以及S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。2.根据权利要求1所述的方法,其中,步骤S1还包括去除所述词语中的无意义词语的步骤。3.根据权利要求1所述的方法,其中,在步骤S2中,通过下式统计各词语在所有视频标题文本中出现的概率:其中,pi是视频标题中第i个词语在所有视频标题文本中出现的概率,Ni是视频标题中第i个词语在所有视频标题文本中出现的次数,N是所有视频标题文本中出现的词语的总出现次数;以及通过下式统计各词语在所有参照文本中出现的概率:其中,si是视频标题中第i个词语在参照文本中出现的概率,Mi是视频标题中第i个词语在参照文本中出现的次数...

【专利技术属性】
技术研发人员:王璐张文明陈少杰
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1