一种基于向量的音频广告插入方法技术

技术编号：41246761 阅读：2 留言：0更新日期：2024-05-09 23:56

本发明专利技术公开了一种基于向量的音频广告插入方法，其包括以下步骤：S1、将节目音频进行向量化；S2、将广告音频进行向量化；S3、计算节目音频向量化结果和广告音频向量化结果的相似度，滤除相似度小于相似度阈值的广告音频向量化结果；S4、在剩余的广告音频向量化结果中选择最高相似度所对应的若干个广告音频作为插入广告，将插入广告插入到节目音频中。本方案解决了广告方式太过单一、曝光度低、音频节目植入音频广告需要二次修改、人力成本太高的问题，适用于网络电台、听书等应用场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频数据处理领域，尤其是涉及一种基于向量的音频广告插入方法。

技术介绍

1、如今，商业音频广告渐渐成为主流，在这一趋势下，如何有效地连接特定群体，如何有效的在相关场景进行推送，成为广告主在做商业音频广告投放时考虑的因素，当前广告主更多是采用了音频贴片广告和定制音频广告的方式：

2、1.音频贴片广告，在音频内容开始时、结束时添加商业音频广告；

3、2.定制音频广告，与具有影响力的音频内容创作者或意见领袖进行合作，让他们在自己的音频节目中进行商业音频广告的植入。

4、广告的插入方法主要为：

5、1.通过音频剪辑工具导入音频素材，人工对音频进行核对拆分，在对应的音频段落中插入商业化广告音频，并合成输出；

6、2.不修改音频内容，在音频的头部或者尾部加入商业化音频广告；

7、3.在音频内容录制过程中，就将商业化广告内容一起录制了进去，并合成输出。

8、当前音频节目中植入商业音频广告的方式过于单一，而一部音频节目中可能存在不同含义的音频内容片段，出现与植入的商业音频广告的匹配度低问题，导致广告效果不理想，而有些在录制音频内容时就将商业广告内容一起录制进去，后期如果需要调整修改则需要人工对音频进行二次处理，操作繁琐人力成本高，广告曝光受该音频内容曝光影响。

技术实现思路

1、本专利技术主要是解决现有技术所存在的插入方式单一、人力成本较高等的技术问题，提供一种通过智能匹配动态植入商业音频广告，人力成

2、本专利技术针对上述技术问题主要是通过下述技术方案得以解决的：一种基于向量的音频广告插入方法，包括以下步骤：

3、s1、将节目音频进行向量化；

4、s2、将广告音频进行向量化；

5、s3、计算节目音频向量化结果和广告音频向量化结果的相似度，滤除相似度小于相似度阈值的广告音频向量化结果；

6、s4、在剩余的广告音频向量化结果中选择最高相似度所对应的若干个广告音频作为插入广告，将插入广告插入到节目音频中。

7、作为优选，所述步骤s1包括：

8、s101、节目音频预处理：对节目音频数据进行预处理，包括去除噪声和标准化，以提高语音识别的准确性；

9、s102、节目语音识别：通过语音识别提取节目音频中的文本内容，通常包括特征提取、模型训练和后处理等步骤，可以将音频数据转换为文本表示；对识别出的文本内容依据场景和内容进行拆分出若干个模块，并将原音频也按照文本内容拆分情况对应拆分，拆分后的音频模块和拆分后的文本模块一一对应；

10、s103、节目文本向量化：对文本模块数据分别进行向量化，以得到它们的向量表示；文本向量化方法包括词袋模型、tf-idf等；

11、s104、节目音频向量化：从每个音频模块中提取特征，然后将提取的特征逐一转化为向量形式，生成每个音频模块的向量表示；这个过程可以通过机器学习算法（如主成分分析（pca））或深度学习模型（如循环神经网络（rnn）或卷积神经网络（cnn））来实现并存储音频向量特征；

12、s105、节目音频向量和节目文本向量的融合：将文本模块向量化的结果和与其对应的音频模块向量化的结果进行融合，得到每个音频模块的融合向量，即为更全面的音频和文本的表示。

13、作为优选，所述步骤s2具体为：

14、s201、广告音频预处理：对广告音频数据进行预处理，包括去除噪声和标准化等操作，以提高语音识别的准确性；

15、s202、广告语音识别：通过语音识别提取广告音频中的文本内容，通常包括特征提取、模型训练和后处理等步骤，可以将音频数据转换为文本表示；

16、s203、广告文本向量化：对广告音频中识别的文本内容数据进行向量化，以得到它们的向量表示；文本向量化方法包括词袋模型、tf-idf等；

17、s204、广告音频向量化：从广告音频数据中提取特征，然后将提取的特征转化为向量形式，生成广告音频的向量表示；这个过程可以通过机器学习算法（如主成分分析（pca））或深度学习模型（如循环神经网络（rnn）或卷积神经网络（cnn））来实现并存储音频向量特征；

18、s205、广告音频向量和广告文本内容向量的融合：将步骤s203中广告文本向量化的结果和步骤s204中广告音频向量化的结果进行融合，得到广告融合向量。

19、如果广告为文本形式，则先通过tts语音合成技术转换成语音广告，然后按步骤s203将原始文本数据转换为向量化，按步骤s204将语音广告向量化，再按照步骤s205进行向量融合。广告一般时长较短，并且场景和内容单一，不需要进行拆分。

20、作为优选，步骤s105和步骤s205中，采用以下方法对向量化数据进行融合：

21、s1051、特征对齐：将音频的向量表示和文本的向量表示在时间或语义上对齐，以便进行融合；

22、s1052、融合：音频和文本特征的融合；融合策略包括加权平均、特征拼接或使用神经网络进行融合；

23、s1053、归一化：对融合后的数据进行归一化或标准化，以确保音频和文本不同特征的数值范围一致。

24、并且根据具体业务需求，可以对组合后的数据进行进一步的后处理，如降维、特征选择等。

25、作为优选，所述步骤s3具体为：

26、s301、对于节目音频的各个音频模块和广告音频的组合，计算它们之间的向量相似度；

27、s302、将计算出的相似度值整理成矩阵形式，矩阵中的每个元素表示相应音频模块的融合向量和广告融合向量之间的相似度；

28、s303、对矩阵进行归一化处理，即将每个元素除以该列的最大值，使得相似度值在0-1之间；

29、s304、根据设定的相似度阈值进行过滤，删除小于相似度阈值的广告音频。

30、向量相似度可以通过余弦相似度、欧几里得距离或皮尔逊相关系数等度量方法来计算。

31、作为优选，所述步骤s4具体为：

32、s401、根据设定的广告插入数量n，从剩余的广告音频中选择相似度最大的n个广告音频作为插入的广告；

33、s402、对有声内容进行分析，以了解其结构和特点；包括：

34、内容结构分析：分析音频内容的整体结构和各部分之间的关系；例如，可以识别出章节、段落或关键事件；

35、音频特征提取：提取出能够代表内容的声音特征，例如音高、音强、音长等；

36、语义理解：使用深度学习模型来理解语音内容，识别出关键词、主题或情绪；

37、s403、确定广告的插入点并插入，包括两种方法：

38、内容节点：在内容的某个特定部分或关键点上插入向量匹配后的音频广告，例如在高潮部分或转折点；

39、语义节点：使用深度学习模型技术本文档来自技高网...

【技术保护点】

1.一种基于向量的音频广告插入方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于向量的音频广告插入方法，其特征在于，所述步骤S1包括：

3.根据权利要求2所述的一种基于向量的音频广告插入方法，其特征在于，所述步骤S2具体为：

4.根据权利要求3所述的一种基于向量的音频广告插入方法，其特征在于，步骤S105和步骤S205中，采用以下方法对向量化数据进行融合：

5.根据权利要求1或4所述的一种基于向量的音频广告插入方法，其特征在于，所述步骤S3具体为：

6.根据权利要求5所述的一种基于向量的音频广告插入方法，其特征在于，所述步骤S4具体为：

7.根据权利要求1所述的一种基于向量的音频广告插入方法，其特征在于，还包括以下步骤：

【技术特征摘要】

1.一种基于向量的音频广告插入方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于向量的音频广告插入方法，其特征在于，所述步骤s1包括：

3.根据权利要求2所述的一种基于向量的音频广告插入方法，其特征在于，所述步骤s2具体为：

4.根据权利要求3所述的一种基于向量的音频广告插入方法，其特征在于，步骤s105...

【专利技术属性】
技术研发人员：赵天成，陈高云，俞振飞，余海，张得军，
申请(专利权)人：杭州联汇科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人