内容的识别方法技术

技术编号:39567734 阅读:9 留言:0更新日期:2023-12-03 19:18
本申请实施例提供了一种内容的识别方法

【技术实现步骤摘要】
内容的识别方法、装置、电子设备及存储介质


[0001]本申请属于人工智能
,具体而言,本申请涉及一种内容的识别方法

装置

电子设备及存储介质


技术介绍

[0002]随着信息技术的发展,互联网技术随之发展,越来越多的人通过互联网在内容平台上发布一些信息,以让其他人可以看到这些信息,例如,读后感

产品的使用感受以及小说等

[0003]当然,很多人也会通过知识介绍

体验分享以及消费测评等形式,通过互联网在内容平台上推销商品或者服务,并且有可能会附带一些购买方式,然而这些内容若在内容平台上进行发布,均需要进行显著的标识,以使得读者可以明确的获知这些内容属于商业营销内容,但是,目前很多人在往内容平台上发布这些商业营销内容时,均不进行标识,此时需要内容平台对这些商业营销内容进行标识,但是如何准确地识别出商业营销内容成为一个关键问题


技术实现思路

[0004]本申请实施例的目的旨在提供一种能够识别出商业营销内容的内容的识别方法

装置

电子设备及存储介质

为了实现上述目的,本申请实施例提供的技术方案如下:
[0005]第一方面,提供了一种内容的识别方法,包括:
[0006]获取待识别的多媒体信息,所述多媒体信息中包括:文本

图片或者视频中的至少一项;
[0007]确定所述多媒体信息对应的文本内容;
[0008]采用训练好的目标网络模型执行以下操作,识别所述多媒体内容是否包含营销内容:
[0009]确定所述文本内容的内容长度,若所述内容长度不小于预设长度阈值,则将所述文本内容拆分为至少两部分子内容;
[0010]对于每一子内容,提取得到该子内容的主题内容;
[0011]将各子内容的主题内容合并,将合并后的内容作为所述多媒体信息对应的目标内容;
[0012]若所述内容长度小于所述预设长度阈值,则将所述文本内容确定为所述目标内容;
[0013]基于所述目标内容,识别所述多媒体信息是否包含营销内容

[0014]在一种可能的实现方式中,采用训练好的目标网络模型,提取得到该子内容的主题内容,包括:
[0015]获取已构建的第一提示命令,所述第一提示命令用于提示所述目标模型提取该子内容的主题内容;
[0016]将所述第一提示命令与所述该子内容进行合并,并采用训练好的目标网络模型提取得到该子内容的主题内容,或者,
[0017]将所述第一提示命令与所述文本内容进行合并,并采用训练好的目标网络模型提取得到该子内容的主题内容

[0018]在另一种可能的实现方式中,所述确定所述多媒体信息对应的文本内容,之后还包括:
[0019]确定所述多媒体信息对应的文本内容中是否包含营销推广信息;
[0020]若包含所述营销推广信息,则确定所述多媒体信息中包含营销内容;
[0021]其中,所述确定所述文本内容的内容长度,包括:
[0022]若不包含所述营销推广信息,则确定所述文本内容的内容长度

[0023]在另一种可能的实现方式中,所述营销推广信息包括:商品推广链接;
[0024]确定所述多媒体信息对应的文本内容中是否包含商品推广链接,包括:
[0025]通过正则表达式,识别所述文本内容中是否包含链接;
[0026]若包含,则从所述链接中提取域名或者识别所述链接对应的链接内容中的至少一项;
[0027]基于提取的域名或者识别出的链接内容中的至少一项,确定所述链接是否属于商品推广链接

[0028]在另一种可能的实现方式中,所述营销推广信息包括:商品推广二维码;
[0029]若所述文本内容中包含至少一张图片,则确定所述多媒体信息对应的文本内容中是否包含商品推广二维码,包括:
[0030]从超文本标记语言
HTML
文本中获取每张图片的图片尺寸;
[0031]确定所述图片尺寸满足预设尺寸要求的图片;
[0032]获取满足预设尺寸要求的每张图片对应的图片地址;
[0033]基于所述图片地址,获取每张图片对应的图片内容;
[0034]从所述图片内容中提取二维码特征,并基于所述二维码特征在对应的图片内容中识别二维码;
[0035]对识别到的二维码进行解码处理,以得到对应的文本内容;
[0036]基于所述得到的文本内容,确定所述多媒体信息对应的文本内容中是否包含商品推广二维码

[0037]在另一种可能的实现方式中,基于所述目标内容,并采用训练好的目标网络模型,识别所述多媒体信息是否包含营销内容,包括:
[0038]从所述指令数据库中,筛选出所述目标内容对应的第二提示命令,所述第二提示命令用于提示所述目标网络模型基于所述目标内容识别出所述多媒体信息中是否包含营销内容;
[0039]基于所述目标内容以及对应的第二提示命令,并采用训练好的目标网络模型,识别所述多媒体信息是否包含营销内容

[0040]在另一种可能的实现方式中,所述将所述文本内容拆分为至少两部分子内容,包括:
[0041]确定所述文本内容的长度;
[0042]基于所述文本内容的长度,确定拆分为
N
部分子内容,所述
N
为不小于2的整数;
[0043]将所述文本内容,拆分为
N
部分子内容

[0044]在另一种可能的实现方式中,所述将所述文本内容的长度,拆分为
N
部分内容,包括:
[0045]若所述文本内容的段落数量不小于
N
,则根据段落之间的关联关系,将所述文本内容拆分为
N
部分子内容;
[0046]若所述文本内容的段落数量小于
N
,则根据每段文本内容的长度,确定待拆分的段落,并基于所述待拆分的段落,将所述文本内容拆分为
N
部分子内容

[0047]在另一种可能的实现方式中,所述将各子内容的主题内容进行合并,包括:
[0048]确定各子内容之间的关联关系;
[0049]根据所述各子内容之间的关联关系,确定待进行调整的主题内容以及对应的调整方式;
[0050]基于所述对应的调整方式,对所述待进行调整的主题内容进行调整;
[0051]将调整后的主题内容以及未被调整的主题内容进行合并

[0052]在另一种可能的实现方式中,所述多媒体信息中包括:待发布的多媒体信息以及已发布的多媒体信息;
[0053]若所述多媒体信息中包含所述营销内容,所述方法还包括:
[0054]生成目标标识,并在所述待发布的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种内容的识别方法,其特征在于,包括:获取待识别的多媒体信息,所述多媒体信息中包括:文本

图片或者视频中的至少一项;确定所述多媒体信息对应的文本内容;采用训练好的目标网络模型执行以下操作,识别所述多媒体内容是否包含营销内容:确定所述文本内容的内容长度,若所述内容长度不小于预设长度阈值,则将所述文本内容拆分为至少两部分子内容;对于每一子内容,提取得到该子内容的主题内容;将各子内容的主题内容合并,将合并后的内容作为所述多媒体信息对应的目标内容;若所述内容长度小于所述预设长度阈值,则将所述文本内容确定为所述目标内容;基于所述目标内容,识别所述多媒体信息是否包含营销内容
。2.
根据权利要求1所述的方法,其特征在于,采用训练好的目标网络模型,提取得到该子内容的主题内容,包括:获取已构建的第一提示命令,所述第一提示命令用于提示所述目标模型提取该子内容的主题内容;将所述第一提示命令与所述该子内容进行合并,并采用训练好的目标网络模型提取得到该子内容的主题内容,或者,将所述第一提示命令与所述文本内容进行合并,并采用训练好的目标网络模型提取得到该子内容的主题内容
。3.
根据权利要求1所述的方法,其特征在于,所述确定所述多媒体信息对应的文本内容,之后还包括:确定所述多媒体信息对应的文本内容中是否包含营销推广信息;若包含所述营销推广信息,则确定所述多媒体信息中包含营销内容;其中,所述确定所述文本内容的内容长度,包括:若不包含所述营销推广信息,则确定所述文本内容的内容长度
。4.
根据权利要求3所述的方法,其特征在于,所述营销推广信息包括:商品推广链接;确定所述多媒体信息对应的文本内容中是否包含商品推广链接,包括:通过正则表达式,识别所述文本内容中是否包含链接;若包含,则从所述链接中提取域名或者识别所述链接对应的链接内容中的至少一项;基于提取的域名或者识别出的链接内容中的至少一项,确定所述链接是否属于商品推广链接
。5.
根据权利要求3所述的方法,其特征在于,所述营销推广信息包括:商品推广二维码;若所述文本内容中包含至少一张图片,则确定所述多媒体信息对应的文本内容中是否包含商品推广二维码,包括:从超文本标记语言
HTML
文本中获取每张图片的图片尺寸;确定所述图片尺寸满足预设尺寸要求的图片;获取满足预设尺寸要求的每张图片对应的图片地址;基于所述图片地址,获取每张图片对应的图片内容;从所述图片内容中提取二维码特征,并基于所述二维码特征在对应的图片内容中识别
二维码;对识别到的二维码进行解码处理,以得到对应的文本内容;基于所述得到的文本内容,确定所述多媒体信息对应的文本内容中是否包含商品推广二维码
。6.
根据权利要求1所述的方法,其特征在于,基于所述目标内容,并采用训练好的目标网络模型,识别所述多媒体信息是否包含营销内容,包括:从所述指令数据库中,筛选出所述目标内容对应的第二提示命令,所述第二提示命令用于提示所述目标网络模型基于所述目标内容识别出所述多媒体信息中是否包含营销内容;基于所述目标内容以及对应的第二提示命令,并...

【专利技术属性】
技术研发人员:余自强
申请(专利权)人:腾讯科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1