基于词向量语义分析的执法视频评价方法及装置制造方法及图纸

技术编号:35351030 阅读:22 留言:0更新日期:2022-10-26 12:19
本发明专利技术实施例提供一种基于词向量语义分析的执法视频评价方法及装置,属于视频数据处理领域。所述方法包括:对获取的视频数据中的音频信息进行提取、转化,得到音频文本;根据构建的特征词库对音频文本进行特征词识别分类,得到异常音频文本,并对异常音频文本进行处理;将处理后的异常音频文本输入至训练好的短文本分类器中进行短文本识别分类,得到非规范音频文本;构建由多个非规范音频文本构成的异常文本集合。基于特征词库在进行语义分析,能提高分析结果的准确性,降低了分类的复杂度。本发明专利技术在词粒度和语句粒度上分别对音频文本进行语义分析,提高了识别的准确度和可靠性。提高了识别的准确度和可靠性。提高了识别的准确度和可靠性。

【技术实现步骤摘要】
基于词向量语义分析的执法视频评价方法及装置


[0001]本专利技术涉及视频数据处理领域,具体地涉及一种基于词向量语义分析的执法视频评价方法、一种基于词向量语义分析的执法视频评价装置、一种电子设备及一种计算机可读存储介质。

技术介绍

[0002][0003]然而在实际应用中,由于执法视频的多样性和海量性,传统的人工进行评价和分析的方式,存在着效率低、成本高等缺陷。对此现有技术中通过信息技术对执法视频进行分析和处理,能实现对执法视频的自动化监管。
[0004]而上述方法在实际应用中至少还存在以下问题:由于缺乏领域特征词库的支持,分析过程相对复杂,且最终的结果和实际情况偏差会比较大。

技术实现思路

[0005]本专利技术实施例的目的是提供基于词向量语义分析的执法视频评价方法及装置,以解决现有的分析方法存在着分析结果与实际情况偏差比较大的问题。
[0006]为了实现上述目的,本专利技术实施例提供一种基于词向量语义分析的执法视频评价方法,所述方法包括:
[0007]对获取的视频数据中的音频信息进行提取、转化,得到音频文本;
[0008]根据构建的特征词库对音频文本进行特征词识别分类,得到异常音频文本,并对异常音频文本进行处理;
[0009]将处理后的异常音频文本输入至训练好的短文本分类器中进行短文本识别分类,得到非规范音频文本;
[0010]构建由多个非规范音频文本构成的异常文本集合。
[0011]可选的,对音频文本进行特征词识别分类,包括:
[0012]对音频文本进行预处理,得到特征文本,所述预处理包括分语句处理和分词处理;
[0013]根据特征词库统计特征文本中的有效词数量、正面特征词数量和负面特征词数量,所述特征词库包括正面词库和负面词库;
[0014]根据有效词数量、正面特征词数量和负面特征词数量计算出音频文本的异常度量值;
[0015]判断异常度量值是否超过设定的词阈值,若超过,则确定该音频文本为异常音频文本。
[0016]可选的,所述异常度量值δ的公式为:
[0017][0018]式中,N
p
为正面特征词数量,N为有效词数量、N
n
为负面特征词数量,α为负面特征词的权重系数,β为正面特征词的权重系数。
[0019]可选的,对异常音频文本进行处理,包括:
[0020]构建由多个异常音频文本构成的异常候选集。
[0021]可选的,进行短文本分类器训练,包括:
[0022]获取来自不同音频文本中的多个语句;
[0023]对获取的语句进行标注和分类,得到具有分类标签的标签语句,所述标签语句的分类标签包括正面标签和负面标签;
[0024]基于Word2Vec模型将标签语句转换为具有序列的特征向量作为训练样本;
[0025]构建基于卷积神经网络的短文本分类器;
[0026]利用所述训练样本对短文本分类器进行训练,得到训练好的短文本分类器。
[0027]可选的,将异常音频文本输入至训练好的短文本分类器中进行短文本识别分类,得到非规范音频文本,包括:
[0028]将异常文本候选集中的音频文本进行语句处理,构建句子集合 S
i
={s1,s2…
s
n
};
[0029]将句子集合S
i
中的任意句子转化为词向量;
[0030]将词向量输入至训练好的短文本分类器中预测该词向量对应的句子的分类标签;
[0031]计算句子集合S
i
中分类标签为负面标签的句子数量;
[0032]判断分类标签为负面标签的句子数量是否超过设定的句阈值,若超过,则确定该音频文本为非规范音频文本。
[0033]可选的,所述方法还包括:
[0034]利用异常文本集合中的非规范音频文本构建反馈数据集;
[0035]将所述反馈数据集作为短文本分类器的迭代训练样本。
[0036]可选的,所述方法还包括:对所述特征词库进行更新处理,所述更新处理包括动态添加和删除。
[0037]本专利技术实施例还提供一种基于词向量语义分析的执法视频评价装置,用于实现上述的基于词向量语义分析的执法视频评价方法,所述装置包括:
[0038]处理模块,对获取的视频数据中的音频信息进行提取、转化,得到音频文本;
[0039]特征词识别分类模块,用于根据构建的特征词库对音频文本进行特征词识别分类,得到异常音频文本,并对异常音频文本进行处理;
[0040]短文本识别分类模块,用于将处理后的异常音频文本输入至训练好的短文本分类器中进行短文本识别分类,得到非规范音频文本;
[0041]异常文本集合构建模块,用于构建由多个非规范音频文本构成的异常文本集合。
[0042]本专利技术实施例还提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于词向量语义分析的执法视频评价方法。
[0043]本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于词向量语义分析的执法视频评价方法。
[0044]通过上述技术方案,本专利技术通过建立特征词库,基于特征词库在进行语义分析,能提高分析结果的准确性,降低了分类的复杂度。本专利技术在词粒度和语句粒度上分别对音频
文本进行语义分析,提高了识别的准确度和可靠性。
[0045]本专利技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0046]附图是用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术实施例,但并不构成对本专利技术实施例的限制。在附图中:
[0047]图1是本专利技术一种实施方式提供的基于词向量语义分析的执法视频评价方法的流程图;
[0048]图2是本专利技术一种可选实施方式提供的特征词识别分类的流程图;
[0049]图3是本专利技术一种可选实施方式提供的短文本分类器的训练方法的流程图;
[0050]图4是本专利技术一种可选实施方式提供的短文本识别分类的流程图;
[0051]图5是本专利技术一种可选实施方式提供的基于词向量语义分析的执法视频评价装置的框图。
具体实施方式
[0052]以下结合附图对本专利技术实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术实施例,并不用于限制本专利技术实施例。
[0053]图1是本专利技术一种实施方式提供的基于词向量语义分析的执法视频评价方法的流程图,如图1所示,一种基于词向量语义分析的执法视频评价方法,所述方法包括:
[0054]步骤S10:对获取的视频数据中的音频信息进行提取、转化,得到音频文本。
[0055]在本实施例中,视频数据来自执法过程拍本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词向量语义分析的执法视频评价方法,其特征在于,所述方法包括:对获取的视频数据中的音频信息进行提取、转化,得到音频文本;根据构建的特征词库对音频文本进行特征词识别分类,得到异常音频文本,并对异常音频文本进行处理;将处理后的异常音频文本输入至训练好的短文本分类器中进行短文本识别分类,得到非规范音频文本;构建由多个非规范音频文本构成的异常文本集合。2.根据权利要求1所述的方法,其特征在于,对音频文本进行特征词识别分类,包括:对音频文本进行预处理,得到特征文本,所述预处理包括分语句处理和分词处理;根据特征词库统计特征文本中的有效词数量、正面特征词数量和负面特征词数量,所述特征词库包括正面词库和负面词库;根据有效词数量、正面特征词数量和负面特征词数量计算出音频文本的异常度量值;判断异常度量值是否超过设定的词阈值,若超过,则确定该音频文本为异常音频文本。3.根据权利要求1所述的方法,其特征在于,对异常音频文本进行处理,包括:构建由多个异常音频文本构成的异常候选集。4.根据权利要求2所述的方法,其特征在于,该方法还包括:进行短文本分类器训练,包括:获取来自不同音频文本中的多个语句;对获取的语句进行标注和分类,得到具有分类标签的标签语句,所述标签语句的分类标签包括正面标签和负面标签;基于Word2Vec模型将标签语句转换为具有序列的特征向量作为训练样本;构建基于卷积神经网络的短文本分类器;利用所述训练样本对短文本分类器进行训练,得到训练好的短文本分类器。5.根据权利要求4所述的方法,其特征在于,将异常音频文本输入至训练好的短文本分类器中进行短文本识别分类,得到非规范音频文本,包括:将异常文本候选集中的音频文本进行语句处理,构建句子集合S
i
={s1,s2...s
n
};将句子集合S<...

【专利技术属性】
技术研发人员:单培红卢会春任敏杰陈建军
申请(专利权)人:杭州天翼智慧城市科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1