标签建立方法、装置、电子设备及介质制造方法及图纸

技术编号:25309347 阅读:15 留言:0更新日期:2020-08-18 22:28
本发明专利技术提供一种标签建立方法、装置、电子设备及介质。该方法能够当接收到打标签指令时,从打标签指令中提取新闻文本,对新闻文本进行预处理,得到分词,对分词进行编码,得到第一特征向量,对每个第一特征向量进行上下文特征提取,得到第二特征向量,将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到目标特征向量,对目标特征向量进行映射处理,得到概率向量,并确定新闻文本的标签,通过将第一特征向量及第二特征向量进行融合处理,能够得到准确的目标特征向量,进而提高了标签的准确率,另外,通过标签的确定,不仅便于用户筛选出具有某些标签的新闻文本,还能使用户在阅读所述新闻文本之前了解新闻文本的内容。

【技术实现步骤摘要】
标签建立方法、装置、电子设备及介质
本专利技术涉及数据处理
,尤其涉及一种标签建立方法、装置、电子设备及介质。
技术介绍
随着信息网络的发展,新闻文本爆炸式地增长,且文本大多篇幅较长,为了方便读者在阅读之前就可以大致了解文本的内容,在对新闻事件进行报导或者评论时,会对文本内容进行表征,进而筛选出有用的信息。由于新闻文本涵盖了娱乐、科技等各行各业的信息,因此,人工对新闻文本进行打标签时需要熟知各行各业的专有名词,进而影响标签建立的效率,为此,基于新闻标签的建立方法应运而生。在现有的基于新闻标签的建立方法中,采用隐马尔科夫模型对文本内容中的实体进行确定,然而,隐马尔科夫模型在确定实体时只考虑当前词及前面的词,而没有考虑后面的词对当前词带来的影响,不够全面,进而导致建立的标签准确率低。因此,如何构建准确的新闻标签建立方案,成了有待解决的技术问题。
技术实现思路
鉴于以上内容,有必要提供一种标签建立方法、装置、电子设备及介质,能够提高标签的准确率。一种标签建立方法,所述方法包括:当接收到打标签指令时,从所述打标签指令中提取新闻文本;对所述新闻文本进行预处理,得到至少一个分词;对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;根据所述至少一个概率向量确定所述新闻文本的标签。根据本专利技术优选实施例,所述对所述新闻文本进行预处理,得到至少一个分词包括:过滤所述新闻文本中的配置字符,得到第一文本;对所述第一文本中的预设字段进行词法分析处理,得到第二文本;根据预设词典对所述第二文本进行切分,得到切分位置;根据所述第二文本及所述切分位置,构建有向无环图;根据所述预设词典中的权值计算所述有向无环图中每条路径的概率;将概率最大的路径对应的切分位置确定为目标切分位置;根据所述目标切分位置确定所述至少一个分词。根据本专利技术优选实施例,所述对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量包括:接收配置的向量个数;对于每个第一特征向量,根据所述至少一个第一特征向量及所述向量个数确定该第一特征向量对应的上下文特征向量集;将所述上下文特征向量集中每个特征向量分别与第一预设矩阵进行相乘、及计算相乘后的向量的平均值,得到中间向量;将所述中间向量点乘第二预设矩阵,得到目标矩阵,所述目标矩阵中每列向量表征每个词对应的向量;采用激活函数计算所述目标矩阵中每个词的概率;将概率最大的词对应的向量确定为所述第二特征向量。根据本专利技术优选实施例,在将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量之前,所述方法还包括:采用网络爬虫技术获取历史数据;将所述历史数据输入到遗忘门层进行遗忘处理,得到训练数据,所述训练数据中每个训练数据包括第一输入向量、第二输入向量及已知输出向量;采用交叉验证法将所述训练数据划分为训练集及验证集;基于所述训练集中的第一输入向量、第二输入向量及已知输出向量进行训练,得到学习器;将所述验证集中的第一输入向量及第二输入向量输入至所述学习器中,得到待测输出向量,及比较所述待测输出向量及所述已知输出向量;当所述待测输出向量及所述已知输出向量不一致时,根据所述验证集中的第一输入向量、第二输入向量及已知输出向量调整所述学习器,得到所述目标模型。根据本专利技术优选实施例,所述对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量包括:将所述至少一个目标特征向量分别乘以预设权重矩阵、及加上预设偏置值,得到至少一个分数向量;对所述至少一个分数向量进行归一化处理,得到所述至少一个概率向量。根据本专利技术优选实施例,所述根据所述至少一个概率向量确定所述新闻文本的标签包括:从所述打标签指令中确定所述新闻文本所属的目标领域,所述打标签指令中所携带的信息包括所述目标领域;从配置库中确定与所述目标领域对应的目标词典,所述配置库中存储多个领域与多个词典的映射关系;对于所述至少一个概率向量,将每个概率向量中概率最大的维度确定为目标维度,得到所述至少一个概率向量的至少一个目标维度;将所述至少一个目标维度在所述目标词典中对应的类别确定为所述新闻文本的标签。根据本专利技术优选实施例,在根据所述至少一个概率向量确定所述新闻文本的标签后,所述方法还包括:从所述打标签指令中获取所述新闻文本的文本编号;根据所述文本编号及所述标签生成提示信息;采用对称加密技术加密所述提示信息,得到密文;将所述密文发送至指定联系人的终端设备。一种标签建立装置,所述装置包括:提取单元,用于当接收到打标签指令时,从所述打标签指令中提取新闻文本;预处理单元,用于对所述新闻文本进行预处理,得到至少一个分词;编码单元,用于对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;所述提取单元,还用于对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;输入单元,用于将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;处理单元,用于对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;确定单元,用于根据所述至少一个概率向量确定所述新闻文本的标签。根据本专利技术优选实施例,所述预处理单元具体用于:过滤所述新闻文本中的配置字符,得到第一文本;对所述第一文本中的预设字段进行词法分析处理,得到第二文本;根据预设词典对所述第二文本进行切分,得到切分位置;根据所述第二文本及所述切分位置,构建有向无环图;根据所述预设词典中的权值计算所述有向无环图中每条路径的概率;将概率最大的路径对应的切分位置确定为目标切分位置;根据所述目标切分位置确定所述至少一个分本文档来自技高网...

【技术保护点】
1.一种标签建立方法,其特征在于,所述标签建立方法包括:/n当接收到打标签指令时,从所述打标签指令中提取新闻文本;/n对所述新闻文本进行预处理,得到至少一个分词;/n对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;/n对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;/n将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;/n对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;/n根据所述至少一个概率向量确定所述新闻文本的标签。/n

【技术特征摘要】
1.一种标签建立方法,其特征在于,所述标签建立方法包括:
当接收到打标签指令时,从所述打标签指令中提取新闻文本;
对所述新闻文本进行预处理,得到至少一个分词;
对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;
对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;
将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;
对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;
根据所述至少一个概率向量确定所述新闻文本的标签。


2.如权利要求1所述的标签建立方法,其特征在于,所述对所述新闻文本进行预处理,得到至少一个分词包括:
过滤所述新闻文本中的配置字符,得到第一文本;
对所述第一文本中的预设字段进行词法分析处理,得到第二文本;
根据预设词典对所述第二文本进行切分,得到切分位置;
根据所述第二文本及所述切分位置,构建有向无环图;
根据所述预设词典中的权值计算所述有向无环图中每条路径的概率;
将概率最大的路径对应的切分位置确定为目标切分位置;
根据所述目标切分位置确定所述至少一个分词。


3.如权利要求1所述的标签建立方法,其特征在于,所述对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量包括:
接收配置的向量个数;
对于每个第一特征向量,根据所述至少一个第一特征向量及所述向量个数确定该第一特征向量对应的上下文特征向量集;
将所述上下文特征向量集中每个特征向量分别与第一预设矩阵进行相乘、及计算相乘后的向量的平均值,得到中间向量;
将所述中间向量点乘第二预设矩阵,得到目标矩阵,所述目标矩阵中每列向量表征每个词对应的向量;
采用激活函数计算所述目标矩阵中每个词的概率;
将概率最大的词对应的向量确定为所述第二特征向量。


4.如权利要求1所述的标签建立方法,其特征在于,在将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量之前,所述标签建立方法还包括:
采用网络爬虫技术获取历史数据;
将所述历史数据输入到遗忘门层进行遗忘处理,得到训练数据,所述训练数据中每个训练数据包括第一输入向量、第二输入向量及已知输出向量;
采用交叉验证法将所述训练数据划分为训练集及验证集;
基于所述训练集中的第一输入向量、第二输入向量及已知输出向量进行训练,得到学习器;
将所述验证集中的第一输入向量及第二输入向量输入至所述学习器中,得到待测输出向量,及比较所述待测输出向量及所述已知输出向量;
当...

【专利技术属性】
技术研发人员:赵焕丽徐国强
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1