【技术实现步骤摘要】
标签建立方法、装置、电子设备及介质
本专利技术涉及数据处理
,尤其涉及一种标签建立方法、装置、电子设备及介质。
技术介绍
随着信息网络的发展,新闻文本爆炸式地增长,且文本大多篇幅较长,为了方便读者在阅读之前就可以大致了解文本的内容,在对新闻事件进行报导或者评论时,会对文本内容进行表征,进而筛选出有用的信息。由于新闻文本涵盖了娱乐、科技等各行各业的信息,因此,人工对新闻文本进行打标签时需要熟知各行各业的专有名词,进而影响标签建立的效率,为此,基于新闻标签的建立方法应运而生。在现有的基于新闻标签的建立方法中,采用隐马尔科夫模型对文本内容中的实体进行确定,然而,隐马尔科夫模型在确定实体时只考虑当前词及前面的词,而没有考虑后面的词对当前词带来的影响,不够全面,进而导致建立的标签准确率低。因此,如何构建准确的新闻标签建立方案,成了有待解决的技术问题。
技术实现思路
鉴于以上内容,有必要提供一种标签建立方法、装置、电子设备及介质,能够提高标签的准确率。一种标签建立方法,所述方法包括:当接收到打标签指令时,从所述打标签指令中提取新闻文本;对所述新闻文本进行预处理,得到至少一个分词;对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个 ...
【技术保护点】
1.一种标签建立方法,其特征在于,所述标签建立方法包括:/n当接收到打标签指令时,从所述打标签指令中提取新闻文本;/n对所述新闻文本进行预处理,得到至少一个分词;/n对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;/n对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;/n将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;/n对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;/n根据所述至少一个概率向量确定所述新闻文本的标签。/n
【技术特征摘要】
1.一种标签建立方法,其特征在于,所述标签建立方法包括:
当接收到打标签指令时,从所述打标签指令中提取新闻文本;
对所述新闻文本进行预处理,得到至少一个分词;
对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特征向量;
对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量;
将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的;
对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量;
根据所述至少一个概率向量确定所述新闻文本的标签。
2.如权利要求1所述的标签建立方法,其特征在于,所述对所述新闻文本进行预处理,得到至少一个分词包括:
过滤所述新闻文本中的配置字符,得到第一文本;
对所述第一文本中的预设字段进行词法分析处理,得到第二文本;
根据预设词典对所述第二文本进行切分,得到切分位置;
根据所述第二文本及所述切分位置,构建有向无环图;
根据所述预设词典中的权值计算所述有向无环图中每条路径的概率;
将概率最大的路径对应的切分位置确定为目标切分位置;
根据所述目标切分位置确定所述至少一个分词。
3.如权利要求1所述的标签建立方法,其特征在于,所述对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量包括:
接收配置的向量个数;
对于每个第一特征向量,根据所述至少一个第一特征向量及所述向量个数确定该第一特征向量对应的上下文特征向量集;
将所述上下文特征向量集中每个特征向量分别与第一预设矩阵进行相乘、及计算相乘后的向量的平均值,得到中间向量;
将所述中间向量点乘第二预设矩阵,得到目标矩阵,所述目标矩阵中每列向量表征每个词对应的向量;
采用激活函数计算所述目标矩阵中每个词的概率;
将概率最大的词对应的向量确定为所述第二特征向量。
4.如权利要求1所述的标签建立方法,其特征在于,在将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量之前,所述标签建立方法还包括:
采用网络爬虫技术获取历史数据;
将所述历史数据输入到遗忘门层进行遗忘处理,得到训练数据,所述训练数据中每个训练数据包括第一输入向量、第二输入向量及已知输出向量;
采用交叉验证法将所述训练数据划分为训练集及验证集;
基于所述训练集中的第一输入向量、第二输入向量及已知输出向量进行训练,得到学习器;
将所述验证集中的第一输入向量及第二输入向量输入至所述学习器中,得到待测输出向量,及比较所述待测输出向量及所述已知输出向量;
当...
【专利技术属性】
技术研发人员:赵焕丽,徐国强,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。