一种调文章标注的方法及系统技术方案

技术编号:33126429 阅读:42 留言:0更新日期:2022-04-17 00:36
本发明专利技术提供一种调文章标注的方法及系统,包括,获取目标文本,并识别所述目标文本中的语句及每个语句中的词语;通过预设的语义匹配模型统计预处理后的目标文本中每个词语的出现频率,根据预设的权重阈值对统计结果进行筛选,得到候选标签;通过预设的向量模型对候选标签进行合并,得到最终的标签,并通过所述最终的标签对目标文本进行标注。本发明专利技术实现文章自动打标签。从文章归类、文章筛选、文章推荐三个角度辅助文章管理,针对运行日报等结构化文档,可实现机器自动打标签,大幅提升文章识别效率,减轻文章归类筛选管理负担。减轻文章归类筛选管理负担。减轻文章归类筛选管理负担。

【技术实现步骤摘要】
一种调文章标注的方法及系统


[0001]本专利技术涉及文章标注
,特别是涉及一种调文章标注的方法及系统。

技术介绍

[0002]随着网络信息技术的飞速发展,当今正处于网络信息爆炸的时代,新闻、公众号文章、微博等不同类别文章覆盖了人们日常工作、生活和学习的各个方面。通过对文章标签分类,以精准的向用户推荐想要看到内容,不仅能够降低用户获取有效信息的成本,还能够延长用户访问的时间,提高产品的转化率。但是,如何对文章的标题和内容进行深度分析,输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的置信度成为目前的一大难点。

技术实现思路

[0003]本专利技术的目的在于,提出一种文章标注的方法及系统,解决如何对文章的标题和内容进行深度分析,输出能够反映文章关键信息的标签的技术问题。
[0004]一方面,提供一种调文章标注的方法,包括:
[0005]获取目标文本,并识别所述目标文本中的语句及每个语句中的词语;
[0006]通过预设的语义匹配模型统计预处理后的目标文本中每个词语的出现频率,根据预设的权重阈值对统计结果进行筛选,得到候选标签;
[0007]通过预设的向量模型对候选标签进行合并,得到最终的标签,并通过所述最终的标签对目标文本进行标注。
[0008]优选地,所述得到候选标签具体包括:
[0009]将统计的每个词语的出现频率与预设的权重阈值比较;
[0010]若某个词语的出现频率小于预设的权重阈值,则将该词语判定为候选标签;
[0011]若某个词语的出现频率大于等于预设的权重阈值,则将该词语判定为常用词语并过滤掉该词语。
[0012]优选地,还包括:
[0013]当得到候选标签时,通过预设的语义匹配模型将每个候选标签的出现频率与预设的标准值进行比较,根据每个候选标签的出现频率与预设的标准值的差值对每个候选标签匹配对应的权重值。
[0014]优选地,所述通过预设的向量模型对候选标签进行合并具体包括:
[0015]预设的向量模型将候选标签转换成对应的向量,并将与所述候选标签对应的向量作为目标文本的特征项;
[0016]将所述候选标签对应的权重值作为对应特征项的权重值。
[0017]优选地,所述通过预设的向量模型对候选标签进行合并还包括:
[0018]预设的向量模型根据特征项及对应的权重值确定与所述候选标签对应的夹角余弦值;
[0019]当多个所述候选标签的夹角余弦值的差值在预设的合并阈值范围内时,判定所述多个所述候选标签相近或相似,并将所述多个所述候选标签合并为一个最终的标签。
[0020]另一方面,还提供一种调文章标注的系统,用以实现所述的调文章标注的方法,包括:
[0021]预处理模块,用以获取目标文本,并识别所述目标文本中的语句及每个语句中的词语;
[0022]标签模块,用以通过预设的语义匹配模型统计预处理后的目标文本中每个词语的出现频率,根据预设的权重阈值对统计结果进行筛选,得到候选标签;
[0023]标注模块,用以通过预设的向量模型对候选标签进行合并,得到最终的标签,并通过所述最终的标签对目标文本进行标注。
[0024]优选地,所述标签模块还用于将统计的每个词语的出现频率与预设的权重阈值比较;
[0025]若某个词语的出现频率小于预设的权重阈值,则将该词语判定为候选标签;
[0026]若某个词语的出现频率大于等于预设的权重阈值,则将该词语判定为常用词语并过滤掉该词语。
[0027]优选地,所述标签模块还用于当得到候选标签时,通过预设的语义匹配模型将每个候选标签的出现频率与预设的标准值进行比较,根据每个候选标签的出现频率与预设的标准值的差值对每个候选标签匹配对应的权重值。
[0028]优选地,所述标注模块还用于预设的向量模型将候选标签转换成对应的向量,并将与所述候选标签对应的向量作为目标文本的特征项;
[0029]将所述候选标签对应的权重值作为对应特征项的权重值。
[0030]优选地,所述标注模块还用于预设的向量模型根据特征项及对应的权重值确定与所述候选标签对应的夹角余弦值;
[0031]当多个所述候选标签的夹角余弦值的差值在预设的合并阈值范围内时,判定所述多个所述候选标签相近或相似,并将所述多个所述候选标签合并为一个最终的标签。
[0032]综上,实施本专利技术的实施例,具有如下的有益效果:
[0033]本专利技术提供的调文章标注的方法及系统,基于大数据的深度学习,自动学习深层次的语义及语序特征,利用查询分析、语义搜索等技术,实现文章自动打标签。从文章归类、文章筛选、文章推荐三个角度辅助文章管理,针对运行日报等结构化文档,可实现机器自动打标签,大幅提升文章识别效率,减轻文章归类筛选管理负担。且维度丰富,多种维度信息,包含主题、话题、实体等多种维度标签,全面覆盖文章中关键信息。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本专利技术的范畴。
[0035]图1为本专利技术实施例中一种调文章标注的方法的主流程示意图。
[0036]图2为本专利技术实施例中一种向量模型的示意图。
[0037]图3为本专利技术实施例中一种调文章标注的系统的示意图。
具体实施方式
[0038]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述。
[0039]如图1所示,为本专利技术提供的一种调文章标注的方法的一个实施例的示意图。在该实施例中,所述方法包括以下步骤:
[0040]获取目标文本,并识别所述目标文本中的语句及每个语句中的词语;也就是,主要负责进行通用的文本分析工作,例如文档分段、分词、分句、pos tagging,命名实体识别(ner)以及依存分析等;标签是一些概括程度高、语义简明扼要、用户耳熟能详的词或短语,都是以观点主体+该主体属性构成。比如空间是观点的主体,够用是这个主体的属性。根据这种规律,结合自然语言处理中的依存句法分析,就可以做一些初始提取。所述的识别所述目标文本中的语句及每个语句中的词语主要是指中文分词算法,可以采用两种方法:基于词典的中文分词和基于统计的中文分词;本实施例中主要基于词典的中文分词,核心是通过预先建立统一的词典表,当需要对一个句子进行分词时,首先将句子拆分成多个部分,将每一个部分与字典一一对应,如果该词语在词典中,分词成功,否则继续拆分匹配直到成功。
[0041]进一步的,通过预设的语义匹配模型统计预处理后的目标文本中每个词语的出现频率,根据预设的权重阈值对统计结果进行筛选,得到候选标签;也就是,通过分析文档结构和词语的统计信息抽取关注点;基于深度学习训练的语义匹配算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种调文章标注的方法,其特征在于,包括:获取目标文本,并识别所述目标文本中的语句及每个语句中的词语;通过预设的语义匹配模型统计预处理后的目标文本中每个词语的出现频率,根据预设的权重阈值对统计结果进行筛选,得到候选标签;通过预设的向量模型对候选标签进行合并,得到最终的标签,并通过所述最终的标签对目标文本进行标注。2.如权利要求1所述的方法,其特征在于,所述得到候选标签具体包括:将统计的每个词语的出现频率与预设的权重阈值比较;若某个词语的出现频率小于预设的权重阈值,则将该词语判定为候选标签;若某个词语的出现频率大于等于预设的权重阈值,则将该词语判定为常用词语并过滤掉该词语。3.如权利要求2所述的方法,其特征在于,还包括:当得到候选标签时,通过预设的语义匹配模型将每个候选标签的出现频率与预设的标准值进行比较,根据每个候选标签的出现频率与预设的标准值的差值对每个候选标签匹配对应的权重值。4.如权利要求3所述的方法,其特征在于,所述通过预设的向量模型对候选标签进行合并具体包括:预设的向量模型将候选标签转换成对应的向量,并将与所述候选标签对应的向量作为目标文本的特征项;将所述候选标签对应的权重值作为对应特征项的权重值。5.如权利要求4所述的方法,其特征在于,所述通过预设的向量模型对候选标签进行合并还包括:预设的向量模型根据特征项及对应的权重值确定与所述候选标签对应的夹角余弦值;当多个所述候选标签的夹角余弦值的差值在预设的合并阈值范围内时,判定所述多个所述候选标签相近或相似,并将所述多个所述候选标签合并为一个最终的标签。6.一种调文章标注的系统,用以实现如权利要...

【专利技术属性】
技术研发人员:许冠中张云翔
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1