词语重要性的分析方法及装置制造方法及图纸

技术编号:22308440 阅读:20 留言:0更新日期:2019-10-16 08:32
本说明书一个或多个实施例公开了一种词语重要性的分析方法及装置,用以实现更加快速、准确地分析词语重要性的目的。所述方法包括:获取第一文本中待分析的多个词语;利用预先训练的特征识别模型对各所述词语进行特征识别,得到各所述词语分别对应的向量;确定各所述向量分别对应的重要性分值;其中,所述重要性分值包括以下至少一项:根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值;根据各所述重要性分值的大小,确定各所述分值对应的各所述词语在所述第一文本中的重要程度。

Analysis method and device of word importance

【技术实现步骤摘要】
词语重要性的分析方法及装置
本说明书涉及文本处理
,尤其涉及一种词语重要性的分析方法及装置。
技术介绍
目前,对于文本中的词语的重要性,通常是基于大量标注数据的序列标注方法来确定的,但这种方法需要人工进行大量的标注数据,导致标注任务难度很大、成本很高、且主观性很强;此外,若要获取大量的标注数据做训练,也几乎很难实现。
技术实现思路
本说明书一个或多个实施例的目的是提供一种词语重要性的分析方法及装置,用以实现更加快速、准确地分析词语重要性的目的。为解决上述技术问题,本说明书一个或多个实施例是这样实现的:一方面,本说明书一个或多个实施例提供一种词语重要性的分析方法,包括:获取第一文本中待分析的多个词语;利用预先训练的特征识别模型对各所述词语进行特征识别,得到各所述词语分别对应的向量;确定各所述向量分别对应的重要性分值;其中,所述重要性分值包括以下至少一项:根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值;根据各所述重要性分值的大小,确定各所述分值对应的各所述词语在所述第一文本中的重要程度。在一个实施例中,所述重要性分值包括所述第一分值;相应的,所述确定各所述向量分别对应的重要性分值,包括:计算各所述向量的长度值;对各所述向量的长度值进行归一化处理,得到各所述向量的归一化后的长度值;将各所述向量的归一化后的长度值确定为各所述向量分别对应的所述第一分值。在一个实施例中,所述重要性分值包括所述第二分值;相应的,所述确定各所述向量分别对应的重要性分值,包括:筛选出各所述向量在其各维度上的最大向量值;根据各所述最大向量值为各所述来源向量进行赋值,得到各所述向量对应的所述第二分值。在一个实施例中,所述根据各所述最大向量值为各所述来源向量进行赋值,得到各所述向量对应的所述第二分值,包括:确定各所述最大向量值对应的来源向量;确定所述来源向量对应的所述第二分值为所述最大向量值;及,确定各所述向量中除所述来源向量之外的其他向量对应的所述第二分值为零。在一个实施例中,当所述重要性分值包括所述第一分值及所述第二分值时,所述确定各所述向量分别对应的重要性分值,包括:计算所述第一分值及所述第二分值的平均值;确定所述平均值为各所述向量分别对应的重要性分值。在一个实施例中,所述方法还包括:获取样本数据,所述样本数据包括多个样本文本及各所述样本文本中包含的样本词语;利用多个指定模型对所述样本数据进行识别,得到所述样本文本和/或所述样本词语的特征信息;其中,所述指定模型包括分类模型、文本匹配模型、序列标注模型中的至少一项;利用所述样本数据及对应的所述特征信息进行模型训练,得到所述特征识别模型。另一方面,本说明书一个或多个实施例提供一种词语重要性的分析装置,包括:获取模块,用于获取第一文本中待分析的多个词语;第一识别模块,用于利用预先训练的特征识别模型对各所述词语进行特征识别,得到各所述词语分别对应的向量;第一确定模块,用于确定各所述向量分别对应的重要性分值;其中,所述重要性分值包括以下至少一项:根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值;第二确定模块,用于根据各所述重要性分值的大小,确定各所述分值对应的各所述词语在所述第一文本中的重要程度。在一个实施例中,所述重要性分值包括所述第一分值;相应的,所述第一确定模块包括:第一计算单元,用于计算各所述向量的长度值;归一化单元,用于对各所述向量的长度值进行归一化处理,得到各所述向量的归一化后的长度值;第一确定单元,用于将各所述向量的归一化后的长度值确定为各所述向量分别对应的所述第一分值。在一个实施例中,所述重要性分值包括所述第二分值;相应的,所述第一确定模块包括:筛选单元,用于筛选出各所述向量在其各维度上的最大向量值;赋值单元,用于根据各所述最大向量值为各所述来源向量进行赋值,得到各所述向量对应的所述第二分值。在一个实施例中,所述赋值单元还用于:确定各所述最大向量值对应的来源向量;确定所述来源向量对应的所述第二分值为所述最大向量值;及,确定各所述向量中除所述来源向量之外的其他向量对应的所述第二分值为零。在一个实施例中,所述第一确定模块包括:第二计算单元,用于当所述重要性分值包括所述第一分值及所述第二分值时,计算所述第一分值及所述第二分值的平均值;第二确定单元,用于确定所述平均值为各所述向量分别对应的重要性分值。在一个实施例中,所述装置还包括:获取模块,用于获取样本数据,所述样本数据包括多个样本文本及各所述样本文本中包含的样本词语;第二识别模块,用于利用多个指定模型对所述样本数据进行识别,得到所述样本文本和/或所述样本词语的特征信息;其中,所述指定模型包括分类模型、文本匹配模型、序列标注模型中的至少一项;训练模块,用于利用所述样本数据及对应的所述特征信息进行模型训练,得到所述特征识别模型。再一方面,本说明书一个或多个实施例提供一种词语重要性的分析设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取第一文本中待分析的多个词语;利用预先训练的特征识别模型对各所述词语进行特征识别,得到各所述词语分别对应的向量;确定各所述向量分别对应的重要性分值;其中,所述重要性分值包括以下至少一项:根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值;根据各所述重要性分值的大小,确定各所述分值对应的各所述词语在所述第一文本中的重要程度。再一方面,本申请实施例提供一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取第一文本中待分析的多个词语;利用预先训练的特征识别模型对各所述词语进行特征识别,得到各所述词语分别对应的向量;确定各所述向量分别对应的重要性分值;其中,所述重要性分值包括以下至少一项:根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值;根据各所述重要性分值的大小,确定各所述分值对应的各所述词语在所述第一文本中的重要程度。采用本说明书一个或多个实施例的技术方案,能够利用预先训练的特征识别模型识别出第一文本中各词语的特征向量,并确定各向量分别对应的重要性分值,该重要性分值包括根据各向量的长度所确定的第一分值、根据各向量在不同维度上的最大向量值所确定的第二分值中的至少一项;进而根据各向量分别对应的重要性分值确定各词语在第一文本中的重要程度。可见,该技术方案在分析各词语在文本中的重要程度时,无需对文本中的各词语进行标注,而只需分析各词语对应的特征向量即可,因此可节省大量的标注成本,且相对于主观性的标注任务而言,这种智能化的向量分析方法能够更准确地分析出各词语在文本中的重要程度。附图说明为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是根据本说明书一实施例的一种词语重要性的分析方法的示意性流程图;图2是根据本说本文档来自技高网...

【技术保护点】
1.一种词语重要性的分析方法,包括:获取第一文本中待分析的多个词语;利用预先训练的特征识别模型对各所述词语进行特征识别,得到各所述词语分别对应的向量;确定各所述向量分别对应的重要性分值;其中,所述重要性分值包括以下至少一项:根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值;根据各所述重要性分值的大小,确定各所述分值对应的各所述词语在所述第一文本中的重要程度。

【技术特征摘要】
1.一种词语重要性的分析方法,包括:获取第一文本中待分析的多个词语;利用预先训练的特征识别模型对各所述词语进行特征识别,得到各所述词语分别对应的向量;确定各所述向量分别对应的重要性分值;其中,所述重要性分值包括以下至少一项:根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值;根据各所述重要性分值的大小,确定各所述分值对应的各所述词语在所述第一文本中的重要程度。2.根据权利要求1所述的方法,所述重要性分值包括所述第一分值;相应的,所述确定各所述向量分别对应的重要性分值,包括:计算各所述向量的长度值;对各所述向量的长度值进行归一化处理,得到各所述向量的归一化后的长度值;将各所述向量的归一化后的长度值确定为各所述向量分别对应的所述第一分值。3.根据权利要求1所述的方法,所述重要性分值包括所述第二分值;相应的,所述确定各所述向量分别对应的重要性分值,包括:筛选出各所述向量在其各维度上的最大向量值;根据各所述最大向量值为各所述来源向量进行赋值,得到各所述向量对应的所述第二分值。4.根据权利要求3所述的方法,所述根据各所述最大向量值为各所述来源向量进行赋值,得到各所述向量对应的所述第二分值,包括:确定各所述最大向量值对应的来源向量;确定所述来源向量对应的所述第二分值为所述最大向量值;及,确定各所述向量中除所述来源向量之外的其他向量对应的所述第二分值为零。5.根据权利要求1所述的方法,当所述重要性分值包括所述第一分值及所述第二分值时,所述确定各所述向量分别对应的重要性分值,包括:计算所述第一分值及所述第二分值的平均值;确定所述平均值为各所述向量分别对应的重要性分值。6.根据权利要求1所述的方法,还包括:获取样本数据,所述样本数据包括多个样本文本及各所述样本文本中包含的样本词语;利用多个指定模型对所述样本数据进行识别,得到所述样本文本和/或所述样本词语的特征信息;其中,所述指定模型包括分类模型、文本匹配模型、序列标注模型中的至少一项;利用所述样本数据及对应的所述特征信息进行模型训练,得到所述特征识别模型。7.一种词语重要性的分析装置,包括:获取模块,用于获取第一文本中待分析的多个词语;第一识别模块,用于利用预先训练的特征识别模型对各所述词语进行特征识别,得到各所述词语分别对应的向量;第一确定模块,用于确定各所述...

【专利技术属性】
技术研发人员:陈晓军崔恒斌
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1