词语重要性的分析方法及装置制造方法及图纸

技术编号：22308440 阅读：20 留言：0更新日期：2019-10-16 08:32

本说明书一个或多个实施例公开了一种词语重要性的分析方法及装置，用以实现更加快速、准确地分析词语重要性的目的。所述方法包括：获取第一文本中待分析的多个词语；利用预先训练的特征识别模型对各所述词语进行特征识别，得到各所述词语分别对应的向量；确定各所述向量分别对应的重要性分值；其中，所述重要性分值包括以下至少一项：根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值；根据各所述重要性分值的大小，确定各所述分值对应的各所述词语在所述第一文本中的重要程度。

Analysis method and device of word importance

全部详细技术资料下载

【技术实现步骤摘要】
词语重要性的分析方法及装置
本说明书涉及文本处理
，尤其涉及一种词语重要性的分析方法及装置。
技术介绍
目前，对于文本中的词语的重要性，通常是基于大量标注数据的序列标注方法来确定的，但这种方法需要人工进行大量的标注数据，导致标注任务难度很大、成本很高、且主观性很强；此外，若要获取大量的标注数据做训练，也几乎很难实现。
技术实现思路
本说明书一个或多个实施例的目的是提供一种词语重要性的分析方法及装置，用以实现更加快速、准确地分析词语重要性的目的。为解决上述技术问题，本说明书一个或多个实施例是这样实现的：一方面，本说明书一个或多个实施例提供一种词语重要性的分析方法，包括：获取第一文本中待分析的多个词语；利用预先训练的特征识别模型对各所述词语进行特征识别，得到各所述词语分别对应的向量；确定各所述向量分别对应的重要性分值；其中，所述重要性分值包括以下至少一项：根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值；根据各所述重要性分值的大小，确定各所述分值对应的各所述词语在所述第一文本中的重要程度。在一个实施例中，所述重要性分值包括所述第一分值；相应的，所述确定各所述向量分别对应的重要性分值，包括：计算各所述向量的长度值；对各所述向量的长度值进行归一化处理，得到各所述向量的归一化后的长度值；将各所述向量的归一化后的长度值确定为各所述向量分别对应的所述第一分值。在一个实施例中，所述重要性分值包括所述第二分值；相应的，所述确定各所述向量分别对应的重要性分值，包括：筛选出各所述向量在其各维度上的最大向量值；根据各所述最大向量值为各...

【技术保护点】
1.一种词语重要性的分析方法，包括：获取第一文本中待分析的多个词语；利用预先训练的特征识别模型对各所述词语进行特征识别，得到各所述词语分别对应的向量；确定各所述向量分别对应的重要性分值；其中，所述重要性分值包括以下至少一项：根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值；根据各所述重要性分值的大小，确定各所述分值对应的各所述词语在所述第一文本中的重要程度。

【技术特征摘要】
1.一种词语重要性的分析方法，包括：获取第一文本中待分析的多个词语；利用预先训练的特征识别模型对各所述词语进行特征识别，得到各所述词语分别对应的向量；确定各所述向量分别对应的重要性分值；其中，所述重要性分值包括以下至少一项：根据各所述向量的长度所确定的第一分值、根据各所述向量在不同维度上的最大向量值所确定的第二分值；根据各所述重要性分值的大小，确定各所述分值对应的各所述词语在所述第一文本中的重要程度。2.根据权利要求1所述的方法，所述重要性分值包括所述第一分值；相应的，所述确定各所述向量分别对应的重要性分值，包括：计算各所述向量的长度值；对各所述向量的长度值进行归一化处理，得到各所述向量的归一化后的长度值；将各所述向量的归一化后的长度值确定为各所述向量分别对应的所述第一分值。3.根据权利要求1所述的方法，所述重要性分值包括所述第二分值；相应的，所述确定各所述向量分别对应的重要性分值，包括：筛选出各所述向量在其各维度上的最大向量值；根据各所述最大向量值为各所述来源向量进行赋值，得到各所述向量对应的所述第二分值。4.根据权利要求3所述的方法，所述根据各所述最大向量值为各所述来源向量进行赋值，得到各所述向量对应的所述第二分值，包括：确定各所述最大向量值对应的来源向量；确定所述来源向量对应的所述第二分值为所述最大向量值；及，确定各所述向量中除所述来源向量之外的其他向量对应的所述第二分值为零。5.根据权利要求1所述的方法，当所述重要性分值包括所述第一分值及所述第二分值时，所述确定各所述向量分别对应的重要性分值，包括：计算所述第一分值及所述第二分值的平均值；确定所述平均值为各所述向量分别对应的重要性分值。6.根据权利要求1所述的方法，还包括：获取样本数据，所述样本数据包括多个样本文本及各所述样本文本中包含的样本词语；利用多个指定模型对所述样本数据进行识别，得到所述样本文本和/或所述样本词语的特征信息；其中，所述指定模型包括分类模型、文本匹配模型、序列标注模型中的至少一项；利用所述样本数据及对应的所述特征信息进行模型训练，得到所述特征识别模型。7.一种词语重要性的分析装置，包括：获取模块，用于获取第一文本中待分析的多个词语；第一识别模块，用于利用预先训练的特征识别模型对各所述词语进行特征识别，得到各所述词语分别对应的向量；第一确定模块，用于确定各所述...

【专利技术属性】
技术研发人员：陈晓军，崔恒斌，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人