本发明专利技术涉及自然语言处理技术领域,提供了一种文章领域相关度评估方法、装置、计算机设备和存储介质,所述方法包括:获取待评估文章的字词序列,分别对所述字词序列中的各个字词进行标签标记,得到所述字词序列的标签序列;根据预设转换规则将所述标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各所述权重数值序列归约为一个最终的权重数值序列;对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;基于预设权重对所述权重分布概率序列进行权重抑制后计算对应的熵值,得到所述待评估文章的特征值;根据所述特征值确定所述待评估文章与领域的相关度。采用本方法能够提高评估准确性。能够提高评估准确性。能够提高评估准确性。
【技术实现步骤摘要】
文章领域相关度评估方法、装置、计算机设备和存储介质
[0001]本专利技术属于自然语言处理
,尤其涉及一种文章领域相关度评估方法、装置、计算机设备和存储介质。
技术介绍
[0002]文章领域相关度评估是指评估出一篇文章所表达的内容与某个目标领域的相关程度的过程。传统有两种方法对文章领域相关度进行评估,一是基于字词的统计模型,其主要利用统计学语言模型生成特征后通过相似度确定文章的领域相关度。二是基于神经网络的方法,其主要采用基于神经网络的语言模型对文章进行向量表征后,利用回归模型或者二分类模型进行相关度判断。
[0003]然而,基于字词统计学的模型文章字词的语言能力有限,难以挖掘字词的深层语义信息,而基于神经网络的方式虽然能够捕获深层语义信息的,但是神经网络模型因计算复杂且参数量大等问题常常对文章的长度有限制,不宜直接处理长文章,从而降低了评估的准确性。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种能够提高评估准确性的文章领域相关度评估方法、装置、计算机设备和存储介质。
[0005]本专利技术提供一种文章领域相关度评估方法,包括:
[0006]获取待评估文章的字词序列,分别对所述字词序列中的各个字词进行标签标记,得到所述字词序列的标签序列;
[0007]根据预设转换规则将所述标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各所述权重数值序列归约为一个最终的权重数值序列;
[0008]对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;
[0009]基于预设权重对所述权重分布概率序列进行权重抑制后计算对应的熵值,得到所述待评估文章的特征值;
[0010]根据所述特征值确定所述待评估文章与领域的相关度。
[0011]在其中一个实施例中,所述分别对所述字词序列中的字词进行标签标记,得到所述字词序列的标签序列,包括以下任一种或多种:
[0012]第一种:分别对所述字词序列中的字词进行实体识别,得到各所述字词的实体标签,根据各所述字词的实体标签得到所述字词序列的实体标签序列;
[0013]第二种:分别对所述字词序列中的字词进行属性关系抽取,得到各所述字词的属性关系标签,根据各所述字词的属性关系标签得到属性关系标签序列;
[0014]第三种:基于预设关键词及标签类型,分别对所述字词序列中的字词进行映射转换,确定各所述字词的自定义标签;根据各所述自定义标签得到所述字词序列的自定义标
签序列。
[0015]在其中一个实施例中,所述将各所述权重数值序列归约为一个最终的权重数值序列,包括:
[0016]利用聚合函数将各所述权重数值序列中相同位置的权重数值分别进行聚合,确定各个位置对应的聚合权重;
[0017]根据所述聚合权重构建得到最终的权重数值序列。
[0018]在其中一个实施例中,所述对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列,包括:
[0019]根据所述权重数值序列的长度确定预设区间并进行区间的等量划分;
[0020]从每等份内确定一个点作为自变量取值代入至所述权重数值序列中各权重数值对应的概率分布函数,计算得到各权重数值的分布概率;
[0021]将所述分布概率与对应的权重数值相乘后,对属于同一点的分布概率进行聚合,得到所述权重数值序列在每等份内的权重分布概率;
[0022]根据每等份内的权重分布概率得到权重分布概率序列。
[0023]在其中一个实施例中,所述基于预设权重对所述权重分布概率序列进行权重抑制后计算对应的熵值,得到所述待评估文章的特征值,包括:
[0024]获取预设权重阈值和预设权重替换值,将所述权重分布概率序列中的元素值分别与所述预设权重阈值进行比较;
[0025]若所述元素值小于所述预设权重阈值,则将所述元素值替换为所述预设权重替换值,得到权重抑制序列;
[0026]计算所述权重抑制序列的熵值作为所述待评估文章的特征值。
[0027]在其中一个实施例中,所述权重抑制序列的熵值的计算公式如下:
[0028][0029]其中,S为熵值,R为所述权重抑制序列的长度,r=1,2,
……
,R,u
r
为权重抑制序列中位置为r的元素值,log为对数函数。
[0030]在其中一个实施例中,所述根据所述特征值确定所述待评估文章与领域的相关度,包括:
[0031]将所述特征值代入类对数函数计算,输出所述待评估文章与领域的相关度;所述类对数函数是在所述特征值的取值区间内,一阶导数为正数二阶导数为负数的函数。
[0032]一种文章领域相关度评估装置,包括:
[0033]序列标签定义模块,用于获取待评估文章的字词序列,分别对所述字词序列中的各个字词进行标签标记,得到所述字词序列的标签序列;
[0034]权重转换模块,用于根据预设转换规则将所述标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各所述权重数值序列归约为一个最终的权重数值序列;
[0035]权重分布计算模块,用于对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;
[0036]特征计算模块,用于基于预设权重对所述权重分布概率序列进行权重抑制后计算
对应的熵值,得到所述待评估文章的特征值;
[0037]确定模块,用于根据所述特征值确定所述待评估文章与领域的相关度。
[0038]本专利技术还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的文章领域相关度评估方法的步骤。
[0039]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述文章领域相关度评估方法步骤。
[0040]上述文章领域相关度评估方法、装置、计算机设备和存储介质,首先获取待评估文章的字词序列分别对该字词序列中的各个字词进行标签标记,得到标签序列;然后根据预设转换规则将标签序列转换为权重数值序列,对预设区间等量划分后,分别计算该权重数值序列在每等份内的权重分布概率,从而得到权重分布概率序列;最后基于预设权重对权重分布概率序列进行权重抑制后计算对应的熵值,得到待评估文章的特征值,以该特征值确定待评估文章与领域的相关度。该方法通过标签权重转换、基于概率分布模型的权重分布计算以及熵计算等方式来构建文章的特征实现文章领域相关度的评估,能够规避神经网络评估对文章长度的限制,即使是长文章也能够提高评估其领域相关度的准确性。
附图说明
[0041]图1为一个实施例中文章领域相关度评估方法的应用环境图。
[0042]图2为一个实施例中文章领域相关度评估方法的流程示意图。
[0043]图3本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文章领域相关度评估方法,其特征在于,包括:获取待评估文章的字词序列,分别对所述字词序列中的各个字词进行标签标记,得到所述字词序列的标签序列;根据预设转换规则将所述标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各所述权重数值序列归约为一个最终的权重数值序列;对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;基于预设权重对所述权重分布概率序列进行权重抑制后计算对应的熵值,得到所述待评估文章的特征值;根据所述特征值确定所述待评估文章与领域的相关度。2.根据权利要求1所述的方法,其特征在于,所述分别对所述字词序列中的字词进行标签标记,得到所述字词序列的标签序列,包括以下任一种或多种:第一种:分别对所述字词序列中的字词进行实体识别,得到各所述字词的实体标签,根据各所述字词的实体标签得到所述字词序列的实体标签序列;第二种:分别对所述字词序列中的字词进行属性关系抽取,得到各所述字词的属性关系标签,根据各所述字词的属性关系标签得到属性关系标签序列;第三种:基于预设关键词及标签类型,分别对所述字词序列中的字词进行映射转换,确定各所述字词的自定义标签;根据各所述自定义标签得到所述字词序列的自定义标签序列。3.根据权利要求1所述的方法,其特征在于,所述将各所述权重数值序列归约为一个最终的权重数值序列,包括:利用聚合函数将各所述权重数值序列中相同位置的权重数值分别进行聚合,确定各个位置对应的聚合权重;根据所述聚合权重构建得到最终的权重数值序列。4.根据权利要求1所述的方法,其特征在于,所述对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列,包括:根据所述权重数值序列的长度确定预设区间并进行区间的等量划分;从每等份内确定一个点作为自变量取值代入至所述权重数值序列中各权重数值对应的概率分布函数,计算得到各权重数值的分布概率;将所述分布概率与对应的权重数值相乘后,对属于同一点的分布概率进行聚合,得到所述权重数值序列在每等份内的权重分布概率;根据每等份内的权重分布概率得到权重分布概率序列。5.根据权利要求1所述的方法,其特征在于,所述基于预设...
【专利技术属性】
技术研发人员:段炼,周忠诚,黄九鸣,张圣栋,
申请(专利权)人:湖南星汉数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。