机构简称提取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39278858 阅读:14 留言:0更新日期:2023-11-07 10:54
本申请实施例属于自然语言处理技术领域,涉及一种机构简称提取方法、装置、计算机设备及存储介质,方法包括:对机构全称进行分词处理得到多个语素,并生成语素序列;生成语素序列全部的连续语素子序列;确定每个连续语素子序列的概率计算方式,概率计算方式中包含连续语素子序列中各语素的词频概率和条件概率;从预先建立的语素库中获取连续语素子序列中各语素的词频概率和条件概率,以计算连续语素子序列的序列概率;根据连续语素子序列的序列概率和序列长度,计算连续语素子序列的序列分值;根据得到的序列分值从各连续语素子序列中筛选目标子序列,并将筛选到的目标子序列作为目标机构的机构简称。本申请提高了机构简称提取的准确性。取的准确性。取的准确性。

【技术实现步骤摘要】
机构简称提取方法、装置、计算机设备及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种机构简称提取方法、装置、计算机设备及存储介质。

技术介绍

[0002]企业、研究所等各类机构都会具有正式的机构全称,机构全称通常较长,为了表述方便,往往会采用机构简称进行替代。因此,如何生成准确有用的简称就显得尤为重要。
[0003]现有的机构简称生成技术,通常是解析机构全称,将其分解为若干个语素,这些语素包含地域信息、词根、行业信息、机构类型信息等,然后根据预设策略对这些语素进行简化或筛选,并组合为机构简称,并且,词根往往很大程度上决定了机构简称。然而,当词根本身属于常用词时,机构简称也往往是一个常用词,例如现有的简称生成技术对“阿尔法有限公司”进行简称提取得到“阿尔法”,常用词“阿尔法”在很多地方或者舆情中都会出现,使得机构简称缺少区分性;在根据机构简称进行舆情信息采集时,也会采集到大量的无关信息。因此,现有的机构简称生成技术准确性较低。

技术实现思路

[0004]本申请实施例的目的在于提出一种机构简称提取方法、装置、计算机设备及存储介质,以解决机构简称提取准确性较低的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种机构简称提取方法,采用了如下所述的技术方案:获取目标机构的机构全称;对所述机构全称进行分词处理得到多个语素,并根据各语素得到语素序列;生成所述语素序列全部的连续语素子序列,连续语素子序列包含至少两个连续的语素;对于每个连续语素子序列,根据预设的概率算法确定所述连续语素子序列的概率计算方式,所述概率计算方式中包含所述连续语素子序列中各语素的词频概率和条件概率;基于所述概率计算方式,从预先建立的语素库中获取所述连续语素子序列中各语素的词频概率和条件概率,以计算所述连续语素子序列的序列概率;根据所述连续语素子序列的序列概率和序列长度,计算所述连续语素子序列的序列分值;根据得到的序列分值从各连续语素子序列中筛选目标子序列,并将筛选到的目标子序列作为所述目标机构的机构简称。
[0006]进一步的,所述对所述机构全称进行分词处理得到多个语素,并根据各语素得到语素序列的步骤包括:通过正则语句提取所述机构全称中的机构分支信息;
将所述机构分支信息从所述机构全称中去除,得到第一机构名称;提取所述第一机构名称中的地域信息,以将所述第一机构名称拆分为地域信息和第二机构名称;对所述第二机构名称进行分词处理得到多个语素,并根据得到的各语素生成初始语素序列;将所述地域信息作为语素添加到所述初始语素序列的头部,得到语素序列。
[0007]进一步的,所述对所述第二机构名称进行分词处理得到多个语素,并根据得到的各语素生成初始语素序列的步骤包括:对所述第二机构名称进行分词处理得到多个语素,其中,各语素带有位置顺序,所述各语素的位置顺序由所述各语素在所述第二机构名称中的位置确定;根据带有位置顺序的所述各语素,生成初始语素序列。
[0008]进一步的,在所述获取目标机构的机构全称的步骤之前,还包括:获取各常见语素;获取每个常见语素的各语素对,所述常见语素存在于所述各语素对中,且所述各语素对包含两个语素;根据预设的文本库,计算所述常见语素的词频概率,以及所述常见语素的各语素对的条件概率;根据各常见语素所对应的词频概率和条件概率,生成语素库。
[0009]进一步的,当所述连续语素子序列包含三个语素时,所述概率计算方式表示为:;其中,A、B、C分别为连续的语素,为语素A、B、C构成的连续语素子序列,为连续语素子序列的序列概率,为语素A的词频概率,为语素B的词频概率,为语素C的词频概率,为语素A后接语素B的条件概率,为语素B后接语素C的条件概率,为预设的最小概率值。
[0010]进一步的,所述序列分值的计算公式表示为:;其中,score为连续语素子序列的序列分值,P为连续语素子序列的序列概率,k为修正系数,len为连续语素子序列的序列长度,e为自然对数。
[0011]进一步的,所述根据得到的序列分值从各连续语素子序列中筛选目标子序列的步骤包括:根据得到的序列分值,从各连续语素子序列中选取具有最大序列分值的目标子序列;或者,根据得到的序列分值,从各连续语素子序列中选取序列分值超过预设分值,且具有最短序列长度的目标子序列。
[0012]为了解决上述技术问题,本申请实施例还提供一种机构简称提取装置,采用了如
下所述的技术方案:全称获取模块,用于获取目标机构的机构全称;全称分词模块,用于对所述机构全称进行分词处理得到多个语素,并根据各语素得到语素序列;子序列生成模块,用于生成所述语素序列全部的连续语素子序列,连续语素子序列包含至少两个连续的语素;计算确定模块,用于对于每个连续语素子序列,根据预设的概率算法确定所述连续语素子序列的概率计算方式,所述概率计算方式中包含所述连续语素子序列中各语素的词频概率和条件概率;概率计算模块,用于基于所述概率计算方式,从预先建立的语素库中获取所述连续语素子序列中各语素的词频概率和条件概率,以计算所述连续语素子序列的序列概率;分值计算模块,用于根据所述连续语素子序列的序列概率和序列长度,计算所述连续语素子序列的序列分值;简称确定模块,用于根据得到的序列分值从各连续语素子序列中筛选目标子序列,并将筛选到的目标子序列作为所述目标机构的机构简称。
[0013]为了解决上述技术问题,本申请实施例还提供一种计算机设备, 所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的机构简称提取方法的步骤。
[0014]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的机构简称提取方法的步骤。
[0015]与现有技术相比,本申请实施例主要有以下有益效果:获取目标机构的机构全称并进行分词处理得到多个语素,根据各语素生成语素序列;生成语素序列全部的连续语素子序列,得到机构全称全部可能的语素简易表达;对于每个连续语素子序列,根据预设的概率算法确定连续语素子序列的概率计算方式,概率计算方式中包含连续语素子序列中各语素的词频概率和条件概率;从预先建立的语素库中,根据概率计算方式获取各语素的词频概率和涉及到的条件概率,计算出连续语素子序列出现可能性的序列概率;根据连续语素子序列的序列概率和序列长度,计算连续语素子序列的序列分值,序列分值反应了连续语素子序列的语义价值;根据各序列分值从各连续语素子序列中筛选目标子序列,并将筛选到的目标子序列作为目标机构的机构简称,完成了机构全称的精简。本申请基于词频概率、条件概率和序列长度进行计算,可以提取出关键语素构成机构简称,确保了机构简称的准确性。
附图说明
[0016]为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机构简称提取方法,其特征在于,包括下述步骤:获取目标机构的机构全称;对所述机构全称进行分词处理得到多个语素,并根据各语素得到语素序列;生成所述语素序列全部的连续语素子序列,连续语素子序列包含至少两个连续的语素;对于每个连续语素子序列,根据预设的概率算法确定所述连续语素子序列的概率计算方式,所述概率计算方式中包含所述连续语素子序列中各语素的词频概率和条件概率;基于所述概率计算方式,从预先建立的语素库中获取所述连续语素子序列中各语素的词频概率和条件概率,以计算所述连续语素子序列的序列概率;根据所述连续语素子序列的序列概率和序列长度,计算所述连续语素子序列的序列分值;根据得到的序列分值从各连续语素子序列中筛选目标子序列,并将筛选到的目标子序列作为所述目标机构的机构简称。2.根据权利要求1所述的机构简称提取方法,其特征在于,所述对所述机构全称进行分词处理得到多个语素,并根据各语素得到语素序列的步骤包括:通过正则语句提取所述机构全称中的机构分支信息;将所述机构分支信息从所述机构全称中去除,得到第一机构名称;提取所述第一机构名称中的地域信息,以将所述第一机构名称拆分为地域信息和第二机构名称;对所述第二机构名称进行分词处理得到多个语素,并根据得到的各语素生成初始语素序列;将所述地域信息作为语素添加到所述初始语素序列的头部,得到语素序列。3.根据权利要求2所述的机构简称提取方法,其特征在于,所述对所述第二机构名称进行分词处理得到多个语素,并根据得到的各语素生成初始语素序列的步骤包括:对所述第二机构名称进行分词处理得到多个语素,其中,各语素带有位置顺序,所述各语素的位置顺序由所述各语素在所述第二机构名称中的位置确定;根据带有位置顺序的所述各语素,生成初始语素序列。4.根据权利要求1所述的机构简称提取方法,其特征在于,在所述获取目标机构的机构全称的步骤之前,还包括:获取各常见语素;获取每个常见语素的各语素对,所述常见语素存在于所述各语素对中,且所述各语素对包含两个语素;根据预设的文本库,计算所述常见语素的词频概率,以及所述常见语素的各语素对的条件概率;根据各常见语素所对应的词频概率和条件概率,生成语素库。5.根据权利要求1所述的机构简称提取方法,其特征在于,当所述连续语素子序列包含三个语素时,所述概率计算方式表示为:;
...

【专利技术属性】
技术研发人员:姜桂林贵照众刘刚健齐雪
申请(专利权)人:湖南财信数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1