机构简称提取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：39278858 阅读：14 留言：0更新日期：2023-11-07 10:54

本申请实施例属于自然语言处理技术领域，涉及一种机构简称提取方法、装置、计算机设备及存储介质，方法包括：对机构全称进行分词处理得到多个语素，并生成语素序列；生成语素序列全部的连续语素子序列；确定每个连续语素子序列的概率计算方式，概率计算方式中包含连续语素子序列中各语素的词频概率和条件概率；从预先建立的语素库中获取连续语素子序列中各语素的词频概率和条件概率，以计算连续语素子序列的序列概率；根据连续语素子序列的序列概率和序列长度，计算连续语素子序列的序列分值；根据得到的序列分值从各连续语素子序列中筛选目标子序列，并将筛选到的目标子序列作为目标机构的机构简称。本申请提高了机构简称提取的准确性。取的准确性。取的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
机构简称提取方法、装置、计算机设备及存储介质

[0001]本申请涉及自然语言处理
，尤其涉及一种机构简称提取方法、装置、计算机设备及存储介质。

技术介绍

[0002]企业、研究所等各类机构都会具有正式的机构全称，机构全称通常较长，为了表述方便，往往会采用机构简称进行替代。因此，如何生成准确有用的简称就显得尤为重要。
[0003]现有的机构简称生成技术，通常是解析机构全称，将其分解为若干个语素，这些语素包含地域信息、词根、行业信息、机构类型信息等，然后根据预设策略对这些语素进行简化或筛选，并组合为机构简称，并且，词根往往很大程度上决定了机构简称。然而，当词根本身属于常用词时，机构简称也往往是一个常用词，例如现有的简称生成技术对“阿尔法有限公司”进行简称提取得到“阿尔法”，常用词“阿尔法”在很多地方或者舆情中都会出现，使得机构简称缺少区分性；在根据机构简称进行舆情信息采集时，也会采集到大量的无关信息。因此，现有的机构简称生成技术准确性较低。

技术实现思路

[0004]本申请实施例的目的在于提出一种机构简称提取方法、装置、计算机设备及存储介质，以解决机构简称提取准确性较低的问题。
[0005]为了解决上述技术问题，本申请实施例提供一种机构简称提取方法，采用了如下所述的技术方案：获取目标机构的机构全称；对所述机构全称进行分词处理得到多个语素，并根据各语素得到语素序列；生成所述语素序列全部的连续语素子序列，连续语素子序列包含至少两个连续的语素；对于每个连续语素子序列，根据预设的概率算法确定...

【技术保护点】

【技术特征摘要】
1.一种机构简称提取方法，其特征在于，包括下述步骤：获取目标机构的机构全称；对所述机构全称进行分词处理得到多个语素，并根据各语素得到语素序列；生成所述语素序列全部的连续语素子序列，连续语素子序列包含至少两个连续的语素；对于每个连续语素子序列，根据预设的概率算法确定所述连续语素子序列的概率计算方式，所述概率计算方式中包含所述连续语素子序列中各语素的词频概率和条件概率；基于所述概率计算方式，从预先建立的语素库中获取所述连续语素子序列中各语素的词频概率和条件概率，以计算所述连续语素子序列的序列概率；根据所述连续语素子序列的序列概率和序列长度，计算所述连续语素子序列的序列分值；根据得到的序列分值从各连续语素子序列中筛选目标子序列，并将筛选到的目标子序列作为所述目标机构的机构简称。2.根据权利要求1所述的机构简称提取方法，其特征在于，所述对所述机构全称进行分词处理得到多个语素，并根据各语素得到语素序列的步骤包括：通过正则语句提取所述机构全称中的机构分支信息；将所述机构分支信息从所述机构全称中去除，得到第一机构名称；提取所述第一机构名称中的地域信息，以将所述第一机构名称拆分为地域信息和第二机构名称；对所述第二机构名称进行分词处理得到多个语素，并根据得到的各语素生成初始语素序列；将所述地域信息作为语素添加到所述初始语素序列的头部，得到语素序列。3.根据权利要求2所述的机构简称提取方法，其特征在于，所述对所述第二机构名称进行分词处理得到多个语素，并根据得到的各语素生成初始语素序列的步骤包括：对所述第二机构名称进行分词处理得到多个语素，其中，各语素带有位置顺序，所述各语素的位置顺序由所述各语素在所述第二机构名称中的位置确定；根据带有位置顺序的所述各语素，生成初始语素序列。4.根据权利要求1所述的机构简称提取方法，其特征在于，在所述获取目标机构的机构全称的步骤之前，还包括：获取各常见语素；获取每个常见语素的各语素对，所述常见语素存在于所述各语素对中，且所述各语素对包含两个语素；根据预设的文本库，计算所述常见语素的词频概率，以及所述常见语素的各语素对的条件概率；根据各常见语素所对应的词频概率和条件概率，生成语素库。5.根据权利要求1所述的机构简称提取方法，其特征在于，当所述连续语素子序列包含三个语素时，所述概率计算方式表示为：；
...

【专利技术属性】
技术研发人员：姜桂林，贵照众，刘刚健，齐雪，
申请(专利权)人：湖南财信数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人