一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法技术

技术编号:21799381 阅读:57 留言:0更新日期:2019-08-07 10:34
本发明专利技术涉及一种基于SVM‑BiLSTM‑CRF的老挝语机构名称识别方法,属于自然语言处理的命名实体识别领域。本发明专利技术根据老挝语的语法特征将老挝机构名称分为机构名称前缀词和机构名称后缀词,并将机构名称前缀词提取构造成一个机构名称特征词典,使用SVM模型筛选出包含老挝语机构名称前缀词的句子,再将句子转化为字符级向量输入Bi‑LSTM(双向长短期记忆模型)‑CRF(条件随机场)模型中进行机构名实体识别训练。本发明专利技术融合了基于规则与基于神经网络的方法,取得了比使用传统机器学习方法更好的结果。

A Lao Language Institution Name Recognition Method Based on SVM-BiLSTM-CRF

【技术实现步骤摘要】
一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法
本专利技术涉及一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法,属于自然语言处理的命名实体识别领域。
技术介绍
命名实体识别一直是自然语言处理领域的重要任务,在信息检索、机器翻译等技术中占有举足轻重的地位。机构名称由于具有结构复杂、长短不一、组成多样的特点,是命名实体七大类中最难识别的一类。目前的机构名称识别的方法主要是以下三种:基于规则的方法、基于特征模板的方法、基于神经网络的方法。根据老挝语机构名称识别研究的现状,本专利技术主要使用基于神经网络的方法并融合一些老挝语语言学的特征加以辅助识别。
技术实现思路
本专利技术提供了一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法,以用于通过该方法实现对老挝语句子中的机构名称实体进行识别。。本专利技术采用的技术方案是:一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法,所述方法具体步骤如下:Step1、根据老挝语机构名称特征词在前的特点,将老挝语机构名称定义形式为S+P,其中S为特征词(如大学、党委等),也称前缀词。P为修饰词,也称后缀词。Step1.1、根据形式定义,对老挝语机构名称命名实体语料库中所有特征词S进行提取,并全部登录特征词典。Step2、使用SVM模型对句子进行判断,筛选出含有老挝机构名称前缀词的句子。Step3、将句子中的每个字转换为one-hot向量。Step4、将句子的one-hot向量通过随机初始化的embedding矩阵转化为低维稠密的字向量。Step5、BiLSTM层操作:Step5.1、将句子的字向量作为BiLSTM的输入,并将正向LSTM输出的隐状态序列和反向LSTM输出的隐状态序列进行拼接,得到完整的隐状态序列。Step5.2、获得标注集的标签数k,将隐状态向量映射到k维,从而自动提取句子特征。Step6、CRF层操作:Step6.1、整理老挝语机构名语言学特征规则:机构名称是以机构特征词为中心语的名-定型短语,后部词一般只包含名词(可以是方位词,时间词,地名,人名等),动词,形容词或数词;充当中心语的特征词必须出现,修饰语中的地名、机构团体、人名、专造名等专用名至少出现一个;其他成分词语按需选用。Step6.2、将规则融合到条件随机场CRF中,使其可以优化对老挝机构名称的识别。Step6.3、将BiLSTM层的输出的向量作为CRF层的输入,通过CRF模型最后得出老挝机构名称的标注结果。本专利技术的有益效果是:1.本专利技术的基于SVM-BiLSTM-CRF的老挝语机构名称识别方法,与单独使用SVM模型实现机构名识别方法相比较,精确率、召回率、F值都显著提高。2.本专利技术的基于SVM-BiLSTM-CRF的老挝语机构名称识别方法,使用了深度学习算法与机器学习算法相叠加,优化了训练的速度。3.本专利技术的基于SVM-BiLSTM-CRF的老挝语机构名称识别方法,将老挝语机构名称前缀词(S)的识别抽象为一个二分类问题,而SVM模型善于处理二分类问题,所以使用SVM模型来识别老挝语机构名称前缀词。4.本专利技术的基于SVM-BiLSTM-CRF的老挝语机构名称识别方法,使用深度学习的方法,在老挝语命名实体语料较少的情况下可以取得较好的识别精度。附图说明图1是本专利技术的流程图。具体实施方式为了更详细的描述本专利技术和便于本领域人员的理解,下面结合附图以及实施例对本专利技术做进一步的描述,本部分的实施例用于解释说明本专利技术,便于理解的目的,不以此来限制本专利技术。实施例1:如图1所示,一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法,所述方法步骤如下:Step1、根据老挝语机构名称特征词在前的特点,将老挝语机构名称定义形式为S+P,其中S为特征词(如大学、党委等),也称前缀词。P为修饰词,也称后缀词。Step1.1、根据形式定义,对老挝语机构名称命名实体语料库中所有特征词S进行提取,并全部登录特征词典。Step2、使用SVM模型对句子进行判断,筛选出含有老挝机构名称前缀词的句子x=(x1,x2,x3,...,xn)。Step3、将句子中的每个字xi转换为one-hot向量。Step4、将句子中每个字xi的one-hot向量通过随机初始化的embedding矩阵转化为低维稠密的字向量xi∈Rd,R为字向量xi的向量空间,d为embedding的维度。Step5、BiLSTM层操作:Step5.1、将句子的字向量(x1,x2,x3,...,yn)作为BiLSTM的输入,并将正向LSTM输出的隐状态序列和反向LSTM输出的隐状态序列进行拼接m为hi的维度,得到完整的隐状态序列(h1,h2,h3,...,hn)∈Rn×m。Step5.2、获得标注集的标签数k,将隐状态向量由m维映射到k维,从而自动提取句子特征P=(p1,p2,p3,...,pn)∈Rn×k,把pi∈Rk的pij看作字xi分类到第j个标签的概率,对P求出Softmax值,得到标签序列y=(y1,y2,y3,...yi...yn)。Step6、CRF层操作:Step6.1、整理老挝语机构名语言学特征规则:机构名称是以机构特征词为中心语的名-定型短语,后部词一般只包含名词(可以是方位词,时间词,地名,人名等),动词,形容词或数词;充当中心语的特征词必须出现,修饰语中的地名、机构团体、人名、专造名等专用名至少出现一个;其他成分词语按需选用。Step6.2、将规则编写称CRF可识别的规则融合到条件随机场CRF中形成融合老挝机构名称特征的优化CRF模型。Step6.3、将CRF中转移矩阵T大小设置为(k+2)×(k+2),CRF计算公式为:将BiLSTM层的输出的向量作为CRF层的输入,通过CRF模型得到标签序列y=(y1,y2,y3,...yi...yn),然后通过softmax函数进行归一化处理得到老挝机构名称的标注结果,公式如下:y′为y的导数。上面结合附图对本专利技术的具体实施方式作了详细说明,但是本专利技术并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本专利技术宗旨的前提下作出各种变化。本文档来自技高网...

【技术保护点】
1.一种基于SVM‑BiLSTM‑CRF的老挝语机构名称识别方法,其特征在于:所述方法具体步骤如下:Step1、根据老挝语机构名称特征词在前的特点,将老挝语机构名称定义形式为S+P,其中S为特征词,也称前缀词,P为修饰词,也称后缀词;Step1.1、根据形式定义,对老挝语机构名称命名实体语料库中所有特征词S进行提取,并全部登录特征词典;Step2、使用SVM模型对句子进行判断,筛选出含有老挝机构名称前缀词的句子;Step3、将句子中的每个字转换为one‑hot向量;Step4、将句子的one‑hot向量通过随机初始化的embedding矩阵转化为低维稠密的字向量;Step5、BiLSTM层操作:Step5.1、将句子的字向量作为BiLSTM的输入,并将正向LSTM输出的隐状态序列和反向LSTM输出的隐状态序列进行拼接,得到完整的隐状态序列;Step5.2、获得标注集的标签数k,将隐状态向量映射到k维,从而自动提取句子特征;Step6、CRF层操作:Step6.1、整理老挝语机构名语言学特征规则:机构名称是以机构特征词为中心语的名‑定型短语,后部词一般只包含名词,动词,形容词或数词;充当中心语的特征词必须出现,修饰语中专用名至少出现一个;其他成分词语按需选用;Step6.2、将规则融合到条件随机场CRF中,使其优化对老挝机构名称的识别;Step6.3、将BiLSTM层的输出的向量作为CRF层的输入,通过CRF模型最后得出老挝机构名称的标注结果。...

【技术特征摘要】
1.一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法,其特征在于:所述方法具体步骤如下:Step1、根据老挝语机构名称特征词在前的特点,将老挝语机构名称定义形式为S+P,其中S为特征词,也称前缀词,P为修饰词,也称后缀词;Step1.1、根据形式定义,对老挝语机构名称命名实体语料库中所有特征词S进行提取,并全部登录特征词典;Step2、使用SVM模型对句子进行判断,筛选出含有老挝机构名称前缀词的句子;Step3、将句子中的每个字转换为one-hot向量;Step4、将句子的one-hot向量通过随机初始化的embedding矩阵转化为低维稠密的字向量;Step5、BiLSTM层操作:Step5.1、将句子的字向量作为BiLSTM的输入,并将正向LSTM输出的隐状态序列和反向LSTM输...

【专利技术属性】
技术研发人员:周兰江晏雷张建安
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1