当前位置: 首页 > 专利查询>华果才让专利>正文

一种基于神经网络的藏文语法纠错方法技术

技术编号:29052832 阅读:18 留言:0更新日期:2021-06-26 06:19
本发明专利技术公开了一种基于神经网络的藏文语法纠错方法,获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集;基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改;基于获取的神经网络,在所述神经网络的输出层后添加一个自注意力机制层,得到改进的神经网络;基于大数据网络,获取多个训练集和测试集,并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试,直至满足要求;将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值;将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,得到满足要求的纠错文本,能够快速的对藏文进行纠错。能够快速的对藏文进行纠错。能够快速的对藏文进行纠错。

【技术实现步骤摘要】
一种基于神经网络的藏文语法纠错方法


[0001]本专利技术涉及语言处理
,尤其涉及一种基于神经网络的藏文语法纠错方法。

技术介绍

[0002]目前虽然存在很多种语法纠错方法,但是大多是针对语种使用较为广泛的汉语、英语等通用语种的语法纠错方法,但是在藏文上,相关的语法纠错方法仍较为稀缺。

技术实现思路

[0003]本专利技术的目的在于提供一种基于神经网络的藏文语法纠错方法,能够快速的对藏文语法进行纠错。
[0004]为实现上述目的,本专利技术提供了一种基于神经网络的藏文语法纠错方法,包括以下步骤:
[0005]获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集;
[0006]基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改;
[0007]将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值;
[0008]将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,得到满足要求的纠错文本。
[0009]其中,将修改后的所述纠错藏文输入改进的神经网络中,并输出对应的损失值之前,所述方法还包括:
[0010]基于获取的神经网络,在所述神经网络的输出层后添加一个自注意力机制层,得到改进的神经网络;
[0011]基于大数据网络,获取多个训练集和测试集,并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试,直至满足要求。
[0012]其中,获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集,包括:
[0013]利用爬虫技术获取待纠错样本,并基于设定的切词规则对所述待纠错样本进行切词,得到多个纠错藏文;
[0014]基于评判准则对得到的多个所述纠错样本进行语义判断和错别字判断,并基于判断结果,构建对应的语义纠错词集和错别字纠错词集,其中,所述评判准则为基于词库、《三十颂》和《字性组织法》。
[0015]其中,基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改,包括:
[0016]基于所述错别字纠错词集,将符合要求的对应的藏文替换字符对所述纠错藏文进行替换;
[0017]基于所述语义纠错词集,按照随机抽取不放回的形式,利用所述语义纠错词集中的语义纠错样本对所述纠错样本进行修改。
[0018]其中,基于所述错别字纠错词集,将符合要求的对应的藏文替换字符对所述纠错藏文进行替换之后,所述方法还包括:
[0019]对进行错别字替换后的所述纠错藏文再次进行语义判断,若不满足所述评判准则,则对所述纠错藏文进行修改,若满足所述评判准则,则完成纠错。
[0020]其中,将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值,包括:
[0021]将修改得到的修改藏文的每一个字符位置进行编码,并将编码后的所述修改藏文输入所述改进的神经网络中,并利用所述自注意力机制对所述修改藏文的每一个字符进行检测;
[0022]基于设定的损失函数公式计算出每一个所述修改藏文对应的损失值。
[0023]本专利技术的一种基于神经网络的藏文语法纠错方法,获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集;基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改;基于获取的神经网络,在所述神经网络的输出层后添加一个自注意力机制层,得到改进的神经网络;基于大数据网络,获取多个训练集和测试集,并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试,直至满足要求;将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值;将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,得到满足要求的纠错文本,能够快速的对藏文进行纠错。
附图说明
[0024]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是本专利技术提供的一种基于神经网络的藏文语法纠错方法的步骤示意图。
[0026]图2是本专利技术提供的藏文组成示意图。
具体实施方式
[0027]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0028]在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0029]请参阅图1,本专利技术提供一种基于神经网络的藏文语法纠错方法,包括以下步骤:
[0030]S101、获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集。
[0031]具体的,利用现有的爬虫技术从网络上获取待纠错样本,也可以将纸质版文本进行扫描,将扫描得到的电子文档传输至上位机中,然后利用所述爬虫技术获取对应的所述
待纠错样本。然后,基于设定的切词规则对所述待纠错样本进行切词,得到多个纠错藏文;其中,设定的所述切词规则是根据藏文的拼写格式设定,根据所述待纠错样本中的音节区分符号,进行音节的区分,根据所述待纠错样本中的词尾符号,进行词尾断句,因此,在进行切词之前,需要对所述待纠错样本进行特征提取,并根据提取出来的两种特征,分别对分别音节区分符号和词尾符号进行标记,其中,所述音节区分符号为:“.”;所述词尾符号为:“|”。
[0032]如图2所示的一个典型的藏文音节,由基字、下加字、上加字、前加字、元音、第一后加字和第二后加字组成,藏文每个音节会有一个基字,基字是拼读的基础。音节中带附标(元音符号或上下加字)的字母是基字;无带附标字母时,双字母音节前字母是基字;四字母时第二个字母是基字;三字母音节通常中间字母是基字。因此,在判断是否是错别字时,这几部分是检测关键和基础。
[0033]基于评判准则对得到的多个所述纠错样本进行语义判断和错别字判断,并基于判断结果,构建对应的语义纠错词集和错别字纠错词集,其中,所述评判准则为基于词库、《三十颂》和《字性组织法》,上部语法《三十颂》有8个格,这8个格主要解决一个问题,就是一个句子是如何形成的,语法的作用和逻辑是怎样的,下部语法《字性组织法》主要讲字性、句子结构以及动词的时态变化。藏文的字性跟藏语的发音有着密切的关系,字性决定文字发音,藏文的字性有7种,分别是:阳性字、阴性字、中性字、准阴性字、极阴性字、纯阴性字、无性字。
[0034]具体的判断方法为:首先,利用所述评判准则区分是因为错别字还是词汇错误导致的语义错误,具体的评判准则则是根据对应的词库、《三十颂》和《字性组织法》进行判断,其中,所述词库为基于大数据下构建的所有的藏文词汇,并将同义词等具有关联的词汇进行分类或者建立拓扑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的藏文语法纠错方法,其特征在于,包括以下步骤:获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集;基于所述纠错词集,按照设定的取样方式对切词得到的纠错藏文进行修改;将修改得到的修改藏文输入改进的神经网络中,并输出对应的损失值;将当前所述损失值与所述待纠错样本对应的样本损失值进行比较,得到满足要求的纠错文本。2.如权利要求1所述的基于神经网络的藏文语法纠错方法,其特征在于,将修改后的所述纠错藏文输入改进的神经网络中,并输出对应的损失值之前,所述方法还包括:基于获取的神经网络,在所述神经网络的输出层后添加一个自注意力机制层,得到改进的神经网络;基于大数据网络,获取多个训练集和测试集,并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试,直至满足要求。3.如权利要求1所述的基于神经网络的藏文语法纠错方法,其特征在于,获取待纠错样本,并对所述待纠错样本进行切词和语义判断,并构建对应的纠错词集,包括:利用爬虫技术获取待纠错样本,并基于设定的切词规则对所述待纠错样本进行切词,得到多个纠错藏文;基于评判准则对得到的多个所述纠错样本进行语义判断和错别字判断,并基于判断结果,构建对应的语义纠错词集和错...

【专利技术属性】
技术研发人员:华果才让
申请(专利权)人:华果才让
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1