【技术实现步骤摘要】
面向中文拼音拼写纠错的自监督预训练方法、系统及介质
[0001]本专利技术涉及自然语言处理领域,尤其涉及一种面向中文拼音拼写纠错的自监督预训练方法、系统及介质。
技术介绍
[0002]文本纠错是自然语言处理(Natural Language Processing,NLP)中一个重要的子任务和研究方向,其他主要目的是通过机器学习的方式自动实现文本的检查、错误识别及纠错,从而在提高语言表达正确性的同时减少人工校验成本。相对于英文文本纠错研究来说,中文文本纠错面临更多的困难和挑战,特别是由于中文字词之间没有定界符,且缺乏形态上的变化,这使得中文的句法和语义解释都高度依赖其上下文。作为中文文本纠错研究中的一个重要组成部分,中文拼写纠错(Chinese spelling error correction,CSC)的目的是检测中文文本中出现的字(或词)拼写错误并进行纠正。早期对中文拼写纠错的研究主要在长期积累的纠错规则和纠错词典的基础上采用基于规则或统计的方法,并且将错误纠错分为错误检测、候选召回和纠正错误三个步骤,主要的不足是需要人工 ...
【技术保护点】
【技术特征摘要】
1.一种面向中文拼音拼写纠错的自监督预训练方法,其特征在于,包括以下步骤:获取中文文本序列,根据预设标志将中文文本序列转换为满足BERT模型要求的输入句子X;从输入句子X中获取需要利用拼音混淆集进行替换的字的列表,并记为PYList(X);对于PYList(X)中的每一个字x,获取该字x的拼音,根据拼音获取同音字列表,根据同音字列表将字x替换为新的字;在处理完PYList(X)中的所有字后,获得新的输入句子PYInput(X),根据输入句子PYInput(X)获取BERT模型的输入Input(X);将Input(X)作为BERT模型的输入并进行训练后,通过BERT模型中的掩码语言模型预测Input(X)中各个字的正确值。2.根据权利要求1所述的一种面向中文拼音拼写纠错的自监督预训练方法,其特征在于,所述从输入句子X中获取需要利用拼音混淆集进行替换的字的列表,并记为PYList(X),包括:对于输入句子X,采用BERT的掩码策略选择相应的被掩码字,即选择输入句子X中15%的字进行替换;其中被选中的字有80%概率被替换成该字在拼音混淆集中的字,10%的概率被随机替换成词汇表中的某个字,10%的概率保持不变;为了便于表示,将输入句子X中所有被选中为需要利用拼音混淆集进行替换的字的列表记为PYList(X)。3.根据权利要求1所述的一种面向中文拼音拼写纠错的自监督预训练方法,其特征在于,所述对于PYList(X)中的每一个字x,获取该字x的拼音,根据拼音获取同音字列表,根据同音字列表将字x替换为新的字,包括:对于PYList(X)中的每一个字x执行以下步骤:利用Python中的汉字转拼音工具pypinyin获取该字的拼音及单调;根据该字的拼音,利用Python中的拼音转汉字工具Pinyin2Hanzi获得该拼音下的同音字列表;若列表不为空,则得到该字的同音同调及同音不同调列表SamePYList(x);若列表为空,则列表SamePYList(x)设置为空;若该字的拼音结尾为g,则去掉g,并利用Python中的拼音转汉字工具获得该字的近音列表DiffPYList(x);根据列表SamePYList(x)和列表DiffPYList(x)选择替换字;若列表SamePYList(x)或列表DiffPYList(x)为空,则保留原来的字不变。4.根据权利要求1所述的一种面向中文拼音拼写纠错的自监督预训练方法,其特征在于,所述在处理完PYList(X)中的所有字后,获得新的输入句子PYInput(X),根据输入句子PYInput(X)获取BERT模型的输入Input(X),包括:将PYInput(X)中的各个字转成词汇表中的序号,...
【专利技术属性】
技术研发人员:苏锦钿,曹庭毓,顾伟正,吴清培,高浩然,刘亚菲,洪奕槐,郑欣若,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。