一种中文拼写纠错的数据集构造方法技术

技术编号：33853123 阅读：24 留言：0更新日期：2022-06-18 10:40

本发明专利技术公开了一种中文拼写纠错的数据集构造方法，包括步骤1）以人工筛选的形式获取新闻文档语句列表；步骤2）构建同音词集合；步骤3）根据同音词集合对新闻文档语句进行筛选；步骤4）对初始新闻语句，获得替换一个同音不同形的词语后句子组成的集合；步骤5）获得被替换的词语和其位置信息；步骤6）由初始新闻语句和相应替换词语后的句子组成句子对序列。本发明专利技术充分利用文档中的同音词集合，能够在没有任何人工干预的情况下标记句子中出错的词语及其位置，填补了中文文本简化领域的空白，为中文拼写自动纠正的后续研究奠定了基础。写自动纠正的后续研究奠定了基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文拼写纠错的数据集构造方法

[0001]本专利技术涉及中文文本简化领域，特别涉及一种中文拼写纠错的数据集构造方法。

技术介绍

[0002]伴随着21世纪互联网技术和网络通信的高速发展，通过输入拼音进行文字检索已经成为人们日常生活中必不可少的一项活动。通过拼音进行文字输入的方式比复杂的五笔输入、手写输入等方式需要的掌握门槛更低，且能够表达更加特定而精确的信息。然而，人们利用拼音进行文字检索的同时，也因中文拼音有多个同音字的特性，受到互联网巨大词汇量的干扰，导致最终输出与想表达本意有出入的内容。为此，人们迫切的需要一个特殊的工具，不是直接返回输出的内容，而是对其进行检查和修正，将经过检查和修正后的真正内容返回并输出，称之为中文拼写纠错。
[0003]现有的中文拼写纠错方法均采用基于神经网络的方法，数据集的规模和质量直接影响着基于神经网络的方法性能。现有的中文拼写纠错数据集都来源于SIGHAN 2013、SIGHAN 2014、SIGHAN 2015。这个数据集不仅规模比较小，且只考虑了字出错的情况，没有考虑词的错误。如果训练数据集中没有词的错误，模型很难学习到关于词语错误的纠正。为此，我们将关注点置于如何构建一个词错误的中文拼写数据集。
[0004]词错误的中文拼写数据集构造算法的目标是选定一个新闻句中的二字词语，在同音字集合中寻找一个与之同音不同形的二字词语替换它，因此，可以得到新闻句中出错的词语及其位置信息。目前中文领域暂无公开的词错误的中文拼写数据集。在研究现有的关于英文单词拼写纠错的过程中，...

【技术保护点】

【技术特征摘要】
1.一种中文拼写纠错的数据集构造方法，其特征在于，包括以下步骤：步骤1)获取若干个新闻文章正文，利用分句工具，对所述新闻文章正文进行分句，构成初始的新闻句集合Sentence_R＝{s1,s2,
…
,s
i
,
…
,s
n
}，s
i
表示在初始返回新闻句集合Sentence_R中第i句句子，n表示Sentence_R中句子的数目，1≤i≤n；步骤2)获取公开的以下词语文本资源：互联网词库SogouW、中文词语搭配库SogouR，构建同音词集合W；步骤3)根据所述同音词集合W，依次对新闻句集合Sentence_R中的句子s
i
进行筛选；若s
i
中含有同音词集合W中的任意一个词语，执行步骤4)，否则，令i＝i+1，继续执行步骤3)；步骤4)假设所述同音词集合W中的某一词语w出现在新闻句集合Sentence_R的某一句子s中，利用分词工具，s＝{w1,w2,
…
,w,
…
,w
n
}，n表示s中词语的数目，根据同音词集合W，获取词语w的第1个同音不同形的词语w
′
，并以w
′
替换句子s中的词语w，替换一个词语后的句子s
′
＝{w1,w2,
…
,w
′
,
…
,w
n
}，替换词语后句子组成的集合为Sentence_W；步骤5)获得被替换的词语w及其位置信息，记为Location；步骤6)对新闻句集合Sentence_R和所述替换词语后句子组成的集合Sentence_W进行处理，得到句子对集合new_data。2.根据权利要求1所述的一种中文拼写纠错的数据集构造方法，其特征在于，所述步骤2)包括以下步骤：步骤2.1)利用分词工具对互联网词库SogouW的语料列表进行分词，选取二字词语组成集合SogouLabDic_W＝{s_w1,s_w2,
…
,s_w
m
,
…
,s_w
n
}，s_w
m
表示在所述词语集合SogouLabDic_W中第m个二字词语，1≤m≤n；步骤2.2)利用分词工具对中文词语搭配库SogouR的语料列表进行分词，选取二字词语组成集合SogouLabDic_R＝{s_r1,s_r2,
…
,s_r
p
,
…
,s_r
n
}，s_r
p
表示在二字词语集合SogouLabDic_R中第p个二字词语，1≤p≤n；步骤2.3)合并两个词语集合SogouLabDic_W和SogouLabDic_R，并进行去重，获得二字词语集合chinese_twoword＝{w1,w2,
…
,w
q
,
…
,w
n
}，w
q
表示在所述词语集合chinese_twoword中第q个二字词语，1≤q≤n；步骤2.4)获取所述二字词语集合chinese_twoword中词语w
i
∈chinese_twoword对应的词语拼音pinyin
w
，定义i的初值为1；步骤2.5)定义一个词语字典PinYin_W，若所述词语w
i
所对应的拼音pinyin
w
不存在于词语字典目前的键中，则pinyin
w
形成一个新的键，w
i
成为此键的第一个值，否则，词语w
i
添加成为此键末尾的对象；步骤2.6)令i＝i+1，返回步骤2.4)，直至chinese_twoword中的所有词语处理完毕；步骤2.7)对所述词语字典PinYin_W的键进行排序，获得排序后的词语字典键集合PinYin_sorted_keys＝{p1,p2,
…
,p
n
}；步骤2.8)根据所述排序后的词语字典键集合PinYin_sorted_keys的次序，获取键p
j
∈PinYin_sorted_keys对应的值，此值的集合称之为V，定义j的初值为1；步骤2.9)假设集合V中有k个二字词语，从k个词语中，依次取出一个，作为原词，其余词语作为其同音不同形的词，组成的集合为W
j
＝{(w1：w
2 w3…
w
k
),(w2：w
1 w3…
w
k
),
…
,(w
k
：w
1 w2…
w
k
‑1)}；
步骤2.10)将W
j
添加至同音词集合W；步骤2.11)令j＝j+1，返回步骤2.8)，直至排序后的词语字典键集合PinYin_sorted_keys中的所有键处理完毕。3.根据权利要求1所述的一种中文拼写纠错的数据集构造方法，其特征在于，所述步骤4)包括以下步骤：步骤4.1)获取同音词集合W中单个键的词语集合W
i
∈W，利用分词工具对单个键的词语集合W
i
进行分词，W
i
中的原词，即“:”前的词语，记作w，同音词集合W中与原词同音不同形的替换词，即“:”后的第一个词语，记作w
’
，定义i的初值为1；步骤4.2)对新闻句集合Sentence_R中的句子s
j
(1≤j≤n)，根据所述单个键的词语集合W
i
进行筛选和替换，定义j的初值为1；步骤4.3)令i＝i+1，返回步骤4.1)，直至同音词集合W中的所有单个键的词语集合处理完毕；步骤4.4)对替换词语后句子组成的多次替换集合Sentence_Wrong_Repeat，根据句子拼音进行排序，以排序后的句子更新多次替换集合Sentence_Wrong_Repeat；步骤4.5)定义一个句子字典PinYin_S；步骤4.6)获取多次替换集合Sentence_Wrong_Repeat中句子s_repeat
p
∈Sentence_Wrong_Repeat，此时集合中包含的内容是经过替换词语和排序的语句列表，定义p的初值为1；步骤4.7)获取s_repeat
p
对应的句子拼音pinyin
s
；步骤4.8)若所述句子s_repeat
p
所对应的拼音pinyin
s
不存在于所述句子字典PinYin_S目前的键中，则pinyin
s
形成一个新的键，s_repeat
p
成为此键的第一个值，否则，句子s_repeat
p
添加成为此键末尾的对象；步骤4.9)令p＝p+1，返回步骤4.6)，直至多次替换集合Sentence_Wrong_Repeat中的所有句子处理完毕；步骤4.10)获取句子字典PinYin_S中单个键的句子集合S
q
∈PinYin_S，定义q的初值为1；步骤4.11)获取所述单个键的句子集合S
q
的第一个值，记作s
′
m
，将s
′
m
添加至替换词语后句子组成的集合Sentence_W，定义m的初值为1；步骤4.12)令m＝m+1，q＝q+1，返回步骤4.10)，直至所述句子字典PinYin_S中的所有键值处理完毕。4.根据权利要求3所述的一种中文拼写...

【专利技术属性】
技术研发人员：钦唯一，强继朋，
申请(专利权)人：扬州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人