【技术实现步骤摘要】
一种面向设定策略的中文拼音自动生成方法及装置
本专利技术涉及拼音生成
,尤其涉及一种面向设定策略的中文拼音自动生成方法及装置。
技术介绍
为普及国学经典类著作,人们在微信公众号开设国学经典栏目,搜罗各类国学经典书籍,提供阅读及在线朗诵功能,并在书籍中给每个汉字标上拼音。其中需要解决的核心问题,是如何准确的将国学经典中的汉字自动转拼音。针对该问题,现有的技术主要是借助汉语拼音词典去匹配相应的拼音,存在如下的明显缺陷:1)在处理多音字时,转拼音容易出错;2)在处理通假字时(绝大部分不同音),转出的拼音往往是错的。而国学经典书籍或文章中,多音字和通假字是比较常见的,采用现有的中文转拼音技术,会导致拼错的概率非常大,需要进行人工干预,但效果不理想:1)人工纠错的工作量过大,无法在短期内完成大批量的国学经典书籍的处理;2)人工纠错的效率极低,主要体现在“找错”效率低,需要逐一核对。基于以上背景,本领域人员亟需寻找一种新的技术方案来解决上述的问题。
技术实现思路
...
【技术保护点】
1.一种面向设定策略的中文拼音自动生成方法,其特征在于,包括:/n构造多音字词组词典,所述多音字词组词典中包含有多音字在不同词组中的发音;/n构造通假字词典,所述通假字词典中包含通假字以及其出处、所在句子、通假的字以及发音;/n录入设定策略文章,并对照汉语词典为所述设定策略文章中的汉字匹配拼音,生成初始文件;/n对照所述多音字词组词典识别所述初始文件中的多音字以及词组,对所述多音字及其词组的拼音进行修正,生成第一修正文件;/n对照所述通假字词典识别所述第一修正文件中的通假字,并根据所述通假字的前后文对其拼音进行修正,生成第二修正文件。/n
【技术特征摘要】
1.一种面向设定策略的中文拼音自动生成方法,其特征在于,包括:
构造多音字词组词典,所述多音字词组词典中包含有多音字在不同词组中的发音;
构造通假字词典,所述通假字词典中包含通假字以及其出处、所在句子、通假的字以及发音;
录入设定策略文章,并对照汉语词典为所述设定策略文章中的汉字匹配拼音,生成初始文件;
对照所述多音字词组词典识别所述初始文件中的多音字以及词组,对所述多音字及其词组的拼音进行修正,生成第一修正文件;
对照所述通假字词典识别所述第一修正文件中的通假字,并根据所述通假字的前后文对其拼音进行修正,生成第二修正文件。
2.如权利要求1所述的面向设定策略的中文拼音自动生成方法,其特征在于,还包括对所述第一修正文件中的所述多音字以及词组进行标记,以及对所述第二修正文件中的所述通假字进行标记。
3.如权利要求2所述的面向设定策略的中文拼音自动生成方法,其特征在于,还包括:
对所述第二修正文件进行人工审核,将新多音字以及词组和新通假字分别保存至所述多音字词组词典和所述通假字词典中,并记录所述新多音字以及词组和所述新通假字的出现次数。
4.如权利要求3所述的面向设定策略的中文拼音自动生成方法,其特征在于,还包括:
对所述第一修正文件中的各个所述多音字以及词组出现的次数进行计数,并记录在所述多音字词组词典中;
对所述第二修正文件中的各个所述通假字出现的次数进行计数,并记录在所述通假字词典中。
5.如权利要求4所述的面向设定策略的中文拼音自动生成方法,其特征在于,还包括:
根据所述多音字以及词组出现的次数计算其出现概率,并作为对所述初始文件进行修正时的参考因素;
根据所述通假字出现的次数计算其出现概率,并作为对所述第一修正文件进行修正时的参考因素。
6.一种面向设定策略的中文拼音...
【专利技术属性】
技术研发人员:徐锦才,黄建超,喻志翀,熊志伟,赵汝源,
申请(专利权)人:广东德诚科教有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。