一种多音字标注方法、装置以及计算机可读存储介质制造方法及图纸

技术编号:23983758 阅读:22 留言:0更新日期:2020-04-29 12:32
本发明专利技术公开了一种多音字标注方法、装置以及计算机可读存储介质,所述方法包括:获取多音字;将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;从歧义规则词库中获取对应于所述多音字的读音权重;根据所获取到的读音概率和读音权重,得到置信度;根据所得到的置信度,对所述多音字进行读音标注。通过设置预测模型结合歧义规则词库,根据读音概率和读音权重对多音字进行标注,较现有技术,有着较高的读音标注准确率。

A method, device and computer readable storage medium for multi tone character marking

【技术实现步骤摘要】
一种多音字标注方法、装置以及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种多音字标注方法、装置以及计算机可读存储介质。
技术介绍
当前的多音字读音获取方案,主要词典匹配获取。此方案系统考虑因素单一且对具有歧义或者固定搭配的短语,比如“为”、“得”等多音字,读音标注的准确度较低。
技术实现思路
本专利技术实施例提供了一种多音字标注方法、装置以及计算机可读存储介质,对多音字读音标注有着较高的准确率。本专利技术一方面提供一种多音字标注方法,所述方法包括:获取多音字;将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;从歧义规则词库中获取对应于所述多音字的读音权重;根据所获取到的读音概率和读音权重,得到置信度;根据所得到的置信度,对所述多音字进行读音标注。在一可实施方式中,所述从歧义规则词库中获取对应于所述多音字的读音权重,包括:判断所述歧义规则词库中是否包含所述多音字;若判定所述歧义规则词库中包含所述多音字,则从所述歧义规则词库中获取对应于所述多音字的读音权重。在一可实施方式中,若判定所述歧义规则词库中未包含所述多音字,则选取概率最高的两个读音概率,并设置所述两个读音概率相同的读音权重;相应的,所述根据所获取到的读音概率和读音权重,得到置信度,包括:根据所选取的两个读音概率和所设置的读音权重,得到置信度。在一可实施方式中,所述根据所获取到的读音概率和读音权重,得到置信度,包括:将所获取到的语音概率和读音权重,通过公式得到置信度,公式为:P=(p1*w1-p2*w2-…pn*wn)2*100(P∈(0~100)),其中P为置信度,p1、p2、…、pn为所述多音字对应的多个读音概率,w1、w2、…、wn为所述多音字对应的多个权重。在一可实施方式中,所述根据所得到的置信度,对所述多音字进行读音标注,包括:判断所述置信度是否低于预设值;若判定所述置信度低于所述预设值,则从高频读音库搜索对应多音字的读音;将所述多音字标注所搜索到的读音。在一可实施方式中,若判定所述置信度超过所述预设值,则从多个所述读音概率中选取最大读音概率;获取所述最大读音概率所对应的读音;将所述多音字标注为所获取的读音。在一可实施方式中,所述获取多音字,包括:获取文本;对所获取的文本进行分词处理,得到多个分词;判断所得到的分词是否存在于多音字词库中;若判定所得到的分词存在于所述多音字词库中,则判定所述分词为多音字。在一可实施方式中,在对所获取的文本进行分词处理,得到多个分词之后,所述方法还包括:利用读音字典对所述分词进行读音标注;判断所述分词和对应的读音标注是否存在于强规则词库中;若判定所述分词和对应的读音标注存在于所述强规则词库中,则将所述分词标注为由所述读音字典所标注的读音;若判定所述分词和对应的读音标注不存在于所述强规则词库中,则判断所述分词是否存在于多音字词库中。本专利技术另一方面提供一种多音字标注装置,所述装置包括:多音字获取模块,用于获取多音字;读音概率获取模块,用于将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;读音权重获取模块,用于从歧义规则词库中获取对应于所述多音字的读音权重;置信度获取模块,用于根据所获取到的读音概率和读音权重,得到置信度;读音标注模块,用于根据所得到的置信度,对所述多音字进行读音标注。本专利技术另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行多音字标注方法。在本专利技术实施例中,通过设置预测模型结合歧义规则词库,根据读音概率和读音权重对多音字进行标注,较现有技术,有着较高的读音标注准确率。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。图1为本专利技术实施例一种多音字标注方法的实现流程示意图;图2为本专利技术实施例一种多音字标注方法的具体实现流程框图图3为本专利技术实施例一种多音字标注装置的结构组成示意图。具体实施方式为使本专利技术的目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例一种多音字标注方法的实现流程示意图。如图1所示,本专利技术一方面提供一种多音字标注方法,方法包括:步骤101,获取多音字;步骤102,将所获取的多音字作为预测模型的输入,得到多个对应于多音字的读音概率;步骤103,从歧义规则词库中获取对应于多音字的读音权重;步骤104,根据所获取到的读音概率和读音权重,得到置信度;步骤105,根据所得到的置信度,对多音字进行读音标注。本实施例中,首先获取到多音字,接着将所获取的多音字输入于预测模型中,得到多个对应于多音字的读音概率。其中,预测模型为已训练的统计模型或者神经网络模型,其中,神经网络模型大致的训练过程如下:将训练语料(多音字)和对应训练语料的真实值(语音)输入于神经网络模型,得到对应的结果;将所得到的结果与真实值通过损失函数得到损失值,根据损失值反复训练神经网络模型,直到损失值在指定范围内为止,模型训练完成。接着从歧义规则词库中获取对应于该多音字的读音权重,其中,歧义规则词库中存有大量的高频多音字、读音标注以及读音权重,读音权重的获取方式可以是通过大量语料进行ngram(语言模型)统计。接着根据所得到的读音概率和读音权重,得到一个置信度,最后根据置信度,对多音字进行读音标注。由此,通过设置预测模型结合歧义规则词库,根据读音概率和读音权重对多音字进行标注,较现有技术,有着较高的读音标注准确率。在一可实施方式中,获取多音字,包括:获取文本;对所获取的文本进行分词处理,得到多个分词;判断所得到的分词是否存在于多音字词库中;若判定所得到的分词存在于多音字词库中,则判定分词为多音字。本实施例中,获取多音字的具体过程为:首先获取文本,获取方式可以从线上获取,也可以人工撰写。接着通过现有的分词工具(比如NLPIR分词系统、THULAC、SnowNLP等)得到多个分词,然后判断所得到的分词是否存在于多音字词库中,其中多音字词库中至少包括所有的高频多音字。若判定多音字词库中存在该分词,则判定该分词为多音字。在一可实施方式中,在对所获取的文本进行分词处理,得到多个分词之后,方法还包括:利用读音字典对分词进行读音标注;判断分词和对应的读音标注是否存在于强规则词库中;若判定分词和对应的读音标注本文档来自技高网...

【技术保护点】
1.一种多音字标注方法,其特征在于,所述方法包括:/n获取多音字;/n将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;/n从歧义规则词库中获取对应于所述多音字的读音权重;/n根据所获取到的读音概率和读音权重,得到置信度;/n根据所得到的置信度,对所述多音字进行读音标注。/n

【技术特征摘要】
1.一种多音字标注方法,其特征在于,所述方法包括:
获取多音字;
将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;
从歧义规则词库中获取对应于所述多音字的读音权重;
根据所获取到的读音概率和读音权重,得到置信度;
根据所得到的置信度,对所述多音字进行读音标注。


2.根据权利要求1所述的方法,其特征在于,所述从歧义规则词库中获取对应于所述多音字的读音权重,包括:
判断所述歧义规则词库中是否包含所述多音字;
若判定所述歧义规则词库中包含所述多音字,则从所述歧义规则词库中获取对应于所述多音字的读音权重。


3.根据权利要求2所述的方法,其特征在于,若判定所述歧义规则词库中未包含所述多音字,则选取概率最高的两个读音概率,并设置所述两个读音概率相同的读音权重;
相应的,所述根据所获取到的读音概率和读音权重,得到置信度,包括:
根据所选取的两个读音概率和所设置的读音权重,得到置信度。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所获取到的读音概率和读音权重,得到置信度,包括:
将所获取到的语音概率和读音权重,通过公式得到置信度,公式为:
P=(p1*w1-p2*w2-…pn*wn)2*100(P∈(0~100)),其中P为置信度,p1、p2、…、pn为所述多音字对应的多个读音概率,w1、w2、…、wn为所述多音字对应的多个权重。


5.根据权利要求1所述的方法,其特征在于,所述根据所得到的置信度,对所述多音字进行读音标注,包括:
判断所述置信度是否低于预设值;
若判定所述置信度低于所述预设值,则从高频读音库搜索对应多音字的读音;
将所述多音字标注所搜...

【专利技术属性】
技术研发人员:冯小琴雷欣李志飞
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1