一种语句转换方法、装置、服务器及计算机存储介质制造方法及图纸

技术编号:22135404 阅读:61 留言:0更新日期:2019-09-18 09:06
本发明专利技术公开了一种语句转换方法、装置、服务器及计算机存储介质,所述方法包括:将输入的拼音语句按单个汉字切分为多个拼音;根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。本发明专利技术的语句转换方法,通过语句置信度的计算,筛选出最符合正常表达的一个或多个汉字语句,识别率高。

A Method, Device, Server and Computer Storage Media for Sentence Conversion

【技术实现步骤摘要】
一种语句转换方法、装置、服务器及计算机存储介质
本专利技术涉及自然语言处理技术,具体涉及一种语句转换方法、装置、服务器及计算机存储介质。
技术介绍
随着计算机和网络科技的发展,计算机的处理更多的涉及大数据和人工智能,计算机及其它终端经常需要处理文本文字,即自然语言处理(NLP,NaturalLanguageProcessing),拼音-汉字转换处理是其中比较重要且应用广泛的一种处理类型;而且,在问答系统、检索系统、专家系统、在线客服、手机助手、私人助理等应用场合,需要处理的不仅是拼音词语和短语,还包括拼音语句或混杂拼音、中文、英文、网络流行语的长语句。目前,业界存在多种拼音词语和短语转汉字的技术,如拼音输入法,但在拼音语句的转换方面,存在识别率低或前期设计工作量巨大的问题,无法满足当今人工智能的发展需求。例如,目前有一种智能拼音汉字转换系统,提供了一种常规知识收集后采用逻辑回归(LR,LogisticRegression)算法进行语法分析的系统,但是,该方案的识别准确率不高,转换效率低。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例期望提供一种语句转换方法、装置、服务器及计算机存储介质,能提高效率以及识别的准确率。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种语句转换方法,所述方法包括:将输入的拼音语句按单个汉字切分为多个拼音;根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。上述方案中,所述将输入的拼音语句按单个汉字切分为多个拼音,包括:将输入的拼音语句按单个汉字的拼音字母数量特点,获得多种切分方案;根据预设的拼音库和汉字库,筛选出符合所述拼音库和汉字库的拼音。上述方案中,所述将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句,包括:将各拼音按拼音与汉字的对应关系,获得与每个拼音对应的至少一个汉字;将对应一个拼音的多个汉字,分别与其它转换后的汉字顺序组成候选汉字语句,获得多个候选汉字语句。上述方案中,所述根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出,包括:根据当前的应用场景,确定该应用场景下语句置信度的筛选阀值;根据确定的筛选阀值,从所述多个候选汉字语句筛选出至少一个汉字语句输出。上述方案中,在将输入的拼音语句按单个汉字切分为多个拼音之前,所述方法还包括:接收拼音及对应汉字的输入,建立以拼音为索引字段,包含拼音和汉字两种字段的拼音库;接收汉字及对应拼音的输入,建立以汉字为索引字段,包含汉字和拼音两种字段的汉字库。上述方案中,在根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出之前,所述方法还包括:获取给定语句置信度的汉字语句资料,输入基于循环神经网络建立的汉字语句模型中,基于误差反向传播算法进行语句置信度计算的学习,获得预设计算准确率的计算语句置信度的汉字语句模型。上述方案中,在将输入的拼音语句按单个汉字切分为多个拼音之前,所述方法还包括:按预设分割规则,将输入的语句分割为一个或多个子句;判断所述子句是否为拼音语句;所述子句为拼音语句时,将所述拼音语句进行进一步处理。本专利技术实施例还提供了一种语句转换装置,所述装置包括切分模块、转换模块和计算模块;其中,所述切分模块,用于将输入的拼音语句按单个汉字切分为多个拼音;所述转换模块,用于根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;所述计算模块,用于计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。本专利技术实施例还提供了一种服务器,其特征在于,包括处理器和存储器;其中,所述处理器,用于将输入的拼音语句按单个汉字切分为多个拼音,根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句,计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出;所述存储器,用于根据所述处理器的指示,保存输入的拼音语句和输出的汉字语句。本专利技术实施例还提供了一种计算机存储介质,其上存储有可执行程序,所述可执行程序被处理器执行时实现如上面所述的任意一项语句转换方法的步骤。本专利技术实施例所提供的语句转换方法、装置、服务器及计算机存储介质,将输入的拼音语句按单个汉字切分为多个拼音;根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度从所述多个候选汉字语句筛选出至少一个汉字语句输出;可见,本专利技术实施例的语句转换方法,通过语句置信度的计算,直接筛选出最符合正常表达的一个或多个汉字语句,识别率高。附图说明图1为本专利技术实施例一语句转换方法的流程示意图;图2为本专利技术实施例二语句转换装置的结构组成示意图;图3为本专利技术实施例四混合语句中拼音部分转成汉字的方法的流程示意图;图4为本专利技术实施例五混合语句中拼音部分转成汉字的装置的结构组成示意图;图5为本专利技术实施例八拼音转汉字系统的系统架构示意图;图6为本专利技术实施例八拼音转汉字系统的系统接口流程示意图;图7为本专利技术实施例八拼音转汉字系统中候选语句生成流程示意图;图8为本专利技术实施例八拼音转汉字系统中候选语句选择流程示意图;图9为本专利技术实施例八拼音转汉字系统中在线使用示意图;图10为本专利技术实施例八拼音转汉字系统使用应用场景示意图。具体实施方式目前有一种集拼音和字形编码多种方式于一体的汉字输入方案,是使用普通英文字母键盘或触摸屏虚拟软键盘,将汉字以多种编码方式输入到计算机、平板电脑和手机等电子设备,进行中英文信息处理和通讯的汉字输入方法,即通过字母输入获得中文的方法。该方法无需对汉字进行拆分,以定位取码抽取汉字字形的特征字根和字音特征,通过改变字音编码元素和字形编码元素的组合成份以及码元位置的变化,构建具有多种编码输入方式的汉字输入集成系统,该方法能准确的识别汉字常用词语,但不能识别汉字语句或识别率很低,而且该方法的特征字根等信息需要大量人工收集、整理等工作量。本专利技术实施例正是为了提高汉字语句识别率和输入效率,提出一种语句转换方法,将输入的拼音语句按单个汉字切分为多个拼音;根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度从所述多个候选汉字语句筛选出至少一个汉字语句输出。本专利技术实施例提供的语句转换方法,通过语句置信度的计算,直接筛选出最符合正常表达的一个或多个汉字语句,识别率高。为了能够更详尽的了解本专利技术的特点与
技术实现思路
,下面将结合附图对本专利技术的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术。实施例一图1为本专利技术实施例一语句转换方法的流程示意图,所述方法可以由服务器实现;如图1所示,所述方法包括:步骤101:将输入的拼音语句按单个汉字切分为多个拼音;所述将输入的拼音语句按本文档来自技高网
...

【技术保护点】
1.一种语句转换方法,其特征在于,所述方法包括:将输入的拼音语句按单个汉字切分为多个拼音;根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。

【技术特征摘要】
1.一种语句转换方法,其特征在于,所述方法包括:将输入的拼音语句按单个汉字切分为多个拼音;根据预设的拼音库和汉字库,将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句;计算各个候选汉字语句的语句置信度,并根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出。2.根据权利要求1所述的方法,其特征在于,所述将输入的拼音语句按单个汉字切分为多个拼音,包括:将输入的拼音语句按单个汉字的拼音字母数量特点,获得多种切分方案;根据预设的拼音库和汉字库,筛选出符合所述拼音库和汉字库的拼音。3.根据权利要求1所述的方法,其特征在于,所述将各拼音转换成汉字,将转换后的汉字按拼音语句的顺序组成多个候选汉字语句,包括:将各拼音按拼音与汉字的对应关系,获得与每个拼音对应的至少一个汉字;将对应一个拼音的多个汉字,分别与其它转换后的汉字顺序组成候选汉字语句,获得多个候选汉字语句。4.根据权利要求1所述的方法,其特征在于,所述根据计算得到的各语句置信度,从所述多个候选汉字语句筛选出至少一个汉字语句输出,包括:根据当前的应用场景,确定该应用场景下语句置信度的筛选阀值;根据确定的筛选阀值,从所述多个候选汉字语句筛选出至少一个汉字语句输出。5.根据权利要求1所述的方法,其特征在于,在将输入的拼音语句按单个汉字切分为多个拼音之前,所述方法还包括:接收拼音及对应汉字的输入,建立以拼音为索引字段,包含拼音和汉字两种字段的拼音库;接收汉字及对应拼音的输入,建立以汉字为索引字段,包含汉字和拼音两种字段的汉字库。6.根据权利要求1所述的方法,其特征在于,在根据计算得到的各语句置信度,从所述...

【专利技术属性】
技术研发人员:牛国扬陈虹温海娇董修岗
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1