语种识别方法、装置、服务器及存储介质制造方法及图纸

技术编号：22974792 阅读：13 留言：0更新日期：2019-12-31 23:27

本申请提供了一种语种识别方法、装置、服务器及存储介质，属于大数据技术领域。所述方法包括：将至少一个待识别文本的编码格式转换为万国码；根据预设的语法规则对至少一个待识别文本进行识别，确定至少一个待识别文本所属的语种，语法规则包括语种特殊字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种；当存在未识别的待识别文本时，根据各语种对应的高频词汇集，确定未识别的待识别文本所属的语种。使得通过对共同字符较多的语种的多维度和多层次的识别，提高了识别结果的精准度，和语种识别的覆盖度，从而实现了有效的语种识别。

Language identification method, device, server and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
语种识别方法、装置、服务器及存储介质
本申请涉及大数据
，特别涉及一种语种识别方法、装置、服务器及存储介质。
技术介绍
随着互联网技术的迅速发展，各种各样的网站中存储了数量庞大的数据资料，通过大数据算法可以对上述网站中的文本数据进行大数据处理，从而得到具有较高价值的数据。由于目前存在许多使用不同语种的网站，且部分语种源于同一语系，语种间存在共同的字符，具有较高的相似性，导致无法直观的对网站中的文本所属的语种进行区分。因此，如何对不同语种的文本数据进行识别，是目前急需解决的问题。现有技术方案中，通常是对各语种中的独有字符进行识别，也即当文本数据中出现了某个语种的独有字符，则可以判定该文本数据所属的语种。上述技术方案存在的问题是，对于语种间共同字符较多，独有字符较少的语种，如维吾尔语、哈萨克语以及阿拉伯语等，无法通过语种的独有字符来进行有效的语种识别。
技术实现思路
本申请实施例提供了一种语种识别方法、装置、服务器及存储介质，用于解决目前数据库同步时主数据库可能会无法接收到备数据库返回的应答，导致主数据库执行的数据库指令无法执行或者执行较慢，从而影响数据库系统的处理性能的问题。所述技术方案如下：一方面，提供了一种语种识别方法，包括：将至少一个待识别文本的编码格式转换为万国码；根据预设的语法规则对所述至少一个待识别文本进行识别，确定所述至少一个待识别文本所属的语种，所述语法规则包括语种特殊字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种；r>当存在未识别的待识别文本时，根据各语种对应的高频词汇集，确定所述未识别的待识别文本所属的语种。另一方面，提供了一种语种识别装置，包括：转换模块，用于将至少一个待识别文本的编码格式转换为万国码；识别模块，用于根据预设的语法规则对所述至少一个待识别文本进行识别，确定所述至少一个待识别文本所属的语种，，所述语法规则包括语种独有字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种；确定模块，用于当存在未识别的待识别文本时，根据各语种对应的高频词汇集，确定所述未识别的待识别文本所属的语种。在一种可能的实现方式中，所述转换模块，还用于对于所述至少一个待识别文本中的任一待识别文本，将所述待识别文本由第一字符编码转换为万国码，所述第一字符编码为所述待识别文本的原始编码格式；根据字形编码和第二字符编码的对应关系，将所述待识别文本中的字形编码转换为对应的第二字符编码，所述第二字符编码由至少两个万国码构成。在一种可能的实现方式中，所述识别模块，还用于对于任一待识别文本，当所述待识别文本中包括第一目标语种的特殊字符时，根据所述特殊字符的万国码，确定所述待识别文本所属的语种为所述第一目标语种。在一种可能的实现方式中，所述识别模块，还用于对于任一待识别文本，对所述待识别文本进行分词，得到多个词汇；当任一词汇中的目标位置出现目标共用字符时，确定所述待识别文本所属的第二目标语种。在一种可能的实现方式中，所述识别模块，还用于对于任一待识别文本，对所述待识别文本进行分词，得到多个词汇；当任一词汇的语法词缀为第三目标语种的独有词缀时，确定所述待识别文本所属的语种为所述第三目标语种。在一种可能的实现方式中，所述确定模块，还用于获取各语种对应的高频词汇集，所述高频词汇集包括目标数量的高频词汇；对于任一未识别的待识别文本，对所述待识别文本进行分词，得到多个词汇；当所述多个词汇中包括目标高频词汇集中的词汇时，确定所述待识别文本所属的语种为所述目标高频词汇集对应的语种。在一种可能的实现方式中，所述各语种对应的高频词汇集的创建方法包括：对于任一语种，从包括所述语种文本的第一样本文本中，清除数字、英文、空格以及所述语种文本之外的文本，得到第二样本文本；对所述第二样本文本进行分词，统计每个词汇的词频；将各语种共有的词汇剔除，根据每个词汇的词频从高到低获取目标数量的高频词汇；将所述目标数量的高频词汇组成的集合，作为所述语种的高频词汇集。另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器用于存储程序代码，所述程序代码由所述处理器加载并执行以实现本申请实施例中的语种识别方法中所执行的操作。另一方面，提供了一种存储介质，所述存储介质中存储有程序代码，所述程序代码用于执行本申请实施例中的语种识别方法。本申请实施例提供的技术方案带来的有益效果是：通过将待识别文本的编码格式统一为万国码，从而可以根据语种特殊字符、目标共用字符在词汇中的位置以及独有词缀等语法规则，来对待识别文本进行多维度的识别，对于上述规则未识别的待识别文本，通过各语种对应的高频词汇集进行进一步的识别，覆盖度较高。使得通过对共同字符较多的语种的多维度和多层次的识别，提高了识别结果的精准度，和语种识别的覆盖度，从而实现了有效的语种识别。附图说明为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1本申请实施例提供的一种的实施环境的示意图；图2是本申请实施例提供的一种语种识别方法的流程图；图3是本申请实施例提供的一种维哈阿三语的部分字符编码的对照表；图4是本申请实施例提供的一种维语字形编码转换表的示意图；图5是本申请实施例提供的一种特殊字符“海木仔”的示意图；图6是本申请实施例提供的一种根据共用字符的位置确定语种的示意图；图7是本申请实施例提供的另一种根据共用字符的位置确定语种的示意图；图8是本申请实施例提供的一种根据词缀确定语种的示意图；图9是本申请实施例提供的另一种根据词缀确定语种的示意图；图10是本申请实施例提供的一种系统框架图；图11是本申请实施例提供的一种语种识别系统处理流程图；图12是本申请实施例提供的一种篇章级的测试结果图；图13是本申请实施例提供的一种句子级的测试结果图；图14是本申请实施例提供的一种语种识别装置的框图；图15是本申请实施例提供的一种服务器的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。本申请实施例提供的方法可以应用于人工智能领域的大数据处理场景，还可以应用于翻译软件自动区分语种的场景。以本申请实施例提供的方法应用于网络语料的大数据处理末端的数据清洗本文档来自技高网...

【技术保护点】
1.一种语种识别方法，其特征在于，所述方法包括：/n将至少一个待识别文本的编码格式转换为万国码；/n根据预设的语法规则对所述至少一个待识别文本进行识别，确定所述至少一个待识别文本所属的语种，所述语法规则包括语种特殊字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种；/n当存在未识别的待识别文本时，根据各语种对应的高频词汇集，确定所述未识别的待识别文本所属的语种。/n

【技术特征摘要】
1.一种语种识别方法，其特征在于，所述方法包括：
将至少一个待识别文本的编码格式转换为万国码；
根据预设的语法规则对所述至少一个待识别文本进行识别，确定所述至少一个待识别文本所属的语种，所述语法规则包括语种特殊字符、目标共用字符在词汇中的位置以及独有词缀中的至少一种；
当存在未识别的待识别文本时，根据各语种对应的高频词汇集，确定所述未识别的待识别文本所属的语种。

2.根据权利要求1所述的方法，其特征在于，所述将至少一个待识别文本的编码格式转换为万国码，包括：
对于所述至少一个待识别文本中的任一待识别文本，将所述待识别文本由第一字符编码转换为万国码，所述第一字符编码为所述待识别文本的原始编码格式；
根据字形编码和第二字符编码的对应关系，将所述待识别文本中的字形编码转换为对应的第二字符编码，所述第二字符编码由至少两个万国码构成。

3.根据权利要求1所述的方法，其特征在于，所述根据预设的语法规则对所述至少一个待识别文本进行识别，包括：
对于任一待识别文本，当所述待识别文本中包括第一目标语种的特殊字符时，根据所述特殊字符的万国码，确定所述待识别文本所属的语种为所述第一目标语种。

4.根据权利要求1所述的方法，其特征在于，所述根据预设的语法规则对所述至少一个待识别文本进行识别，包括：
对于任一待识别文本，对所述待识别文本进行分词，得到多个词汇；
当任一词汇中的目标位置出现目标共用字符时，确定所述待识别文本所属的第二目标语种。

5.根据权利要求1所述的方法，其特征在于，所述根据预设的语法规则对所述至少一个待识别文本进行识别，包括：
对于任一待识别文本，对所述待识别文本进行分词，得到多个词汇；
当任一词汇的语法词缀为第三目标语种的独有词缀时，确定所述待识别文本所属的语种为所述第三目标语种。<...

【专利技术属性】
技术研发人员：李应弟，张雨辰，贾鹏飞，阳安娜，张忠恺，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人