输入法模型生成方法及装置制造方法及图纸

技术编号:21033172 阅读:16 留言:0更新日期:2019-05-04 05:03
本发明专利技术提出一种输入法模型生成方法及装置,其中方法包括:获取训练数据以及分词词库,分词词库中包括:与输入法场景相关的词语;针对分词词库中的每个词语,查询训练数据中的各个句子,获取词语的词频以及词语对应的二元关系词;根据分词词库中的各个词语以及对应的二元关系词,生成前缀树;针对训练数据中的每个句子,采用前缀树对句子进行切分,得到至少一个切分结果,进而生成句子对应的有向无环图;根据有向无环图中的最大概率路径,确定句子对应的分词结果;根据训练数据中各个句子对应的分词结果,生成输入法应用中的N元模型,从而不需要采用HMM模型,不需要手动标注HMM模型的样本数据,降低了输入法模型的成本,提高了输入法模型的准确度。

Input Method Model Generation Method and Device

The invention provides an input method model generation method and device, which includes: acquiring training data and participle lexicon, which includes: words related to input method scene; querying each sentence in training data for each word in participle lexicon, acquiring word frequency and corresponding binary relational words according to each word in participle lexicon; Words and corresponding binary relational words are used to generate prefix trees; for each sentence in training data, the prefix tree is used to segment the sentence, and at least one segmentation result is obtained, and then the corresponding directed acyclic graph of the sentence is generated; according to the maximum probabilistic path in the directed acyclic graph, the corresponding word segmentation result of the sentence is determined; according to the corresponding word segmentation knot of each sentence in training data, the corresponding word segmentation result of each sentence is obtained. As a result, the N-element model in the application of input method is generated, so that the HMM model is not needed and the sample data of HMM model is not labeled manually, which reduces the cost of input method model and improves the accuracy of input method model.

【技术实现步骤摘要】
输入法模型生成方法及装置
本专利技术涉及文本处理
,尤其涉及一种输入法模型生成方法及装置。
技术介绍
目前,当用户在输入法应用中输入拼音时,输入法应用将用户输入的拼音输入N元模型,获取候选词列表。其中,生成N元模型的过程主要为,获取训练数据,将训练数据中的每个句子输入训练好的隐马尔克夫模型(HMM),得到每个句子对应的分词结果;然后采用各个句子对应的分词结果,生成N元模型。上述方案中,HMM模型需要采用大量的样本数据进行训练,且样本数据还需要手动进行分词,从而提高了N元模型的生成成本,且对样本数据进行手动分词,容易存在错误,降低了训练得到的HMM模型的准确度,进而降低了N元模型的准确度。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种输入法模型生成方法,用于解决现有技术中输入法应用中N元模型准确度差,生成成本高的问题。本专利技术的第二个目的在于提出一种输入法模型生成装置。本专利技术的第三个目的在于提出另一种输入法模型生成装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种输入法模型生成方法,包括:获取训练数据以及分词词库,所述分词词库中包括:大于预设数量阈值的词语;所述词语中包括:与输入法场景相关的词语;针对所述分词词库中的每个词语,查询训练数据中的各个句子,获取所述词语的词频以及所述词语对应的二元关系词;根据所述分词词库中的各个词语以及对应的二元关系词,生成前缀树;所述前缀树中的节点为词语或者二元关系词;针对所述训练数据中的每个句子,采用所述前缀树对所述句子进行切分,得到至少一个切分结果,并根据所述至少一个切分结果,生成所述句子对应的有向无环图;根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径,根据所述最大概率路径,确定所述句子对应的分词结果;根据所述训练数据中各个句子对应的分词结果,生成输入法应用中的N元模型。进一步的,所述针对所述分词词库中的每个词语,查询训练数据中的各个句子,获取所述词语的词频以及所述词语对应的二元关系词,包括:针对所述分词词库中的每个词语,查询训练数据中的各个句子,获取所述词语的词频;获取各个句子中所述词语之后的词语,将各个句子中所述词语之后的词语,确定为所述词语对应的二元关系词。进一步的,所述根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径,根据所述最大概率路径,确定所述句子对应的分词结果,包括:根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径;判断所述最大概率路径对应的概率是否大于等于预设概率阈值;若所述最大概率路径对应的概率大于等于预设概率阈值,则根据所述最大概率路径对应的切分结果遍历用户词典,判断所述切分结果中是否存在与用户词典中词语匹配的连续多个词语;若所述切分结果中存在所述连续多个词语,则将所述连续多个词语进行整合,得到所述句子对应的分词结果。进一步的,所述根据所述最大概率路径对应的切分结果遍历用户词典,判断所述切分结果中是否存在与用户词典中词语匹配的连续多个词语之前,还包括:获取最大概率路径对应的切分结果中单字的占比;判断所述单字的占比是否大于等于预设占比阈值;若所述单字的占比大于等于预设占比阈值,则判断所述切分结果中是否存在与用户词典中词语匹配的连续多个词语;若所述单字的占比小于预设占比阈值,则将所述最大概率路径对应的切分结果确定为分词结果。进一步的,所述根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径,根据所述最大概率路径,确定所述句子对应的分词结果,还包括:若所述最大概率路径对应的概率小于预设概率阈值,则将所述句子输入训练好的语言统计模型,获取所述句子对应的分词结果。进一步的,所述根据所述训练数据中各个句子对应的分词结果,生成输入法应用中的N元模型,包括:针对各个句子对应的分词结果中的每个分词词语,获取所述分词词语在所述分词结果中的词频;根据所述分词词语查询各个句子对应的分词结果,获取所述分词词语对应的二元关系词;获取所述分词词语以及对应的二元关系词在所述分词结果中同时出现的频率;在所述频率大于预设频率阈值时,将所述分词词语以及对应的二元关系词整合为分词词语;根据各个分词词语的词频,以及对应的二元关系词的词频,生成N元模型。进一步的,所述根据所述训练数据中各个句子对应的分词结果,生成输入法应用中的N元模型之后,还包括:获取用户输入的拼音;将所述拼音输入N元模型,获取所述拼音对应的各个词语,以及各个词语的出现概率;根据各个词语的出现概率,生成候选词列表,以便用户从候选词列表中选择词语并进行输入。本专利技术实施例的输入法模型生成方法,通过获取训练数据以及分词词库,分词词库中包括:大于预设数量阈值的词语;词语中包括:与输入法场景相关的词语;针对分词词库中的每个词语,查询训练数据中的各个句子,获取词语的词频以及词语对应的二元关系词;根据分词词库中的各个词语以及对应的二元关系词,生成前缀树;前缀树中的节点为词语或者二元关系词;针对训练数据中的每个句子,采用前缀树对句子进行切分,得到至少一个切分结果,并根据至少一个切分结果,生成句子对应的有向无环图;根据有向无环图中各个词语的词频,确定有向无环图中的最大概率路径,根据最大概率路径,确定句子对应的分词结果;根据训练数据中各个句子对应的分词结果,生成输入法应用中的N元模型,从而不需要采用HMM模型,不需要手动标注HMM模型的样本数据,降低了N元模型的生成成本,且提高了N元模型的准确度。为达上述目的,本专利技术第二方面实施例提出了一种输入法模型生成装置,包括:获取模块,用于获取训练数据以及分词词库,所述分词词库中包括:大于预设数量阈值的词语;所述词语中包括:与输入法场景相关的词语;查询模块,用于针对所述分词词库中的每个词语,查询训练数据中的各个句子,获取所述词语的词频以及所述词语对应的二元关系词;生成模块,用于根据所述分词词库中的各个词语以及对应的二元关系词,生成前缀树;所述前缀树中的节点为词语或者二元关系词;切分模块,用于针对所述训练数据中的每个句子,采用所述前缀树对所述句子进行切分,得到至少一个切分结果,并根据所述至少一个切分结果,生成所述句子对应的有向无环图;确定模块,用于根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径,根据所述最大概率路径,确定所述句子对应的分词结果;所述生成模块,还用于根据所述训练数据中各个句子对应的分词结果,生成输入法应用中的N元模型。进一步的,所述查询模块具体用于,针对所述分词词库中的每个词语,查询训练数据中的各个句子,获取所述词语的词频;获取各个句子中所述词语之后的词语,将各个句子中所述词语之后的词语,确定为所述词语对应的二元关系词。进一步的,所述确定模块具体用于,根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径;判断所述最大概率路径对应的概率是否大于等于预设概率阈值;若所述最大概率路径对应的概率大于等于预设概率阈值,则根据所述最大概率路径对应的切分结果遍历用户词典,判断所述切分结果中是否存在与用户词典中词本文档来自技高网...

【技术保护点】
1.一种输入法模型生成方法,其特征在于,包括:获取训练数据以及分词词库,所述分词词库中包括:大于预设数量阈值的词语;所述词语中包括:与输入法场景相关的词语;针对所述分词词库中的每个词语,查询训练数据中的各个句子,获取所述词语的词频以及所述词语对应的二元关系词;根据所述分词词库中的各个词语以及对应的二元关系词,生成前缀树;所述前缀树中的节点为词语或者二元关系词;针对所述训练数据中的每个句子,采用所述前缀树对所述句子进行切分,得到至少一个切分结果,并根据所述至少一个切分结果,生成所述句子对应的有向无环图;根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径,根据所述最大概率路径,确定所述句子对应的分词结果;根据所述训练数据中各个句子对应的分词结果,生成输入法应用中的N元模型。

【技术特征摘要】
1.一种输入法模型生成方法,其特征在于,包括:获取训练数据以及分词词库,所述分词词库中包括:大于预设数量阈值的词语;所述词语中包括:与输入法场景相关的词语;针对所述分词词库中的每个词语,查询训练数据中的各个句子,获取所述词语的词频以及所述词语对应的二元关系词;根据所述分词词库中的各个词语以及对应的二元关系词,生成前缀树;所述前缀树中的节点为词语或者二元关系词;针对所述训练数据中的每个句子,采用所述前缀树对所述句子进行切分,得到至少一个切分结果,并根据所述至少一个切分结果,生成所述句子对应的有向无环图;根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径,根据所述最大概率路径,确定所述句子对应的分词结果;根据所述训练数据中各个句子对应的分词结果,生成输入法应用中的N元模型。2.根据权利要求1所述的方法,其特征在于,所述针对所述分词词库中的每个词语,查询训练数据中的各个句子,获取所述词语的词频以及所述词语对应的二元关系词,包括:针对所述分词词库中的每个词语,查询训练数据中的各个句子,获取所述词语的词频;获取各个句子中所述词语之后的词语,将各个句子中所述词语之后的词语,确定为所述词语对应的二元关系词。3.根据权利要求1所述的方法,其特征在于,所述根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径,根据所述最大概率路径,确定所述句子对应的分词结果,包括:根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径;判断所述最大概率路径对应的概率是否大于等于预设概率阈值;若所述最大概率路径对应的概率大于等于预设概率阈值,则根据所述最大概率路径对应的切分结果遍历用户词典,判断所述切分结果中是否存在与用户词典中词语匹配的连续多个词语;若所述切分结果中存在所述连续多个词语,则将所述连续多个词语进行整合,得到所述句子对应的分词结果。4.根据权利要求3所述的方法,其特征在于,所述根据所述最大概率路径对应的切分结果遍历用户词典,判断所述切分结果中是否存在与用户词典中词语匹配的连续多个词语之前,还包括:获取最大概率路径对应的切分结果中单字的占比;判断所述单字的占比是否大于等于预设占比阈值;若所述单字的占比大于等于预设占比阈值,则判断所述切分结果中是否存在与用户词典中词语匹配的连续多个词语;若所述单字的占比小于预设占比阈值,则将所述最大概率路径对应的切分结果确定为分词结果。5.根据权利要求3所述的方法,其特征在于,所述根据所述有向无环图中各个词语的词频,确定所述有向无环图中的最大概率路径,根据所述最大概率路径,确定所述句子对应的分词结果,还包括:若所述最大概率路径对应的概率小于预设概率阈值,则将所述句子输入训练好的语言统计模型,获取所述句...

【专利技术属性】
技术研发人员:许晏铭
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1