获得输入库的方法、装置及电子设备制造方法及图纸

技术编号:15119970 阅读:109 留言:0更新日期:2017-04-09 18:34
本发明专利技术实施例提供了一种获得输入库的方法、装置及电子设备。该获得输入库的方法包括:获得专业词汇的关联词;计算所述关联词与语料库中语料的相似度;在所述语料库中抽取相似度大于或等于第一相似度阈值的语料,作为近似语料;根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型。该方法在用户输入专业词汇时可以基于该专业词库实现一次上屏,在输入专业长句时可以依据该语言模型进行长句输入,避免了分段上屏,节省了用户输入时间,提高了字符输入效率,也极大地改善了用户在输入专业词汇尤其是在撰写专业论文时的输入体验。

【技术实现步骤摘要】

本专利技术涉及通信
,特别是涉及一种获得输入库的方法、装置及电子设备
技术介绍
拼音输入法是目前最常用的汉字输入方法。随着计算机技术以及自然语言处理技术的日益发展,拼音输入也由单字输入发展到目前的词句输入,平均输入时间在不断减少,输入效率不断提高。在解决通用输入方面,输入法已经基本能满足绝大多数人的输入需求,但在遇到需要输入大量专业词汇的情况时,例如撰写专业论文时,由于专业词汇属于低频词,词库中难以收录,因此很难为用户提供其需要的候选,此时用户不得不分段上屏,并且在含有专业词汇的长句输入中也需要用户手动分段上屏来获得想要的输入结果。其中,分段上屏是指用户在输入长度大于1的词时,因首屏没有想要的结果,而不得不分开按一个个字(词)上屏。这种分段上屏的方式极大的影响了用户的输入效率,用户输入体验较差。
技术实现思路
本专利技术实施例所要解决的技术问题是提供一种获得输入库的方法,能够在用户输入专业词汇和/或包含专业词汇的长句时提高输入效率,改善用户的输入体验。相应的,本专利技术实施例还提供了一种获得输入库的装置及电子设备,用以保证上述方法的实现及应用。为了解决上述问题,本专利技术实施例公开了一种获得输入库的方法,包括:获得专业词汇的关联词;计算所述关联词与语料库中语料的相似度;在所述语料库中抽取相似度大于或等于第一相似度阈值的语料,作为近似语料;根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型。进一步,所述获得专业词汇的关联词,包括:接收关联信息,所述关联信息中包含所述专业词汇的关联词。进一步,所述计算所述关联词与语料库中语料的相似度,包括:对所述关联信息进行分词向量化,获得第一向量;计算所述第一向量与第二向量的相似度,其中,所述第二向量为对所述语料库中的语料进行分词向量化后获得的向量。进一步,在所述根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型之前,还包括:判断所述近似语料是否满足词库训练条件;若是,再根据所述近似语料训练获得所述专业词汇对应的专业词库和/或语言模型;若否,则根据所述近似语料在所述语料库中重复抽取近似语料,直至所有抽取出的近似语料满足所述词库训练条件。进一步,所述根据所述近似语料在所述语料库中重复抽取近似语料,包括:计算所述近似语料与所述语料库中语料的相似度;在所述语料库中抽取相似度大于或等于第二相似度阈值的语料。本专利技术实施例还公开了一种获得输入库的装置,包括:关联词获取单元,用于获得专业词汇的关联词;相似度计算单元,用于计算所述关联词与语料库中语料的相似度;近似词抽取单元,用于在所述语料库中抽取相似度大于或等于第一相似度阈值的语料,作为近似语料;训练单元,用于根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型。进一步,所述关联词获取单元,具体用于接收关联信息,所述关联信息中包含所述专业词汇的关联词。进一步,所述相似度计算单元包括:向量获得子单元,用于对所述关联信息进行分词向量化,获得第一向量;第一计算子单元,用于计算所述第一向量与第二向量的相似度,其中,所述第二向量为对所述语料库中的语料进行分词向量化后获得的向量。进一步,所述装置还包括:判断单元,用于在所述训练单元根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型之前,判断所述近似语料是否满足词库训练条件;重复抽取单元,用于在所述判断单元判断所述近似语料不满足词库训练条件时,根据所述近似语料在所述语料库中重复抽取近似语料,直至所有抽取出的近似语料满足所述词库训练条件;所述训练单元,还用于在所述判断单元判断所述近似语料满足词库训练条件时,根据所述近似语料训练获得所述专业词汇对应的专业词库和/或语言模型。进一步,所述重复抽取单元包括:第二计算子单元,用于计算所述近似语料与所述语料库中语料的相似度;抽取子单元,用于在所述语料库中抽取相似度大于或等于第二相似度阈值的语料。本专利技术实施例还公开了一种电子设备,包括存储器和处理器,所述存储器用于存储计算机指令或代码,所述处理器和所述存储器耦合,用于执行所述存储器中的计算机指令或代码,实现以下方法:获得专业词汇的关联词;计算所述关联词与语料库中语料的相似度;在所述语料库中抽取相似度大于或等于第一相似度阈值的语料,作为近似语料;根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型。与现有技术相比,本专利技术实施例包括以下优点:本专利技术实施例通过根据专业词汇的关联词在语料库中抽取相似语料,获得了专业词汇对应的专业词库和/或语言模型,从而在用户输入专业词汇时可以基于该专业词库实现一次上屏,在输入专业长句时可以依据该语言模型进行长句输入,避免了分段上屏,节省了用户输入时间,提高了字符输入效率,也极大地改善了用户在输入专业词汇尤其是在撰写专业论文时的输入体验。附图说明图1是本专利技术的一种获得输入库的方法实施例的步骤流程图;图2是本专利技术实施例中计算关联词与语料库中语料的相似度的方法流程图;图3是本专利技术的另一种获得输入库的方法实施例的步骤流程图;图4是本专利技术实施例中根据近似语料在语料库中重复抽取近似语料的方法流程图;图5是本专利技术一种获得输入库的装置实施例的结构框图;图6是本专利技术实施例中相似度计算单元的结构框图;图7是本专利技术另一种获得输入库的装置实施例的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。参照图1,示出了本专利技术的一种获得输入库的方法实施例的步骤流程图,具体可以包括如下步骤:步骤101,获得专业词汇的关联词。本专利技术实施例中输入库可以包括用于输入专业词汇的专业词库,也可以包括用于输入包含专业词汇的长句的语言模型,或者两者均包括。该获得输入库的装置具体可以是服务器或其它电子设备。本步骤中,该装置获得专业词汇的关联词的方式可以是直接接收用户输入的专业词汇的关联词,也可以是装置根据用户输入的专业词汇在网络或特定词库中搜索查找获得专业词汇的关联词,还可以是直接接收用户输入的关联信息,该关联信息中包含该专业词汇的关联词,例如,用户在撰写专业论文时,将整理的该专业论文的参考文献的题目作为上述关联信息,直接提供给该装置。步骤10本文档来自技高网...

【技术保护点】
一种获得输入库的方法,其特征在于,包括:获得专业词汇的关联词;计算所述关联词与语料库中语料的相似度;在所述语料库中抽取相似度大于或等于第一相似度阈值的语料,作为近似语料;根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型。

【技术特征摘要】
1.一种获得输入库的方法,其特征在于,包括:
获得专业词汇的关联词;
计算所述关联词与语料库中语料的相似度;
在所述语料库中抽取相似度大于或等于第一相似度阈值的语料,作为近
似语料;
根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型。
2.根据权利要求1所述的方法,其特征在于,所述获得专业词汇的关
联词,包括但不限于:
接收关联信息,所述关联信息中包含所述专业词汇的关联词。
3.根据权利要求2所述的方法,其特征在于,所述计算所述关联词与
语料库中语料的相似度,包括:
对所述关联信息进行分词向量化,获得第一向量;
计算所述第一向量与第二向量的相似度,其中,所述第二向量为对所述
语料库中的语料进行分词向量化后获得的向量。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,在所述
根据近似语料训练获得所述专业词汇对应的专业词库和/或语言模型之前,还
包括:
判断所述近似语料是否满足词库训练条件;
若是,再根据所述近似语料训练获得所述专业词汇对应的专业词库和/
或语言模型;若否,则根据所述近似语料在所述语料库中重复抽取近似语料,
直至所有抽取出的近似语料满足所述词库训练条件。
5.根据权利要求4所述的方法,其特征在于,所述根据所述近似语料
在所述语料库中重复抽取近似语料,包括:
计算所述近似语料与所述语料库中语料的相似度;
在所述语料库中抽取相似度大于或等于第二相似度阈值的语料。
6.一种获得输入库的装置,其特征在于,包括:
关联词获取单元,用于获得专业词汇的关联词;
相似度计算单元,用于计算所述关联词与语料库中语料的相似度;
近似词抽取单元,用于在所述语料库中抽取相似度大于或等于第一相似
度阈值的语料,作为近似语料;
训练单元,用于根据近似语料训练获得所述专业词汇对应的专业词库和
/或语言模...

【专利技术属性】
技术研发人员:李亚丽闫冰张扬
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1