The invention provides an adaptive input method based on a user's local text document, which is different from the traditional input method, and automatically senses the current knowledge field of the user based on the user local document. First of all, the system automatically set up a basic data set, different fields of knowledge to establish the corresponding data set, the system according to the user input text information perception to the corresponding field and automatically switch to the field of current data sets, by adjusting the field data and the basic data set the weights between relations, improve the field data set the proportion of automatic sensing and parameter adjustment between different areas of knowledge; with the increase of input information, the corresponding field data set will constantly update at the same time, extract the high frequency strings dynamic field data set based filling data set information. This input method is more intelligent in understanding the input information, reducing the number of choices, improving the accuracy of the first choice, and also significantly reducing the bit rate.
【技术实现步骤摘要】
一种基于篇章文档的自适应输入法
本专利技术是一种输入法,特别是一种基于篇章文档的自适应输入法。
技术介绍
随着计算机使用的广泛普及,中文输入问题已经变得日益重要,经过近几十年的研究,中文的输入已经包括了诸如最常见的键盘输入、语音输入、手写输入以及最近的移动平台触摸输入,多种多样的输入方式从一方面说明了中文输入技术的不断成熟,从另外一个方面来说,也说明了中文输入在当前这个信息时代的重要性。由于输入法其在当前信息社会独特的重要性,目前个人计算机平台的输入法拥有丰富的功能,其目标是最大化的改善用户输入的体验。但是,目前的输入法的准确率仍然没有达到人们所期望的程度,很多时候还是要选择很多次才能找到用户想要的,归其原因,主要是现行的输入法主要是建立在大数据基础之上,贴近的是大多数用户,但是针对每个用户实效性还是有待提高,每个用户在每个时间段会处于不同的用语环境,这样大数据就无法很有效的实时切换相应的知识领域以贴近用户的习惯,特别是在某些特定领域的工作者,比如古汉语,现行输入法的性能就更差了。基于此本专利技术提出一种输入法新的思路,直接从用户的篇章文档出发,系统自学习数据,建立每个用户自己的数据集信息。传统输入法都是在大数据上训练,不分领域,同时无法感知用户当前所在知识领域,这样会出现重码率很高,用户选择的次数会升高等问题,虽然传统输入法都有记忆功能(即用户刚选择的字串下次重新输入时会排在首要位置),但是这种方法是固定的和机械的,不是动态的,在不同领域、不同用语环境之间切换时容易出现混乱。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对当下使用各种输入法时 ...
【技术保护点】
一种基于篇章文档的自适应输入法,其特征在于,包括以下步骤:步骤一,建立基础数据集Base;步骤二,建立领域数据集Dset:步骤三,根据用户已经输入信息以及领域数据集和基础数据集之间的权重关系调整得到当前输入字的概率;步骤四,音字转换输出:切分用户输入的拼音串、结合步骤三当前输入字的概率,利用隐马尔科夫模型HMM,计算得出字串的概率,并按照字串概率值的大小排序输出;步骤五,领域数据集实时更新:输入法根据用户的输入得出可能的字串,再根据用户选定的字串添加到相应的领域数据集中实时更新信息;步骤六,基础数据集更新:提取领域数据集中出现频率大于设定阈值的字串添加到基础数据集中,不断更新基础数据集。
【技术特征摘要】
1.一种基于篇章文档的自适应输入法,其特征在于,包括以下步骤:步骤一,建立基础数据集Base;步骤二,建立领域数据集Dset:步骤三,根据用户已经输入信息以及领域数据集和基础数据集之间的权重关系调整得到当前输入字的概率;步骤四,音字转换输出:切分用户输入的拼音串、结合步骤三当前输入字的概率,利用隐马尔科夫模型HMM,计算得出字串的概率,并按照字串概率值的大小排序输出;步骤五,领域数据集实时更新:输入法根据用户的输入得出可能的字串,再根据用户选定的字串添加到相应的领域数据集中实时更新信息;步骤六,基础数据集更新:提取领域数据集中出现频率大于设定阈值的字串添加到基础数据集中,不断更新基础数据集。2.根据权利要求1所述的输入法,其特征在于:步骤一中根据本地的或者输入法自带的n篇文档D作为数据源建立基础数据集,D={d1,d2,…,dn},通过输入法自学习,对于每一篇文档di分别计算一元、二元、三元文法,分别得到:每个字对应出现概率的一元文法集合base1:base1={(w1,P(w1)),(w2,P(w2)),…,(wl,P(wl))},其中l为n篇文档所有不重复字的总个数,wl表示第l个字,P(wl)表示n篇文档中第l个字wl在一元文法集合base1上出现的概率;每两个相邻的字对应出现的概率的二元文法集合base2:base2={(w1,w2,P(w1,w2)),(w2,w3,P(w2,w3)),…,(wf,wf+1,P(wf,wf+1))},其中f为n篇文档所有不重复的相邻两个字的总个数,wf表示第f个字,wf+1表示第f+1个字,P(wf,wf+1)表示n篇文档中不重复的相邻第wf个字和第wf+1个字在二元文法集合base2上出现的概率;每三个相邻的字对应出现的概率的三元文法集合base3:base3={(w1,w2,w3,P(w1,w2,w3)),…,(wq-1,wq,wq+1,P(wq-1,wq,wq+1))},其中q为n篇文档所有不重复的相邻三个字的总个数,wq-1表示第q-1个字,wq表示第q个字,wq+1表示第q+1个字,P(wq-1,wq,wq+1)表示n篇文档中不重复的相邻第q-1个字、第q个字和第q+1个字在三元文法集合base3上出现的概率;将一元文法集合base1、二元文法集合base2、三元文法集合base3计算得到的相应概率值存入数据库,完成构建基础数据集Base。3.根据权利要求1所述的输入法,其特征在于:步骤二包括以下步骤:领域数据集的建立包括两种方式:一是输入法自带,输入法利用不同领域的文档信息作为该领域数据集的数据源,构建相应的领域数据集Dset:Dset={doM1,......doMθ},1≤θ,其中doMθ表示第θ个领域的数据集,每个领域获取100篇文档合并成该领域一个总的文档,计算每一个数据集doMθ中的N-gram概率值,生成doMθ的三个集合{sum1,sun2,sun3},其中sunj和basej内部结构相同,1≤j≤3,每一个领域doMθ都有一个总的领域数据集Sunθ={sun1,sun2,sun3},存入数据库作为领域数据集信息;二是输入法自学习,根据用户本地文档信息作为领域数据源,将用户文档采用聚类算法分出不同领域,对于用户本地的T个领域的文档,每个领域各有S篇,共H=S×T篇文档,每篇文档中的不重复字构建向量空间VQ={v1,v2,…,vz},1≤Q≤H,其中的z表示H篇文档中所有不重复字的个数,每个向量的值vk为TF-IDF的值,1≤k≤z,随机选取T个向量作为中心点,计算每个向量和所述T个中心点的余弦值δU,
【专利技术属性】
技术研发人员:戴新宇,杨理想,陈家骏,黄书剑,李斌,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。