当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于篇章文档的自适应输入法制造技术

技术编号:15400772 阅读:46 留言:0更新日期:2017-05-24 10:34
本发明专利技术提出了一种基于用户本地篇章文档的自适应输入法,与传统的输入法不同,本发明专利技术基于用户本地文档,自动感知用户当前的知识领域。首先,系统自动建立一个基础数据集,不同的知识领域建立相应的领域数据集,系统会根据用户已输入文字信息感知到相应的领域并自动切换到当前的领域数据集,通过调整领域数据集和基础数据集之间的权值关系,提高领域数据集的比重,实现不同知识领域之间的自动感知和参数调整;随着输入信息的增加,相应的领域数据集也会不断的更新,同时提取领域数据集中的高频字串动态填充基础数据集信息。本输入法更加智能的理解用户要输入的信息,减少选择次数,提高首次选择的准确率,同时也显著降低了重码率。

An adaptive input method based on text document

The invention provides an adaptive input method based on a user's local text document, which is different from the traditional input method, and automatically senses the current knowledge field of the user based on the user local document. First of all, the system automatically set up a basic data set, different fields of knowledge to establish the corresponding data set, the system according to the user input text information perception to the corresponding field and automatically switch to the field of current data sets, by adjusting the field data and the basic data set the weights between relations, improve the field data set the proportion of automatic sensing and parameter adjustment between different areas of knowledge; with the increase of input information, the corresponding field data set will constantly update at the same time, extract the high frequency strings dynamic field data set based filling data set information. This input method is more intelligent in understanding the input information, reducing the number of choices, improving the accuracy of the first choice, and also significantly reducing the bit rate.

【技术实现步骤摘要】
一种基于篇章文档的自适应输入法
本专利技术是一种输入法,特别是一种基于篇章文档的自适应输入法。
技术介绍
随着计算机使用的广泛普及,中文输入问题已经变得日益重要,经过近几十年的研究,中文的输入已经包括了诸如最常见的键盘输入、语音输入、手写输入以及最近的移动平台触摸输入,多种多样的输入方式从一方面说明了中文输入技术的不断成熟,从另外一个方面来说,也说明了中文输入在当前这个信息时代的重要性。由于输入法其在当前信息社会独特的重要性,目前个人计算机平台的输入法拥有丰富的功能,其目标是最大化的改善用户输入的体验。但是,目前的输入法的准确率仍然没有达到人们所期望的程度,很多时候还是要选择很多次才能找到用户想要的,归其原因,主要是现行的输入法主要是建立在大数据基础之上,贴近的是大多数用户,但是针对每个用户实效性还是有待提高,每个用户在每个时间段会处于不同的用语环境,这样大数据就无法很有效的实时切换相应的知识领域以贴近用户的习惯,特别是在某些特定领域的工作者,比如古汉语,现行输入法的性能就更差了。基于此本专利技术提出一种输入法新的思路,直接从用户的篇章文档出发,系统自学习数据,建立每个用户自己的数据集信息。传统输入法都是在大数据上训练,不分领域,同时无法感知用户当前所在知识领域,这样会出现重码率很高,用户选择的次数会升高等问题,虽然传统输入法都有记忆功能(即用户刚选择的字串下次重新输入时会排在首要位置),但是这种方法是固定的和机械的,不是动态的,在不同领域、不同用语环境之间切换时容易出现混乱。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对当下使用各种输入法时,选择的次数太多,尤其是对于一些特定领域的知识,以及在不同文档、不同领域等不同用语环境之间切换,现存主流输入法无法做到自动感知、动态调整到当前知识领域中,用户要经过多次选择才能命中想要输入的字串的问题,提供一种基于篇章文档的自适应输入法。为了解决上述的技术问题,本专利技术公开了一种构建输入法的方法,该方法是基于每个用户本地文档、篇章信息,通过利用这些信息建立一个基础数据集;同时,系统建立不同领域的领域数据集,通过用户当前的输入自动感知输入信息的领域类别,同时将数据集切换到相应的领域数据集上,调整基础数据集和领域数据集之间的参数,调高领域数据集的权值比重,使得输入法智能的理解用户的输入需求,并随着输入信息的增多实时的更新领域数据集,随着领域数据集的更新不断添加基础数据集的信息,随着用户的使用时间不断增加,用户自己的数据集的不断增大,系统会越来越贴近每个用户特定的输入习惯。所述输入法包括的步骤如下:步骤一中,建立基础数据集的两种方法,根据本地文档建立基础数据集,系统自动获取用户本地n篇文档信息D={d1,d2,...,dn}作为数据源,通过输入法的统计模型(如语言模型N-gram)自学习;具体过程为:对于每一篇文档di(1≤i≤n)(di为n篇文档中的一篇),分别计算一元、二元、三元文法,将一篇文档表示成di={w1,w2...,wm},其中m表示一篇文档中不重复字总的个数;一元文法计算过程:计算每篇文档中的每个字出现的次数,给上述n篇文档都建立一个集合ci={(w1,count1),(w2,count2),...,(wm,countm)}(1≤i≤n),其中每个二元组(wk,countk)表示在任意一篇文档di中字wk出现了countk次,其中k的值对于某个集合ci范围(1≤k≤m);然后将每篇文档统计的集合{ci,c2...,cn}合并为一个总的集合C:C={(w1,ACount1),(w2,ACount2),...,(wl,ACountl)}其中l为n篇文档所有不重复字的总个数,通过概率公式计算得到每个字出现的概率:其中ACountk对应字wk在n篇文档中出现的次数,|Count|表示n篇文档中所有字出现的总个数(包括重复出现的次数),P(wk)表示n篇文档中任意一个字wk在一元文法集合base1上出现的概率,这个概率值是步骤四中字音发射概率和初始概率的基础,这样每个字对应一个概率构建基础数据集中的一元文法集合base1={(w1,P(w1)),(w2,P(w2)),...,(wl,P(wl))}二元文法计算过程:在已知字wk的情况下出现字wk+1的概率,概率公式为:其中P(wk)在统计一元文法时已经计算得到,对于P(wk,wk+1),先统计n篇文档D={d1,d2,...,dm}中每个文档di中每句话相邻两个字(wk,wk+1)同时出现的次数count(k,k+1),建立集合:c‘i={(w1,w2,count(1,2)),(w2,w3,count(2,3)),...,(we,we+1,count(e,e+1))}(1≤e≤m)其中e表示文档di中每句话所有相邻的两个字同时出现的次数,count(e,e+1)表示同时出现(we,we+1)的次数;然后将每篇文档统计的集合{c‘1,c‘2,...,c‘n}合并为一个总的集合:C′={(w1,w2,ACount(1,2)),(w2,w3,ACount(2,3)),...,(wf,wf+1,ACount(f,f+1))}(1≤f≤l)其中f表示n篇文档中两个相邻字出现的次数(不包括重复的情况),则通过概率公式:其中count(k,k+1)在集合C′中已经计算得到,|Count′|=ACount(1,2)+ACount(2,3)+...+ACount(f,f+1),得到了P(wk,wk+1),通过公式可以得到P(wk+1|wk)在已知字wk的情况下出现字wk+1的概率,即二元文法的概率,这样每两个相邻的字对应出现的概率构建基础数据中的二元文法集合base2={(w1,w2,P(w1,w2)),(w2,w3,P(w2,w3)),...,(wf,wf+1,P(wf,wf+1))}三元文法计算过程:已知出现前面出现两个字的情况下,第三个字的出现的概率,概率公式:其中P(wk-1,wk)在统计二元文法时已经计算得到,对于P(wk-1,wk,wk+1),先统计n篇文档D={d1,d2,...,dn}中每个文档di中每句话相邻三个字(wk-1,wk,wk+1)同时出现的次数count(k-1,k,k+1),建立集合:c"i={(w1,w2,w3,count(1,2,3)),(w2,w3,w4,count(2,3,4)),...,(wp-1,wp,wp+1,count(p-1,p,p+1))}(1≤p≤m)其中的p表示文档di中每句话同时出现三个字的个数,count(p-1,p,p+1)表示在示同时出现(wk-1,wk,wk+1)的次数;然后将每篇文档统计的集合{c”1,c“2,...c“n}合并为一个总的集合:C”={(w1,w2,w3,ACount(1,2,3)),(w2,w3,w4,ACount(2,3,4)),...,(wq-1,wq,wq+1,ACount(q-1,q,q+1))}(1≤q<l)其中q表示n篇文档中三个相邻字出现的次数(不包括重复的情况),则通过概率公式:其中count(k-1,k,k+1)在集合C”中已经计算得到,|Count”|=ACount(1,2,3)+ACount(2,3,4)+...+A本文档来自技高网...
一种基于篇章文档的自适应输入法

【技术保护点】
一种基于篇章文档的自适应输入法,其特征在于,包括以下步骤:步骤一,建立基础数据集Base;步骤二,建立领域数据集Dset:步骤三,根据用户已经输入信息以及领域数据集和基础数据集之间的权重关系调整得到当前输入字的概率;步骤四,音字转换输出:切分用户输入的拼音串、结合步骤三当前输入字的概率,利用隐马尔科夫模型HMM,计算得出字串的概率,并按照字串概率值的大小排序输出;步骤五,领域数据集实时更新:输入法根据用户的输入得出可能的字串,再根据用户选定的字串添加到相应的领域数据集中实时更新信息;步骤六,基础数据集更新:提取领域数据集中出现频率大于设定阈值的字串添加到基础数据集中,不断更新基础数据集。

【技术特征摘要】
1.一种基于篇章文档的自适应输入法,其特征在于,包括以下步骤:步骤一,建立基础数据集Base;步骤二,建立领域数据集Dset:步骤三,根据用户已经输入信息以及领域数据集和基础数据集之间的权重关系调整得到当前输入字的概率;步骤四,音字转换输出:切分用户输入的拼音串、结合步骤三当前输入字的概率,利用隐马尔科夫模型HMM,计算得出字串的概率,并按照字串概率值的大小排序输出;步骤五,领域数据集实时更新:输入法根据用户的输入得出可能的字串,再根据用户选定的字串添加到相应的领域数据集中实时更新信息;步骤六,基础数据集更新:提取领域数据集中出现频率大于设定阈值的字串添加到基础数据集中,不断更新基础数据集。2.根据权利要求1所述的输入法,其特征在于:步骤一中根据本地的或者输入法自带的n篇文档D作为数据源建立基础数据集,D={d1,d2,…,dn},通过输入法自学习,对于每一篇文档di分别计算一元、二元、三元文法,分别得到:每个字对应出现概率的一元文法集合base1:base1={(w1,P(w1)),(w2,P(w2)),…,(wl,P(wl))},其中l为n篇文档所有不重复字的总个数,wl表示第l个字,P(wl)表示n篇文档中第l个字wl在一元文法集合base1上出现的概率;每两个相邻的字对应出现的概率的二元文法集合base2:base2={(w1,w2,P(w1,w2)),(w2,w3,P(w2,w3)),…,(wf,wf+1,P(wf,wf+1))},其中f为n篇文档所有不重复的相邻两个字的总个数,wf表示第f个字,wf+1表示第f+1个字,P(wf,wf+1)表示n篇文档中不重复的相邻第wf个字和第wf+1个字在二元文法集合base2上出现的概率;每三个相邻的字对应出现的概率的三元文法集合base3:base3={(w1,w2,w3,P(w1,w2,w3)),…,(wq-1,wq,wq+1,P(wq-1,wq,wq+1))},其中q为n篇文档所有不重复的相邻三个字的总个数,wq-1表示第q-1个字,wq表示第q个字,wq+1表示第q+1个字,P(wq-1,wq,wq+1)表示n篇文档中不重复的相邻第q-1个字、第q个字和第q+1个字在三元文法集合base3上出现的概率;将一元文法集合base1、二元文法集合base2、三元文法集合base3计算得到的相应概率值存入数据库,完成构建基础数据集Base。3.根据权利要求1所述的输入法,其特征在于:步骤二包括以下步骤:领域数据集的建立包括两种方式:一是输入法自带,输入法利用不同领域的文档信息作为该领域数据集的数据源,构建相应的领域数据集Dset:Dset={doM1,......doMθ},1≤θ,其中doMθ表示第θ个领域的数据集,每个领域获取100篇文档合并成该领域一个总的文档,计算每一个数据集doMθ中的N-gram概率值,生成doMθ的三个集合{sum1,sun2,sun3},其中sunj和basej内部结构相同,1≤j≤3,每一个领域doMθ都有一个总的领域数据集Sunθ={sun1,sun2,sun3},存入数据库作为领域数据集信息;二是输入法自学习,根据用户本地文档信息作为领域数据源,将用户文档采用聚类算法分出不同领域,对于用户本地的T个领域的文档,每个领域各有S篇,共H=S×T篇文档,每篇文档中的不重复字构建向量空间VQ={v1,v2,…,vz},1≤Q≤H,其中的z表示H篇文档中所有不重复字的个数,每个向量的值vk为TF-IDF的值,1≤k≤z,随机选取T个向量作为中心点,计算每个向量和所述T个中心点的余弦值δU,

【专利技术属性】
技术研发人员:戴新宇杨理想陈家骏黄书剑李斌
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1