一种信息处理方法及装置制造方法及图纸

技术编号:15763114 阅读:367 留言:0更新日期:2017-07-06 00:03
本发明专利技术公开了一种信息处理方法,所述方法包括:确定用户的输入请求,所述输入请求携带有第一检索词;判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元;如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;对所述第一检索集合中的每一检索词进行检索,得到检索结果;对所述检索结果进行处理。本发明专利技术同时还公开了一种信息处理装置。

Information processing method and device

The invention discloses an information processing method, the method includes determining a user input request, the input request carrying the first search term; judging whether the first word in the first font retrieval unit second font unit is in the first vocabulary preset; if the unit in which there are second fonts the first vocabulary in the first font unit, according to the second font unit and the first term to determine the first retrieval set, the first retrieval set includes at least a first term and by the second unit and third unit font font consisting of search words, second font unit wherein the font unit comprises third the first word in the retrieval of the first font unit outside the font unit and other font unit; the first retrieval set in each Retrieval words are retrieved, retrieval results are obtained, and the retrieval results are processed. The invention also discloses an information processing device.

【技术实现步骤摘要】
一种信息处理方法及装置
本专利技术涉及信息处理技术,尤其涉及一种信息处理方法及装置。
技术介绍
个人融合通信黄页功能,是将传统黄页搬到融合通信手机上或融合通信应用(APP,Application)中,利用手机为载体,发行、传播、应用的电话号码簿功能,使用户通过一个入口,既可以检索手机联系人信息,又可以检索网上黄页的信息。检索的功能类似于百度、谷歌的搜索引擎,只是这种号码垂直搜索引擎是以手机本身为入口,随时随地拿起手机,便可轻松查询企业的基本信息或服务介绍。如何理解用户输入的真实需求,是搜索引擎要解决的核心问题之一。但是移动互联网时代,用户通过手机屏幕进行文字输入时,会受到屏幕尺寸、触摸灵敏度、用户输入的熟练程度等影响,而导致输入错误的信息。尤其对于采用手写输入的用户,更加容易输入字形相近但意义截然不同的信息,比如“已”和“己”、“鸟”和“乌”、“龙”和“尤”等。如果搜索引擎不能识别这种非主观意识造成的输入错误,那么搜索结果会千差万别,让用户无法更快更准的找到相应的信息。现有搜索引擎的常用做法有两种:1)提示用户“您是不是要搜索XX”;2)通过建议提示用户可能的输入。但这样都会增加用户的操作步骤和学习成本。如果能从根源上理解用户的需求,直接帮用户避免这样的错误,会提升用户使用的体验。因此,如何有效的建立纠错词库是亟需解决的关键问题。业界还没有完全公开免费的电子版纠错词库直接应用于搜索引擎。目前业界有如下几种解决方案:1、首先分别计算两个汉字的笔划总数,如果两个汉字的笔划总数相差大于某一数量,则认为两个汉字不是形近字;如果笔划总数相差小于或等于上述某一数量,则取笔划总数较少的汉字的每一个笔段,计算它与另一汉字中同种类型笔划的最小距离,把计算得到的最小距离累加,如果累加距离除以笔划总数较少汉字的笔划数大于某一值,则认为不是形近字,否则为形近字。2、中文变异文本匹配识别方法,即构建由通配符和标识符组成的基于部首字符编码表及模式字符串编码转换编码表。3、通过输入汉字的笔划总数及笔顺来判断相似度高低,即笔划数相同,笔顺相同率达到90%为高,达到70%以上为中,60%以上为低;笔划数相差1和笔划数相差2的依次类推。4、根据五笔编码规则,比较两个文字的编码字符串之间的编码距离,小于预设的距离阈值时,判断两个字为形近字。5、通过用户的主动输入和纠错行为,统计出可能的形近字。现有技术方案存在如下问题:1)前四种技术方案本质上是相似的,都是需要对中文汉字有深入的理解,如汉字有多少种笔划、中文正确的笔划顺序是什么,五笔编码规则是什么。对于刚起步或者缺乏搜索引擎经验的产品研发团队,要想全面完整的搜集到上述信息,并转化成计算机可以理解的规则,是解决形近字判断过程中引出的另一个难题。2)第五种技术方案需要通过大量样本的积累,且用户在不同产品中的行为存在较大差异,样本的差异可能影响到词库的结果。并且用户的输入有限,不能覆盖全部常用中文汉字。
技术实现思路
有鉴于此,本专利技术实施例为解决现有技术中存在的至少一个问题而提供一种信息处理方法及装置,能够提升纠错词库的准确率和覆盖率。本专利技术实施例的技术方案是这样实现的:第一方面,本专利技术实施例提供一种信息处理方法,所述方法包括:确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;对所述第一检索集合中的每一检索词进行检索,得到检索结果;对所述检索结果进行处理。第二方面,本专利技术实施例提供一种信息处理装置,所述装置包括第一确定单元、判断单元、第二确定单元、检索单元和处理单元,其中:所述第一确定单元,用于确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;所述判断单元,用于判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;所述第二确定单元,用于如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;所述检索单元,用于对所述第一检索集合中的每一检索词进行检索,得到检索结果;所述处理单元,用于对所述检索结果进行处理。本专利技术实施例提供一种信息处理方法及装置,其中,确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;对所述第一检索集合中的每一检索词进行检索,得到检索结果;对所述检索结果进行处理;如此,能够提升纠错词库的准确率和覆盖率。附图说明图1为本专利技术实施例一信息处理方法的实现流程示意图;图2为本专利技术实施例二形成第一词汇库的实现流程示意图;图3-1至图3-7为本专利技术实施例图像库中的图像示意图;图3-8为本专利技术实施例中信息处理装置的组成结构示意图;图3-9为本专利技术实施例中信息处理装置的使用场景示意图;图4为本专利技术实施例四信息处理装置的组成结构示意图。具体实施方式下面结合附图和具体实施例对本专利技术的技术方案进一步详细阐述。实施例一为了解决
技术介绍
中存在的技术问题,本专利技术实施例提供一种信息处理方法,该信息处理方法应用于电子设备,该信息处理方法所实现的功能可以通过计算设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该计算设备至少包括处理器和存储介质。在具体实现的过程中,所述计算设备可以是任何具有数据处理能力的电子设备,例如,个人计算机等设备。图1为本专利技术实施例一信息处理方法的实现流程示意图,如图1所示,该信息处理方法包括:步骤S101,确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;这里,所述输入请求用于根据所述输入请求中的第一检索词得到检索结果,例如,如果用户在终端(如智能手机)的黄页界面输入“儿童医院”时,那么终端就将“儿童医院”作为第一检索词,然后将第一检索词携带于输入请求中,发送给计算设备。一般本文档来自技高网
...
一种信息处理方法及装置

【技术保护点】
一种信息处理方法,其特征在于,所述方法包括:确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;对所述第一检索集合中的每一检索词进行检索,得到检索结果;对所述检索结果进行处理。

【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;对所述第一检索集合中的每一检索词进行检索,得到检索结果;对所述检索结果进行处理。2.根据权利要求1所述的方法,其特征在于,所述对所述检索结果进行处理,包括:将满足条件的检索结果携带于数据响应中;将所述数据响应输出。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据第二词汇库生成图像库,所述图像库中的图像上显示的文字区域对应为所述第二字库中的文字;计算所述图像库中每一图像上文字区域的面积,并将所述图像上所述文字区域的面积与所述图像对应的文字建立关联信息;如果所述图像库中第一图像上的文字区域的面积Y1与第二图像上的文字区域的面积Y2不满足预设的第二关系表达式,则确定所述Y1与所述Y2的重合面积Y3;如果所述Y3、所述Y1和所述Y2满足预设的第三关系表达式,则确定所述第一图像对应的文字与所述第二图像对应的文字为形近字,并将所述第一图像对应的文字作为所述第二图像对应的文字的形近字加入所述第一词汇库,以及所述第二图像对应的文字作为所述第一图像对应的文字的形近字加入所述第一词汇库。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:如果所述图像库中第一图像上的文字区域的面积Y1与第二图像上的文字区域的面积Y2满足预设的第二关系表达式,则流程结束;如果所述Y3、所述Y1和所述Y2不满足预设的第三关系表达式,则流程结束。5.根据权利要求3或4所述的方法,其特征在于,所述计算所述图像库中每一图像上文字区域的面积,包括:如果所述图像上的文字区域对应有像素点,则Y计数加一;如果所述图像上的非文字区域对应有像素点,则N计数加一,其中,所述Y初始为0,所述N初始为0;如果Y与N之和与所述图像的所有图像点满足预设的第一关系表达式,则所述图像的文字区域的面积为Y;如果Y与N之和与所述图像的所有图像点不满足预设的第一关系表达式,则重复计算所述Y和所述N,直至所述Y和所述N满足所述第一关系表达式。6.根据权利要求3所述的方法,其特征在于,所述第二关系表达式为:|Y1-Y2|>(Y1+Y2)×L%/2,L为设定的阈值,所述L为整数。7.根据权利要求3所述的方法,其特征在于,所述第三...

【专利技术属性】
技术研发人员:陈虹
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1