一种搜索方法及装置制造方法及图纸

技术编号:16175756 阅读:44 留言:0更新日期:2017-09-09 02:59
本发明专利技术适用于信息处理技术领域,提供了一种搜索方法及装置,包括:获取待搜索题目的文本信息;对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;根据各个分词词语的字数,设置每个分词词语对应的字数权重;基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。通过上述方法能够提高题目搜索的准确率。

【技术实现步骤摘要】
一种搜索方法及装置
本专利技术属于信息处理
,尤其涉及一种搜索方法及装置。
技术介绍
随着互联网时代浪潮到来,教育行业也慢慢在开始被颠覆,在线教育产品也随着这个趋势井喷式的爆发出来,在这些产品之中最为突出的产品类型当属题库类和拍照答疑类,为了解决现在学生们作业多,作业中遇到难题等问题,智能终端类产品出现了许多题库类和拍照答疑类的产品解决学生作业难题,如小猿搜题、学霸君、作业帮等等,用户在这类产品上能够搜索到他们想要的题目及其答案解析。然而,当由于目前图像识别技术受限,使用传统方法的拍照答疑类产品拍出来的照片经过图像识别后,对于识别出来的生僻汉字文本,程序无法进行有效处理,而这部份生僻字文本的存在可能使得查找出来的题目与学生们拍照上传的题目不符,影响搜索匹配结果,导致题目搜索匹配的准确率不高。
技术实现思路
有鉴于此,本专利技术实施例提供了一种搜索方法及装置,以解决现有技术中对识别出来的生僻汉字文本无法进行有效处理,从而导致题目搜索匹配的准确率不高的问题。本专利技术实施例是这样实现的,一种搜索方法,所述搜索方法包括:获取待搜索题目的文本信息;对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;根据各个分词词语的字数,设置每个分词词语对应的字数权重;基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。本专利技术实施例的另一目的在于提供一种搜索装置,所述搜索装置包括:信息获取单元,用于获取待搜索题目的文本信息;分词处理单元,用于对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;字数权重设置单元,用于根据各个分词词语的字数,设置每个分词词语对应的字数权重;匹配推送单元,用于基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。本专利技术实施例与现有技术相比存在的有益效果是:本专利技术实施例通过获取待搜索题目的文本信息,对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语,根据各个分词词语的字数,设置每个分词词语对应的字数权重,基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,由于生僻字单字居多,较难与其他字组成多字词语,,因此,按分词词语的字数对应的第一预设权重设置每个分词词语的权重,降低了生僻字在匹配过程中的影响,从而可提高题目搜索的准确率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种搜索方法的实现流程图;图2是本专利技术实施例提供的另一种搜索方法的实现流程图;图3是本专利技术实施例提供的一种搜索装置的结构框图;图4为本专利技术实施例提供的一种智能终端的结构示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。实施例一:图1示出了本专利技术第一实施例提供的一种搜索方法的实现流程图,详述如下:步骤S101,获取待搜索题目的文本信息。其中,待搜索题目的文本信息可以是用户输入的文本信息,也可以是待搜索题目的图像经转化后生成的文本信息。可选地,为获取待搜索题目的文本信息,所述步骤S101具体包括:A1、获取待搜索题目的图像。A2、对所述待搜索题目的图像进行图像识别,生成文本信息。具体地,用户可通过智能终端的摄像头拍摄待搜索题目,获取待搜索题目的图像,并对该图像进行光学字符识别(OpticalCharacterRecognition,OCR)(本地OCR),以将图像上待搜索题目信息识别为文本信息。其中,OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。由于通过本地OCR识别抓取的数据,因此,能够提高数据的识别速度。用户通过拍摄并上传待搜索题目的图像即可进行搜索,无需用户手动输入待搜索题目,提高了搜索效率,同时提高了用户体验。经过图像识别生成文本信息时,可能会产生大量的乱码、错误字符,导致搜索该文本信息查找出来的题目与用户拍摄上传的待搜索题目不符,因此,可选地,所述步骤A2之后还包括:A3、若检测到所述文本中存在乱码或错误字符,则删除所述文本信息中的乱码或错误字符。其中,所述错误字符是指无法识别的字符。在本专利技术实施例中,对生成的文本信息进行预处理,将所述文本信息中的乱码以及错误删除,从而提高待搜索题目的文本信息的准确性。步骤S102,对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语。其中,可采用现有的分词技术对所述文本信息进行分词处理,例如,中文分词法。中文分词方法包括基于字符串匹配的分词方法、基于统计的分词方法。基于字符串的分词方法主要依据词典的信息,按照一定的策略将待切分的汉字串与词典中的词条逐一匹配,若在词典中找到该词条,则匹配成功,否则做其它相应的处理。基于统计的分词方法通过对语料中相邻共现的各个字的组合频度进行统计,计算它们的互现信息,互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,可判定该字组构成一个词。基于统计的分词方法的优点是不受待处理文本领域的限制,不需要专门的词典。进一步地,本专利技术实施例中,可使用IK分词器进行分词处理。可选地,基于最小粒度的文本数据对所述文本信息进行分词处理。具体地,分词粒度可选择粗粒度或细粒度,本专利技术实施例中基于最小粒度的文本数据对所述文本信息进行分词处理。步骤S103,根据各个分词词语的字数,设置每个分词词语对应的字数权重。具体地,本专利技术实施例中,根据经分词处理后的每个分词词语的字数来分别设置每个分词词语的权重,分词词语的字数与权重成正比例关系。可选地,当分词词语的字数小于或等于指定字数时,所述分词词语的字数与权重成正比例关系,即分词词语的字数越少,对应的权重越小,分词词语的字数越多,对应的权重越大。当分词词语的字数大于指定字数时,所述分词词语的权重对应固定权重。例如,当分词词语为1个字时,该分词词语的权重为0.1,当分词词语为2个字时,该分词词语的字数为0.2,当分词词语为3个字时,该分词词语的权重为0.3,当分词词语的字数大于3时,该分词词语的权重为0.5。在本专利技术实施例中,由于生僻字很难与其他字组成词语,经过分词处理后,字数少的分词词语存在生僻字的可能更大,因此,根据分词词语的字数设置该分词词语的权重,从而降低生僻字在搜索匹配过程中对搜索结果的影响。可选地,为提高搜索效率,所述步骤S103包括:B1、将字数少于或等于预设字数的分词词语删除。具体地,生僻字为单字的可能性很大,通过直接将字数少于或等于1的分词词语删除,降低生僻字在搜索匹配过程中对搜索结果的影响,并提高搜索匹配的效率。步骤S1本文档来自技高网...
一种搜索方法及装置

【技术保护点】
一种搜索方法,其特征在于,所述搜索包括:获取待搜索题目的文本信息;对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;根据各个分词词语的字数,设置每个分词词语对应的字数权重;基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。

【技术特征摘要】
1.一种搜索方法,其特征在于,所述搜索包括:获取待搜索题目的文本信息;对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;根据各个分词词语的字数,设置每个分词词语对应的字数权重;基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。2.如权利要求1所述的搜索方法,其特征在于,所述获取待搜索题目的文本信息,包括:获取待搜索题目的图像;对所述待搜索题目的图像进行图像识别,生成文本信息。3.如权利要求1所述的搜索方法,其特征在于,所述根据各个分词词语的字数,设置每个分词词语对应的字数权重,包括:将字数少于或等于预设字数的分词词语删除。4.如权利要求1所述的搜索方法,其特征在于,在所述根据各个分词词语的字数,设置每个分词词语对应的字数权重之后,还包括:基于待搜索题目的文本信息,获取待搜索题目所属的学科;根据所述学科设置预设字词或符号对应的学科权重;此时,所述基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,包括:基于所述分词词语的字数权重和学科权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。5.如权利要求1至4任一项所述的搜索方法,其特征在于,所述基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,包括:基于所述分词词语的字数权重,计算所述分词词语与题库中的题目匹配的相似度;将匹配结果按所述相似度从高到低进行排序;基于排序...

【专利技术属性】
技术研发人员:周忠杰
申请(专利权)人:广东艾檬电子科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1