一种基于用户语料获取内容的方法和装置制造方法及图纸

技术编号:21184761 阅读:31 留言:0更新日期:2019-05-22 15:22
本发明专利技术涉及内容搜索技术领域,提供一种通过用户语料获取内容的方法和装置,包括提取用户的语料的关键词;依据所述关键词,获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容;当查找到与所述关键词对应的内容时,抓取并输出与所述关键词对应的内容;当未查找到与所述关键词对应的内容时,则自动切换至所述地址列表中的另一未经查找的地址中继续查找,直至查找到与所述关键词对应的内容。实现快速获取用户的搜索意图,并始终可以获得搜索结果。

A Method and Device for Content Acquisition Based on User Corpus

The invention relates to the technical field of content search, providing a method and device for obtaining content through user corpus, including key words for extracting user corpus; obtaining an address list for providing content corresponding to the key words according to the key words, and selecting an address from the address list to find out whether there exists content corresponding to the key words; and when searching for the content corresponding to the key words, finding the content corresponding to the key words; When the content corresponding to the keyword is found, the content corresponding to the keyword is grabbed and output; when the content corresponding to the keyword is not found, it is automatically switched to another unknown address in the address list to continue searching until the content corresponding to the keyword is found. Achieve fast access to users'search intentions, and always get search results.

【技术实现步骤摘要】
一种基于用户语料获取内容的方法和装置
本专利技术涉及内容搜索
,尤指一种基于用户语料获取内容的方法和装置。
技术介绍
手机APP或者其他应用程序通过搜索第三方网站获取用户需要的内容是已知的,传统的应用程序通过要求用户输入需要查找的内容关键词,前往第三方搜索与关键词相关的内容反馈给用户。这一类应用程序往往需要用户自行进行提炼关键词,然后通过键盘或者虚拟键盘打字输入关键词,这种方式降低了用户从产生疑问到获取答案过程的效率。当用户完成输入后,应用程序使用内部已经存储好地址的第三方搜索对应的内容,当这些预先存储的第三方的地址有时发生变化,或者需要关键词对应的内容的地址发生变化时,搜索就会失败。如何应对这些情况,一方面增加用户搜索的效率,一方面使用户始终可以搜索到所需的内容,成为新的问题。
技术实现思路
本专利技术提供一种基于用户语料获取内容的方法和装置,通过识别用户语料快速获取用户的搜索意图,在使用预先存储的第三方内容进行搜索失败后,切换另一个地址进行新的搜索,使用户始终可以获得搜索结果。本专利技术提供的技术方案如下:本专利技术提供一种基于用户语料获取内容的方法和装置,包括:提取用户的语料的关键词;依据所述关键词,获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容;当查找到与所述关键词对应的内容时,抓取并输出与所述关键词对应的内容;当未查找到与所述关键词对应的内容时,则自动切换至所述地址列表中的另一未经查找的地址中继续查找,直至查找到与所述关键词对应的内容。具体地,用户的语料可以是用户使用键盘或者虚拟键盘输入的语料,也可以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取方式不影响本专利技术的实施。提取用户的语料的关键词,通过关键词理解用户的搜索意图,获取用户需要的内容的特征。与所述关键词对应的内容的地址列表是提供与关键对用的内容的网站、服务器、或者内部存储器的地址列表,具体的存储方式不影响本专利技术的实施。这些地址列表可以根据所有用户的搜索记录进行分类获得,也可以由应用程序的开发人员人工预先分类后存储在各类设备的存储器中。地址列表中,每一个地址都有关联的关键词,当进行查找的关键与某一个或多个地址关联时,某一个或多个地址就会被抓取,用来搜索关键词所对应的内容。与关键词对应的内容可以是与关键词对应的文字、图像、音频、视频内容,也可以是与关键词对应的操作,视提取的关键词具体含义对应发生变化。抓取并输出这些内容指的是当关键词对应的内容为文字、图像、音频、视频内容时,将他们从包含这些内容的地址里提取出来,使用图像显示器、音频、视频播放器等向进行搜索的用户输出这些内容,其输出的设备可以与进行搜索的设备为同一个,也可以是通过网络通信技术进行耦接的多个设备,具体的输出形式和输出设备不影响本专利技术实施。当在某一个地址中搜索后,并未查找到与关键词对应的内容,那么就在地址列表中选取另一个未经查找的地址中继续查找。一般情况下,存储到地址列表中,通过关键词查找获得的地址都是包含与关键词关联的内容的,但当这些地址发生变更、过期失效时,这个搜索就会失败。当然,搜索失败还包括其他原因,例如网络连接失败,或者设备故障,具体的搜索失败原因不影响本专利技术的实施,只要进行搜索的设备无法成功获取与关键词对用的内容,本专利技术就会弃用当前进行搜索的地址,切换到另一个未经查找的地址中继续查找,直到查找到与关键词对应的内容。进一步地,本专利技术还提供一种基于用户语料获取内容的方法,所述提取用户的语料的关键词包括:解析所述语料中的语句的语义,转换为实体语义槽的形式;提取所述实体语义槽中的关键词,作为所述语料的关键词。具体地,在一些实施方式中,对用户的语料进行语义解析,理解用户的提供的语料所表达的意图。解析过程中,对用户语料中的语句进行断句,文字内容语料,通过标点符号进行断句,语音或图像内容语料通过语音识别或图像识别技术转化为文字内容语料后进行断句,获取一个或多个句子,语料的具体呈现形式不影响本专利技术实施。将这些句子按照句式结构分解成语义槽组成的形式,这里的语义槽包括该槽位的词性以及该槽位在具体句式结构中的位置,将句子中的词语按照词性填充到语义槽中。提取实体语义槽中的关键词指的是在句子中的语义槽被符合槽定义的词语填充之后,将这个词语提取出来,作为理解用户语料意图的关键词。进一步地,本专利技术还提供一种基于用户语料获取内容的方法,所述获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容具体包括:提取预先已存储的与所述关键词相关的第三方内容网站列表,所述第三方内容网站列表中的地址依据历史搜索所述语料的关键词时,接入次数从大到小的顺序进行排列;根据排列的顺序,依次对所述地址进行编号,编号最大的优先被选取,从编号最大的地址接入查找内容。具体地,预先已存储的与所述关键词相关的第三方内容网站列表,可以是存储在设备本地的存储器,也可以是存储在其他服务器中由本设备通过网络通信获取,这些存储方式和存储地址不影响本专利技术的实施。在进行搜索之前,已经统计了这些第三方内容网站的历史被搜索记录,每个网站被搜索的次数,成功接入次数都已经记录下来,当这些网站根据关键词从列表中被筛选出来时,将它们按照成功接入的次数从大到小进行排列。排列完成后,依次对它们进行编号,其中第一号是编号最大的网站,优先接入第一号网站的地址,查找与关键词对应的内容。如果第一号网站查找失败,那么接入第二号网站,如果第二号网站查找失败,那么接入第三号网站,依此类推,直到查找到所需的内容。查找失败的原因有多种,但当这些地址发生变更、过期失效时,这个搜索就会失败。当然,搜索失败还包括其他原因,例如网络连接失败,或者设备故障,具体的搜索失败原因不影响本专利技术的实施,只要进行搜索的设备无法成功获取与关键词对用的内容,本专利技术就会弃用当前进行搜索的地址,切换到下一编号的网站中继续查找,直到查找到与关键词对应的内容。进一步地,本专利技术还提供一种基于用户语料获取内容的方法,所述获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容具体包括:在搜索引擎中输入所述语料的关键词,获取第二搜索结果,所述第二搜索结果中的网站顺序列表作为所述地址列表,依据所述顺序列表的顺序,接入网站查找内容。具体地,在本专利技术一些实施方式中,地址列表并不是预先存储好的,而是通过用户语料的关键词,在搜索引擎中搜索获得的。搜索引擎可以是百度、必应、谷歌等常用的搜索引擎,也可以是一些专业行业的搜索引擎,例如智慧芽、佰腾等专利搜索引擎,具体的搜索引擎不影响本专利技术的实施。用户的语料中的关键词输入之后,通常搜索引擎会提供一些按顺序排列的网站,也即是本专利技术一些实施方式中的第二搜索结果,将第二搜索结果中的网站顺序列表作为第三方网站内容列表,从中接入网站查找与关键词对应的内容。进一步优选地,在本专利技术另一些实施方式中,在用户成功接入搜索引擎提供的网站获取与关键词对应的内容后,统计这些网站的地址和成功接入次数,将成功接入次数多的地址存储起来。进一步地,本专利技术还提供一种基于用户语料获取内容的方法,所述在搜索引擎中输入所述语料的关键词前包括:提取预先本文档来自技高网...

【技术保护点】
1.一种基于用户语料获取内容的方法,其特征在于,包括:提取用户的语料的关键词;依据所述关键词,获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容;当查找到与所述关键词对应的内容时,抓取并输出与所述关键词对应的内容;当未查找到与所述关键词对应的内容时,则自动切换至所述地址列表中的另一未经查找的地址中继续查找,直至查找到与所述关键词对应的内容。

【技术特征摘要】
1.一种基于用户语料获取内容的方法,其特征在于,包括:提取用户的语料的关键词;依据所述关键词,获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容;当查找到与所述关键词对应的内容时,抓取并输出与所述关键词对应的内容;当未查找到与所述关键词对应的内容时,则自动切换至所述地址列表中的另一未经查找的地址中继续查找,直至查找到与所述关键词对应的内容。2.根据权利要求1所述的一种基于用户语料获取内容的方法,其特征在于,所述提取用户的语料的关键词包括:解析所述语料中的语句的语义,转换为实体语义槽的形式;提取所述实体语义槽中的关键词,作为所述语料的关键词。3.根据权利要求2所述的一种基于用户语料获取内容的方法,其特征在于,所述获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容具体包括:提取预先已存储的与所述关键词相关的第三方内容网站列表,所述第三方内容网站列表中的地址依据历史搜索所述语料的关键词时,接入次数从大到小的顺序进行排列;根据排列的顺序,依次对所述地址进行编号,编号最大的优先被选取,从编号最大的地址接入查找内容。4.根据权利要求2所述的一种基于用户语料获取内容的方法,其特征在于,所述获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容具体包括:在搜索引擎中输入所述语料的关键词,获取第二搜索结果,所述第二搜索结果中的网站顺序列表作为所述地址列表,依据所述顺序列表的顺序,接入网站查找内容。5.根据权利要求4所述的一种基于用户语料获取内容的方法,所述在搜索引擎中输入所述语料的关键词前包括:提取预先已存储的搜索引擎列表,所述搜索引擎列表包括按顺序排列的多个搜索引擎;根据排列的顺序,依次对所述搜索引擎的地址进行编号,编号最大的优先被选取,从...

【专利技术属性】
技术研发人员:魏誉荧
申请(专利权)人:广东小天才科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1