互联网音乐文件排序方法、系统和搜索方法及搜索引擎技术方案

技术编号:2834684 阅读:329 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种互联网音乐文件排序方法,包括:计算音乐文件的文本相关性及数值相关性;根据所述文本相关性以及数值相关性,计算音乐文件的综合相关性,并根据所述综合相关性对该音乐文件进行排序。本发明专利技术还公开了一种互联网音乐文件排序系统、搜索方法和搜索引擎。应用本发明专利技术之后,结合相关性考虑因子评估音乐文件与用户检索请求的相关性,从而使得与用户检索请求相关性较好的音乐文件更容易地呈现给用户。

【技术实现步骤摘要】

本专利技术涉及互联网搜索技术,更具体地说,本专利技术涉及一种互联网音乐 文件排序方法、系统和搜索方法及搜索引擎。
技术介绍
搜索引擎技术是近几年非常热门的技术,以其为核心基础的网页搜索、 新闻搜索、多媒体文件搜索、地图搜索等都具有很大的实用价值和商业价值。 目前,各种搜索引擎技术层出不穷,与其相关的各种搜索应用也在飞速发展当中。通常而言,多媒体文件搜索一般包括音乐文件搜索、视频文件搜索和图片文件搜索等。视频文件搜索引擎以搜索技术为基础,检索和提供RM、 WMV及其它各种格式视频文件的信息搜索和下载统一资源定位符(URL); 图片文件搜索引擎以搜索技术为基础,检索和提供联合图像专家组(JPEG) 及其它各种格式图像文件的信息搜索和URL;音乐文件搜索引擎通常又叫 Mp3搜索引擎,它以搜索技术为基础,检索和提供Mp3及其它各种格式音乐文件的信息搜索和下载URL。音乐搜索引擎是一种互联网服务,通过浏览器为用户提供方便的检索入口。用户可以通过它来4企索到自己想要下载/试听的音乐URL源。通常用户 根据自己想要检索的歌曲,构造一个到多个关键字,然后向音乐搜索引擎的 Web入口提交包含检索关键字的检索请求,音乐搜索引擎根据用户输入的检 索关键字进行检索,找到匹配用户检索关键字的音乐URL源记录,并对检索结果进行排序,再将这些URL源记录分页返回给用户。随着搜索技术的不断成熟,以及互联网用户对多媒体文件下载服务的需求不断增大,近年来音乐搜索引擎的竟争越来越激烈,技术发展也越来越快。 因此,除了需要从数量上提高搜索结果(比如增加音乐文件链接的数量、减 少死链接等)以外,还必须对搜索质量进行提高,以提供给用户尽可能好的 体验。在音乐文件搜索中需要对搜索结果进行排序,而搜索结果的排序是搜 索体验中最为关键的部分之一 。然而,现有技术的音乐文件搜索技术中对搜索结果的排序较为随意,检 索结果和检索请求的相关性考虑不足,检索结果的考虑因子不健全,从而使 得用户使用起来非常不方便。比如,目前的某些搜索引擎在进行检索结果排序时,没有考虑到同一歌 手的歌曲重复相邻出现的问题,而只是简单地根据歌曲的权重对其进行排序,从而如果用户要寻找的歌曲比较生僻,则无法很快的检索到。例如在 某音乐搜索引擎中检索关键词第一次,检索结果前三页的结果中,只是 出现了三首不同歌手的不同歌曲。而且,现有技术的音乐文件搜索中,在检索结果的整洁有序性上也存在 不足。例如现有技术的音乐搜索的检索结果没有考虑音乐记录的文本相关 性权重中歌曲名称的长度因子的影响,这就造成检索结果也不整洁。举例说 明,假设用户要寻找小虎队演唱的爱歌曲,在某音乐检索引擎中检索关 键词爱,检索结果的排序在文字长度方面杂乱无章,用户无法确定该搜 索引擎中是否有关于爱这首歌的URL源,也无法了解需要翻多少页才 可以检索到该歌曲,这就给用户的使用带来了不便。
技术实现思路
本专利技术实施例提出 一种互联网音乐文件排序方法,结合相关性考虑因子 评估音乐文件与用户检索请求的相关性,从而使得与用户检索请求相关性较 好的音乐文件更容易地呈现给用户。本专利技术实施例提出 一种音乐文件排序系统,结合相关性考虑因子评估音 乐文件与用户检索请求的相关性,从而使得与用户检索请求相关性较好的音 乐文件更容易地呈现给用户。本专利技术实施例还提出了一种音乐文件搜索方法,应用该方法能够搜索出 与用户检索请求相关性较好的音乐文件。本专利技术实施例还提出了 一种音乐文件搜索引擎,能够搜索出与用户检索 请求相关性较好的音乐文件。本专利技术实施例的技术方案是这样实现的 一种互联网音乐文件排序方法,包括计算音乐文件的文本相关性及数值相关性;根据所述文本相关性以及数值 相关性,计算音乐文件的综合相关性,并才艮据所述综合相关性对该音乐文件进 行排序。一种搜索互联网音乐文件的方法,该方法包括 计算音乐文件的文本相关性及数值相关性;根据所述文本相关性以及数值相关性,计算音乐文件的综合相关性,并根据所述综合相关性对该音乐文件进行排序;将用户输入的检索串分解为多个特定语素,并根据每个特定语素的相关性权重数据和音乐文件排序结果,计算出符合用户检索请求的所有音乐文件针对所述用户输入检索串的相关性权值,然后将所述符合用户检索请求的音乐文件按照所述相关性权值排序后返回给用户。一种互联网音乐文件排序系统,该系统包括文本相关性计算单元,用于计算该音乐文件的文本相关性;数值相关性计算单元,用于计算该音乐文件的数值相关性;排序单元,用于根据所述音乐文件的文本相关性以及数值相关性,计算该音乐文件的综合相关性,并根据所述综合相关性对该音乐文件进行排序。 一种互联网音乐文件搜索引擎,该搜索引擎包括爬虫,从互联网抓取互联网音乐文件,并将所述互联网音乐文件的文本字 段和数值因子发送给索引系统;索引系统,用于根据特定语素在互联网音乐文件的文本字段的命中情况,计算该音乐文件针对该特定语素的文本相关性,根据所述音乐文件自身的数值 因子及其权重,计算该音乐文件的数值相关性,并根据所述音乐文件针对该特 定语素的文本相关性以及音乐文件的数值相关性,计算所述音乐文件针对该特 定语素的综合相关性,并根据所述综合相关性对音乐文件针对该特定语素进行排序;检索器,用于将用户输入的检索串分解为多个特定语素,并根据每个特定 语素的相关性权重数据和针对每个特定语素的排序结果,计算出符合用户检索 请求的所有音乐文件针对用户输入检索串的相关性权值,然后将所述符合用户检索请求的音乐文件按照所述相关性权值排序后返回给用户。从上述技术方案中可以看出,在本专利技术实施例中,计算音乐文件的文本 相关性及数值相关性;然后再计算该音乐文件的综合相关性,最后根据综合 相关性对该音乐文件针对该特定语素进行排序。由此可见,应用本专利技术以后, 综合了互联网音乐文件的文本属性和数值属性等因素来对音乐搜索引擎的 检索结果进行相关性排序,从而使得与用户检索请求相关性较好的歌曲URL 源尽量排列在用户检索结果的前面,因此提高了音乐搜索引擎的相关性排序 效果,检索结果的排序能够更好地满足用户需求。附图说明 意图2为根据本专利技术示范性实施例的音乐文件排序系统的示范性结构示 意图3为根据本专利技术示范性实施例的音乐搜索引擎的示范性结构示意图。 具体实施例方式为使本专利技术的目的、技术方案和优点表达得更加清楚明白,下面结合附 图及具体实施例对本专利技术再作进一 步详细的说明。在本专利技术实施例中,综合互联网音乐文件的文本属性和数值属性等因素 来对音乐搜索引擎的检索结果进行相关性排序。目的在于将与用户检索请求相关性较好的歌曲URL源尽量排列在用户检索结果的前面。用户在音乐搜索引擎中输入检索关键词列表来查找他(她)想试听/下 载的音乐。音乐搜索引擎返回的检索结果由多条音乐记录组成,每个音乐记 录包括一个音乐源URL、歌曲名、歌手名、专辑名等文本信息。如果一个 音乐记录的文本信息中包括用户提交的所有检索关键词,那么此音乐记录符 合用户的检索需求,可能作为检索结果中的一条记录返回。在音乐搜索中, 通常用户输入的检索关键词的个数较少,于是符合用户数据检索词的音乐记 录的数目会比较多。它们可能是不同歌手的不同歌曲,甚者可能是同一首歌 曲的不同URL来源的数据。这些符合用户数据检索词的音乐本文档来自技高网
...

【技术保护点】
一种互联网音乐文件排序方法,其特征在于,包括:计算音乐文件的文本相关性及数值相关性;根据所述文本相关性以及数值相关性,计算音乐文件的综合相关性;并根据所述综合相关性对该音乐文件进行排序。

【技术特征摘要】
1、一种互联网音乐文件排序方法,其特征在于,包括计算音乐文件的文本相关性及数值相关性;根据所述文本相关性以及数值相关性,计算音乐文件的综合相关性;并根据所述综合相关性对该音乐文件进行排序。2、 根据权利要求1所述的互联网音乐文件排序方法,其特征在于,所述计 算文本相关性包括设定特定语素;文件针对该特定语素的文本相关性。3、 根据权利要求1所述的互联网音乐文件排序方法,其特征在于,所述计 算文本相关性包括设定特定语素,并由所述特定语素构成特定词组或者特定词句; 根据所述特定词组或者特定词句在互联网音乐文件的文本字段中的命中情 况,计算音乐文件针对该特定词组或者特定词句的文本相关性。4、 根据权利要求l、 2或3所述的互联网音乐文件排序方法,其特征在于, 所述计算数值相关性包括根据所述音乐文件自身的数值因子及其权重,计算该音乐文件的数值相关性。5、 根据权利要求2所述的互联网音乐文件排序方法,其特征在于,所述文 本字段包括歌曲名、歌手名、专辑名和歌词中的一种或者多于一种的任意组合; 所述计算该音乐文件针对该特定语素的文本相关性包括将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以 权重,然后将各项乘积相加以作为文本相关性数值;或将该特定语素针对歌曲名、歌手名、专辑名和歌词的相关性数值分别乘以 各自权重,然后将各项乘积相加后再乘以对应于音乐文件类型的文档类型系数 以作为文本相关性数值。6、 根据权利要求5所述的互联网音乐文件排序方法,其特征在于, 当特定语素对应于歌曲搜索时,歌曲名的权重大于歌手名的权重,歌手名的权重大于专辑名的权重,专辑名的权重大于歌词的权重;当特定语素对应于歌词搜索时,歌曲名的权重大于歌词的权重,歌词的权 重大于专辑名的权重,专辑名的权重大于歌手名的权重;当特定语素对应于专辑搜索时,专辑名的权重大于歌手名的权重,歌手名 的^又重大于歌词的4又重。7、 根据权利要求4所述的互联网音乐文件排序方法,其特征在于,所述音 乐文件自身的数值因子包括可访问性因子,所述可访问性因子由下载速度因子 和连通率因子确定。8、 根据权利要求4所述的互联网音乐文件排序方法,其特征在于,所述音 乐文件自身的数值因子包括下列因子中的任一个或者多于一个的任意组合歌曲热门程度因子;歌手热门程度因子;歌曲记录所在的站点因子;文件大小因子;播放时长因子;编码率因子;修正数据的可信度因子;歌曲的新鲜度因子;网络协议因子; 文件类型修正因子。9、 根据权利要求2所述的互联网音乐文件排序方法,其特征在于,该方法 包括对歌曲名、歌手名和音乐文件格式相同的歌曲进行聚类,对每类中的歌曲 按照数值相关性划分出不同的级别Level,使得每个级别有预定个数的音乐文 件,^v而得到所有音乐文件的级别排名LevelRank;根据每个音乐文件的LevdRank及其数值相关性计算出每个音乐文件的综 合数值相关性,使得不同类中级别相同的音乐文件的综合数值相关性大小相近, 而不同级别的音乐文件的综合数值相关性相差很大;#^居所述音乐文件针对该特定语素的文件相关性和所述综合数值相关性计 算音乐文件针对该特定语素的综合相关性,并根据所述综合相关性对音乐文件 针对该特定语素进行排序。10、 一种搜索互联网音乐文件的方法,其特征在于,该方法包括 计算音乐文件的文本相关性及数值相关性;根据所述文本相关性以及数值相关性,计算音乐文件的综合相关性,并根 据所述综合相关性对该音乐文件进行排序;将用户输入的检索串分解为多个特定语素,并根据每个特定语素的相关性 权重数据和所述音乐文件排序结果,计算出符合用户检索请求的所有音乐文件 针对所述用户输入^r索串的相关性权值,然后按照所述相关性权值排序后将所 述符合用户^r索请求的音乐文件返回给用户。11、 根据权利要求IO所述的搜索互联网音乐文件的方法,其特征在于, 所述计算文本相关性包括设定特定语素;根据特定语素在互联网音乐文件的文本字段中的命中情况,计算音乐文件 针对该特定语素的文本相关性;所述计算相关性权值包括将用户输入的检索串分解为多个特定语素,并 根据每个特定语素的相关性权重数据和针对每个特定语素的排序结果,计算出 符合用户检索请求的所有音乐文件针对所述用户输入检索串的相关性权值。12、 根据权利要求IO所述的搜索互联网音乐文件的方法,其特征在于, 所述计算文本相关性包括设定特定语素,并由所述特定语素构成特定词组或者特定词句;#4居所迷 特定词组或者特定词句在互联网音乐文件的文本字段中的命中情况,计算音乐 文件针对该特定词组或者特定词句的文本相关性;所述计算相关性权值包括将用户输入的检索串分解为所述多个特定词组 或者特定词句,并根据每个特定词组或者特定词句的相关性权重数据和针对每 个特定词组或者特定词句的排序结果,计算出符合用户检索请求的所有音乐文 件针对所述用户输入斗企索串的相关性权值。13、 根据权利要...

【专利技术属性】
技术研发人员:邵荣防王志平熊应郭阳
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1