【技术实现步骤摘要】
超链接标记方法和装置、文本分类方法和装置
本申请涉及计算机信息处理
,特别是涉及一种超链接标记方法和装置、文本分类方法和装置。
技术介绍
随着网络通信技术的发展,出现了搜索引擎技术,搜索引擎技术通过网络上大量的页面信息,响应用户提出的各种检索请求,为用户提供所需信息。而通过超链接标记技术进行检索则是一种特殊的检索方式,用户可通过点击标记有超链接的文本,跳转至链接的页面以获取所需信息,方便快捷。传统的超链接标记方式,通常是对常见的百科词汇进行超链接标记。然而,基于传统的超链接标记方式,无法对最新出现的词汇或者特定领域的词汇进行准确的标记和释义,常常导致超链接标记不准确的问题。
技术实现思路
基于此,有必要针对超链接标记不准确的技术问题,提供一种超链接标记、文本分类方法、装置、计算机可读存储介质和计算机设备。一种超链接标记方法,包括:获取待标记的文本;确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;将所述链接地址标记为所述文本的超链接。一种超链接标记装置,所述装置包括:获取模块,用于获取待标记的文本;确定模块,用于确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;所述获取模块还用于获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;标记模块,用于将所述链接地址标记为所述文本的超链接。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使 ...
【技术保护点】
1.一种超链接标记方法,包括:获取待标记的文本;确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;将所述链接地址标记为所述文本的超链接。
【技术特征摘要】
1.一种超链接标记方法,包括:获取待标记的文本;确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;将所述链接地址标记为所述文本的超链接。2.根据权利要求1所述的方法,其特征在于,所述获取链接地址包括:获取与所述词序列中各个词相应的链接地址;每个所述链接地址指向根据相应的词检索得到的检索结果;所述将所述链接地址标记为所述文本的超链接,包括:将每个所述链接地址分别标记为所述文本中相应词的超链接。3.根据权利要求2所述的方法,其特征在于,所述获取与所述词序列中各个词相应的链接地址,包括:获取从所述词序列中筛选的指定词,以及与各个所述指定词相应的链接地址;所述指定词是根据用户数据或所述文本的相关信息筛选得到的。4.根据权利要求1所述的方法,其特征在于,所述方法应用于移动终端,所述方法还包括:将所述类别发送至服务器,所述类别用于指示所述服务器确定与所述类别相匹配的分词方式,指示所述服务器按照所述分词方式对所述文本分词,得到词序列,并指示所述服务器根据所述词序列进行检索,得到检索结果;所述获取链接地址包括:接收所述服务器反馈的指向所述检索结果的链接地址。5.根据权利要求1所述的方法,其特征在于,所述获取待标记的文本包括:展示交互界面,所述交互界面中展示有内容;检测对所述交互界面中所展示内容的文本选择操作;将检测到的文本选择操作所选中的文本作为待标记的文本。6.根据权利要求1所述的方法,其特征在于,所述确定所述文本所属的类别,包括:获取对所述文本本身进行分类的第一概率分布;确定所述文本的上下文;获取对所述上下文进行分类的第二概率分布;根据所述第一概率分布和所述第二概率分布,确定所述文本所属的类别。7.根据权利要求6所述的方法,其特征在于,所述根据所述第一概率分布和所述第二概率分布,确定所述文本所属的类别,包括:将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;确定所述文本的来源方标识;获取对所述来源方标识对应的历史文本进行分类的第四概率分布;根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别。8.根据权利要求7所述的方法,其特征在于,所述根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别,包括:将所述第三概率分布和所述第四概率进行第二融合,得到第五概率分布;在所述第五概率分布中确定最大的概率;将所述最大的概率对应的预设类别作为所述文本所属的类别。9.根据权利要求7所述的方法,其特征在于,所述获取对所述来源方标识对应的历史文本进行分类的第四概率分布,包括:获取所述来源方标识对应的历史文本集合,以及所述历史文本集合中历史文本的产生时间;按照所述历史文本集合中历史文本的产生时间所属的时间段,将所述历史文本集合划分为不同的历史文本子集;对各所述历史文本子集按照相应的抽样比例抽取历史文本;确定对抽取的历史文本进行分类的第四概率分布。10.根据权利要求1至9中任一项所述的方法,其特征在于,还包括:检测对标记有所述超链接的所...
【专利技术属性】
技术研发人员:王星雅,万伟,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。