超链接标记方法和装置、文本分类方法和装置制造方法及图纸

技术编号:21799348 阅读:26 留言:0更新日期:2019-08-07 10:33
本申请涉及一种超链接标记方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取待标记的文本;确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;将所述链接地址标记为所述文本的超链接。本申请提供的方案可以提高超链接标记的准确性。

Hyperlink Markup Method and Device, Text Classification Method and Device

【技术实现步骤摘要】
超链接标记方法和装置、文本分类方法和装置
本申请涉及计算机信息处理
,特别是涉及一种超链接标记方法和装置、文本分类方法和装置。
技术介绍
随着网络通信技术的发展,出现了搜索引擎技术,搜索引擎技术通过网络上大量的页面信息,响应用户提出的各种检索请求,为用户提供所需信息。而通过超链接标记技术进行检索则是一种特殊的检索方式,用户可通过点击标记有超链接的文本,跳转至链接的页面以获取所需信息,方便快捷。传统的超链接标记方式,通常是对常见的百科词汇进行超链接标记。然而,基于传统的超链接标记方式,无法对最新出现的词汇或者特定领域的词汇进行准确的标记和释义,常常导致超链接标记不准确的问题。
技术实现思路
基于此,有必要针对超链接标记不准确的技术问题,提供一种超链接标记、文本分类方法、装置、计算机可读存储介质和计算机设备。一种超链接标记方法,包括:获取待标记的文本;确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;将所述链接地址标记为所述文本的超链接。一种超链接标记装置,所述装置包括:获取模块,用于获取待标记的文本;确定模块,用于确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;所述获取模块还用于获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;标记模块,用于将所述链接地址标记为所述文本的超链接。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述超链接标记方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述超链接标记方法的步骤。上述超链接标记方法、装置、计算机可读存储介质和计算机设备,获取待标记的文本,通过确定待标记的文本所属的类别,该类别用于指示与该类别相匹配的分词方式对待标记的文本进行分词,得到词序列,可使得在与该类别对应的领域下对待标记的文本进行细粒度精准分词和释义。再将指向根据词序列检索得到的检索结果的链接地址标记为待标记的文本的超链接。这样,通过与待标记的文本所属的类别相匹配的分词方式对待标记的文本进行分词,大大提高了分词的准确性;通过对分词得到的词序列进行检索,使得检索粒度更细化、检索结果更贴合待标记的文本的含义,大大提高了超链接标记的准确性。一种文本分类方法,包括:获取待分类的文本;获取对所述文本本身进行分类的第一概率分布;确定所述文本的上下文;获取对所述上下文进行分类的第二概率分布;将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;确定所述文本的来源方标识;获取对所述来源方标识对应的历史文本进行分类的第四概率分布;根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别。一种文本分类装置,所述装置包括:获取模块,用于获取待分类的文本;所述获取模块还用于获取对所述文本本身进行分类的第一概率分布;确定模块,用于确定所述文本的上下文;所述获取模块还用于获取对所述上下文进行分类的第二概率分布;融合模块,用于将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;所述确定模块还用于确定所述文本的来源方标识;所述获取模块还用于获取对所述来源方标识对应的历史文本进行分类的第四概率分布;所述确定模块还用于根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述文本分类方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述文本分类方法的步骤。上述文本分类方法、装置、计算机可读存储介质和计算机设备,对待分类的文本本身进行分类,得到第一概率分布;对待分类的文本的上下文进行分类,得到第二概率分布。再将第一概率分布和第二概率分布进行第一融合,得到第三概率分布,这样,可使得第三概率分布和待分类的文本本身、待分类的文本的上下文都相关。通过对文本的来源方标识对应的历史文本进行分类,得到第四概率分布,再根据第三概率分布和第四概率分布,确定文本所属的类别,使得在对文本进行分类时,不仅仅利用了文本本身的信息,还利用了文本的上下文、文本的来源方标识对应的历史文本,充分挖掘了文本的有效信息。这样充分利用文本的有效信息对文本进行分类,可大大提高文本的分类准确性。附图说明图1为一个实施例中超链接标记方法和/或文本分类方法的应用环境图;图2为一个实施例中超链接标记方法的流程示意图;图3为一个实施例中获取待标记的文本的步骤的流程示意图;图4为一个实施例中确定文本所属的类别的步骤的流程示意图;图5为一个实施例中根据第一概率分布和第二概率分布,确定文本所属的类别的步骤的流程示意图;图6为一个实施例中获取对来源方标识对应的历史文本进行分类的第四概率分布的步骤的流程示意图;图7为一个实施例中访问检索结果所链接的页面的步骤的流程示意图;图8为另一个实施例中超链接标记方法的流程示意图;图9为一个实施例中文本分类方法的流程示意图;图10为另一个实施例中文本分类方法的流程示意图;图11为一个实施例中交互界面中用户选中待标记的文本的界面示意图;图12为一个实施例中终端对待标记的文本中的词进行超链接标记的界面示意图;图13为一个实施例中终端对待标记的文本整体进行超链接标记的界面示意图;图14为一个实施例中目标页面的界面示意图;图15为一个实施例中超链接标记装置的结构框图;图16为另一个实施例中超链接标记装置的结构框图;图17为一个实施例中文本分类装置的结构框图;图18为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中超链接标记方法和/或文本分类方法的应用环境图。参照图1,该超链接标记方法和/或文本分类方法应用于一种数据处理系统。该数据处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑和笔记本电脑等中的至少一种。服务器120可以是物理服务器或虚拟服务器,也可以用独立的服务器或者是多个服务器组成的服务器集群来实现。如图2所示,在一个实施例中,提供了一种超链接标记方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2,该超链接标记方法具体包括如下步骤:S202,获取待标记的文本。其中,待标记的文本是需要进行超链接标记的文本。待标记的文本具体可以是字、词、句或自然段落等。超链接是从一个页面指向目标页面的连接关系,这个目标页面具体可以是相同页面上的不同位置,也可以是网页,还可以是图片、电子邮件地址、文件或应用程序等。在一个实施例中,终端可展示交互界面,交互界面中展示有内容。终端可检测对交互界面中所展示内容的文本选择操作,当检测到文本选择操作时本文档来自技高网...

【技术保护点】
1.一种超链接标记方法,包括:获取待标记的文本;确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;将所述链接地址标记为所述文本的超链接。

【技术特征摘要】
1.一种超链接标记方法,包括:获取待标记的文本;确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;将所述链接地址标记为所述文本的超链接。2.根据权利要求1所述的方法,其特征在于,所述获取链接地址包括:获取与所述词序列中各个词相应的链接地址;每个所述链接地址指向根据相应的词检索得到的检索结果;所述将所述链接地址标记为所述文本的超链接,包括:将每个所述链接地址分别标记为所述文本中相应词的超链接。3.根据权利要求2所述的方法,其特征在于,所述获取与所述词序列中各个词相应的链接地址,包括:获取从所述词序列中筛选的指定词,以及与各个所述指定词相应的链接地址;所述指定词是根据用户数据或所述文本的相关信息筛选得到的。4.根据权利要求1所述的方法,其特征在于,所述方法应用于移动终端,所述方法还包括:将所述类别发送至服务器,所述类别用于指示所述服务器确定与所述类别相匹配的分词方式,指示所述服务器按照所述分词方式对所述文本分词,得到词序列,并指示所述服务器根据所述词序列进行检索,得到检索结果;所述获取链接地址包括:接收所述服务器反馈的指向所述检索结果的链接地址。5.根据权利要求1所述的方法,其特征在于,所述获取待标记的文本包括:展示交互界面,所述交互界面中展示有内容;检测对所述交互界面中所展示内容的文本选择操作;将检测到的文本选择操作所选中的文本作为待标记的文本。6.根据权利要求1所述的方法,其特征在于,所述确定所述文本所属的类别,包括:获取对所述文本本身进行分类的第一概率分布;确定所述文本的上下文;获取对所述上下文进行分类的第二概率分布;根据所述第一概率分布和所述第二概率分布,确定所述文本所属的类别。7.根据权利要求6所述的方法,其特征在于,所述根据所述第一概率分布和所述第二概率分布,确定所述文本所属的类别,包括:将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;确定所述文本的来源方标识;获取对所述来源方标识对应的历史文本进行分类的第四概率分布;根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别。8.根据权利要求7所述的方法,其特征在于,所述根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别,包括:将所述第三概率分布和所述第四概率进行第二融合,得到第五概率分布;在所述第五概率分布中确定最大的概率;将所述最大的概率对应的预设类别作为所述文本所属的类别。9.根据权利要求7所述的方法,其特征在于,所述获取对所述来源方标识对应的历史文本进行分类的第四概率分布,包括:获取所述来源方标识对应的历史文本集合,以及所述历史文本集合中历史文本的产生时间;按照所述历史文本集合中历史文本的产生时间所属的时间段,将所述历史文本集合划分为不同的历史文本子集;对各所述历史文本子集按照相应的抽样比例抽取历史文本;确定对抽取的历史文本进行分类的第四概率分布。10.根据权利要求1至9中任一项所述的方法,其特征在于,还包括:检测对标记有所述超链接的所...

【专利技术属性】
技术研发人员:王星雅万伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1