一种高质量文本筛选方法、装置及电子设备制造方法及图纸

技术编号:18458686 阅读:28 留言:0更新日期:2018-07-18 12:39
本发明专利技术实施例提供了一种高质量文本筛选方法、装置及电子设备。方法包括:获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;基于所述待筛选文本的预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;将所述待筛选文本按照所述质量分数的顺序重新进行排序。本发明专利技术实施例,可以根据文本特征对文本质量进行评估,并按照文本质量的高低对文本重新排序,从而可以更客观、准确地将高质量文本筛选出来并置于排序结果中的前列。

High quality text screening method, device and electronic device

The embodiment of the invention provides a high quality text screening method, device and electronic equipment. Methods include: obtaining the characteristic values of the preset features of the selected text, the preset feature, including: the semantic features used to represent the semantic of the text to be screened, and / or, for representing the structural features of the text to be screened, based on the feature values of the predefined features of the text to be screened, using a preset mapping. The relationship is calculated to calculate the mass fraction of the text to be screened, and the desired text is reordered according to the order of the mass fraction. In the embodiment of the invention, the text quality can be evaluated according to the text features, and the text is reordered according to the quality of the text, so that the high quality text can be screened out more objectively and accurately and placed in the forefront of the ranking results.

【技术实现步骤摘要】
一种高质量文本筛选方法、装置及电子设备
本专利技术涉及大数据分析
,特别是涉及一种高质量文本筛选方法、装置及电子设备。
技术介绍
随着互联网用户的增加,互联网中UGC(用户原创内容,UserGeneratedContent)也以爆炸式的速度增长。其中包括了大量以文字为主体的UGC,诸如评论、弹幕,这些文本的内容质量不同,为了让用户获得更好的阅读体验,需要对这些文本进行筛选,将其中高质量的文本优先呈现给用户。现有技术中,在筛选高质量的文本时,将文本按照点赞数进行排序,将排名靠前的文本作为高质量的文本。专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:点赞是一种用户行为,不可避免的带有主观性,因此根据文本点赞数的排名对文本进行筛选不够客观、准确。
技术实现思路
本专利技术实施例的目的在于提供一种高质量文本筛选方法,用以解决现有技术中存在的按照质量高低对文本进行排序的准确性较低的问题。具体技术方案如下:在本专利技术实施例的第一方面,提供了一种高质量文本筛选方法,所述方法包括:获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;将所述待筛选文本按照所述质量分数进行排序。进一步的,所述获取待筛选文本的预设特征的特征值,包括:实时读取消息队列中的增量文本数据,得到待筛选文本的预设特征的特征值;或,周期性地读取存量数据库中的存量文本数据,得到待筛选文本的预设特征的特征值。进一步的,所述语义特征包括:用于表示所述待筛选文本的语义情感色彩的语义情感特征;所述结构特征,至少包括语句结构特征、文本长度、中文字符占比中的一个。进一步的,所述预设特征,还包括:用于表示所述待筛选文本时间效力的时效特征。进一步的,所述根据待筛选文本的预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数,包括:对所述预设特征的特征值进行加权求和,得到所述待筛选文本的特征累加值;将所述特征累加值输入预设的映射关系中,得到所述特征累加值的映射结果,作为所述待筛选文本的质量分数。进一步的,在所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数之前,还包括:确定所述待筛选文本的所述预设特征的特征值是否低于预设筛选阈值;如果所述预设特征的特征值低于预设筛选阈值,则删除该待筛选文本;或者,如果所述预设特征的特征值不低于预设筛选阈值,则执行所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数的步骤。进一步的,在所述将所述待筛选文本按照所述质量分数进行排序之前,还包括:确定所述待筛选文本的所述质量分数是否低于预设分数阈值;如果所述质量分数低于预设分数阈值,则删除该待筛选文本;或者,如果所述质量分数不低于所述预设分数阈值,则执行所述将所述待筛选文本按照所述质量分数进行排序的步骤。在本专利技术实施例的第二方面,提供了一种高质量文本筛选装置,所述装置包括:数据读取模块,用于获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;计分模块,用于基于所述待筛选文本的预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;排序模块,用于将所述待筛选文本按照所述质量分数的顺序重新进行排序。进一步的,所述数据读取模块具体用于所述数据读取模块用于实时读取消息队列中的增量文本数据得到待筛选文本的预设特征的特征值;和,周期性地读取存量数据库中的存量文本数据得到待筛选文本的预设特征的特征值。进一步的,所述语义特征包括:用于表示所述待筛选文本的语义情感色彩的语义情感特征;所述结构特征,至少包括语句结构特征、文本长度、中文字符占比中的一个。进一步的,所述预设特征,还包括:用于表示所述待筛选文本时间效力的时校特征。进一步的,所述计分模块,具体用于:对所述预设特征的特征值进行加权求和,得到所述待筛选文本的特征累加值;将所述特征累加值输入预设的映射关系中,得到所述特征累加值的映射结果,作为所述待筛选文本的质量分数。进一步的,还包括第一筛选模块;所述第一筛选模块,用于在所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数之前,确定所述待筛选文本的所述预设特征的特征值是否低于预设筛选阈值;并且如果所述预设特征的特征值低于预设筛选阈值,则删除该待筛选文本;所述计分模块,还用于如果所述预设特征的特征值不低于预设筛选阈值,则执行所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数的步骤。进一步的,还包括第二筛选模块;所述第二筛选模块,用于在所述将所述待筛选文本按照所述质量分数进行排序之前,确定所述待筛选文本的所述质量分数是否低于预设分数阈值;并且如果所述质量分数低于预设分数阈值,则删除该待筛选文本;所述排序模块,还用于如果所述质量分数不低于预设分数阈值,则执行所述将所述待筛选文本按照所述质量分数进行排序的步骤。在本专利技术实施例的第三方面,提供了一种高质量文本筛选电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一所述的高质量文本筛选方法。在本专利技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的高质量文本筛选方法。在本专利技术实施例的第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的高质量文本筛选方法。本专利技术实施例提供的高质量文本筛选方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以根据文本特征对文本质量进行评估,并按照文本质量的高低对文本重新排序,从而可以更客观、准确地将高质量文本筛选出来并置于排序结果中的前列。当然,实施本专利技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术实施例提供的高质量文本筛选方法的一种流程示意图;图2为本专利技术实施例提供的高质量文本筛选方法的另一种流程示意图;图3为本专利技术实施例提供的高质量文本筛选方法的另一种流程示意图;图4为本专利技术实施例提供的高质量文本筛选方法的另一种流程示意图;图5为本专利技术实施例提供的高质量文本筛选方法的另一种流程示意图;图6a为本专利技术实施例提供的高质量文本筛选装置的一种结构示意图;图6b为本专利技术实施例提供的高质量文本筛选装置的另一种结构示意图;图6c为本专利技术实施例提供的高质量文本筛选装置的另一种结构示意图;图7为本专利技术实施例提供的高质量文本筛选电子设备的一种结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。参见图1,图1所示为本专利技术实施例提供的高质量文本筛选方本文档来自技高网...

【技术保护点】
1.一种高质量文本筛选方法,其特征在于,所述方法包括:获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;将所述待筛选文本按照所述质量分数进行排序。

【技术特征摘要】
1.一种高质量文本筛选方法,其特征在于,所述方法包括:获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;将所述待筛选文本按照所述质量分数进行排序。2.根据权利要求1所述的方法,其特征在于,所述获取待筛选文本的预设特征的特征值,包括:实时读取消息队列中的增量文本数据,得到待筛选文本的预设特征的特征值;或,周期性地读取存量数据库中的存量文本数据,得到待筛选文本的预设特征的特征值。3.根据权利要求1所述的方法,其特征在于,所述语义特征包括:用于表示所述待筛选文本的语义情感色彩的语义情感特征;所述结构特征,至少包括语句结构特征、文本长度、中文字符占比中的一个。4.根据权利要求1所述的方法,其特征在于,所述预设特征,还包括:用于表示所述待筛选文本时间效力的时效特征。5.根据权利要求1所述的方法,其特征在于,所述根据待筛选文本的预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数,包括:对所述预设特征的特征值进行加权求和,得到所述待筛选文本的特征累加值;将所述特征累加值输入预设的映射关系中,得到所述特征累加值的映射结果,作为所述待筛选文本的质量分数。6.根据权利要求1所述的方法,其特征在于,在所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数之前,还包括:确定所述待筛选文本的所述预设特征的特征值是否低于预设筛选阈值;如果所述预设特征的特征值低于预设筛选阈值,则删除该待筛选文本;或者,如果所述预设特征的特征值不低于预设筛选阈值,则执行所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数的步骤。7.根据权利要求1所述的方法,其特征在于,在所述将所述待筛选文本按照所述质量分数进行排序之前,还包括:确定所述待筛选文本的所述质量分数是否低于预设分数阈值;如果所述质量分数低于预设分数阈值,则删除该待筛选文本;或者,如果所述质量分数不低于预设分数阈值,则执行所述将所述待筛选文本按照所述质量分数进行排序的步骤。8.一种高质量文本筛选装置,其特征在于,所述装置包括:数据读取模块,用于获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,...

【专利技术属性】
技术研发人员:都金涛
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1