The embodiment of the invention provides a high quality text screening method, device and electronic equipment. Methods include: obtaining the characteristic values of the preset features of the selected text, the preset feature, including: the semantic features used to represent the semantic of the text to be screened, and / or, for representing the structural features of the text to be screened, based on the feature values of the predefined features of the text to be screened, using a preset mapping. The relationship is calculated to calculate the mass fraction of the text to be screened, and the desired text is reordered according to the order of the mass fraction. In the embodiment of the invention, the text quality can be evaluated according to the text features, and the text is reordered according to the quality of the text, so that the high quality text can be screened out more objectively and accurately and placed in the forefront of the ranking results.
【技术实现步骤摘要】
一种高质量文本筛选方法、装置及电子设备
本专利技术涉及大数据分析
,特别是涉及一种高质量文本筛选方法、装置及电子设备。
技术介绍
随着互联网用户的增加,互联网中UGC(用户原创内容,UserGeneratedContent)也以爆炸式的速度增长。其中包括了大量以文字为主体的UGC,诸如评论、弹幕,这些文本的内容质量不同,为了让用户获得更好的阅读体验,需要对这些文本进行筛选,将其中高质量的文本优先呈现给用户。现有技术中,在筛选高质量的文本时,将文本按照点赞数进行排序,将排名靠前的文本作为高质量的文本。专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:点赞是一种用户行为,不可避免的带有主观性,因此根据文本点赞数的排名对文本进行筛选不够客观、准确。
技术实现思路
本专利技术实施例的目的在于提供一种高质量文本筛选方法,用以解决现有技术中存在的按照质量高低对文本进行排序的准确性较低的问题。具体技术方案如下:在本专利技术实施例的第一方面,提供了一种高质量文本筛选方法,所述方法包括:获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;将所述待筛选文本按照所述质量分数进行排序。进一步的,所述获取待筛选文本的预设特征的特征值,包括:实时读取消息队列中的增量文本数据,得到待筛选文本的预设特征的特征值;或,周期性地读取存量数据库中的存量文本数据,得到待筛选文本的预设特征的特征值。进一步 ...
【技术保护点】
1.一种高质量文本筛选方法,其特征在于,所述方法包括:获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;将所述待筛选文本按照所述质量分数进行排序。
【技术特征摘要】
1.一种高质量文本筛选方法,其特征在于,所述方法包括:获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;将所述待筛选文本按照所述质量分数进行排序。2.根据权利要求1所述的方法,其特征在于,所述获取待筛选文本的预设特征的特征值,包括:实时读取消息队列中的增量文本数据,得到待筛选文本的预设特征的特征值;或,周期性地读取存量数据库中的存量文本数据,得到待筛选文本的预设特征的特征值。3.根据权利要求1所述的方法,其特征在于,所述语义特征包括:用于表示所述待筛选文本的语义情感色彩的语义情感特征;所述结构特征,至少包括语句结构特征、文本长度、中文字符占比中的一个。4.根据权利要求1所述的方法,其特征在于,所述预设特征,还包括:用于表示所述待筛选文本时间效力的时效特征。5.根据权利要求1所述的方法,其特征在于,所述根据待筛选文本的预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数,包括:对所述预设特征的特征值进行加权求和,得到所述待筛选文本的特征累加值;将所述特征累加值输入预设的映射关系中,得到所述特征累加值的映射结果,作为所述待筛选文本的质量分数。6.根据权利要求1所述的方法,其特征在于,在所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数之前,还包括:确定所述待筛选文本的所述预设特征的特征值是否低于预设筛选阈值;如果所述预设特征的特征值低于预设筛选阈值,则删除该待筛选文本;或者,如果所述预设特征的特征值不低于预设筛选阈值,则执行所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数的步骤。7.根据权利要求1所述的方法,其特征在于,在所述将所述待筛选文本按照所述质量分数进行排序之前,还包括:确定所述待筛选文本的所述质量分数是否低于预设分数阈值;如果所述质量分数低于预设分数阈值,则删除该待筛选文本;或者,如果所述质量分数不低于预设分数阈值,则执行所述将所述待筛选文本按照所述质量分数进行排序的步骤。8.一种高质量文本筛选装置,其特征在于,所述装置包括:数据读取模块,用于获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,...
【专利技术属性】
技术研发人员:都金涛,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。