基于知识问答平台的回答排重方法及装置制造方法及图纸

技术编号:7917711 阅读:170 留言:0更新日期:2012-10-25 02:43
本发明专利技术涉及问答平台开发技术领域,公开了一种基于知识问答平台的回答排重方法及装置。该方法包括:获取当前用户提交的回答内容;确定回答内容的长度;如果所述长度小于或等于预设的长度阈值,则判断回答内容是否为其他用户已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串;如果是,则禁止将回答内容提交到回答数据库中;否则,将回答内容提交到回答数据库中;如果所述长度大于所述长度阈值,则将回答内容按所述长度阈值顺序切割为多个子段;判断所述多个子段中是否有任意一个子段为所述字符串的子串,如果是,则禁止将回答内容提交到回答数据库中;否则,将回答内容提交到回答数据库中。本发明专利技术可以实现回答排重,节省网络资源。

【技术实现步骤摘要】

本专利技术涉及问答平台开发
,具体涉及一种基于知识问答平台的回答排重方法及装置
技术介绍
知识问答平台,例如新浪爱问、百度知道、搜搜问问等,相比于被动的搜索而言,更注重主动知识分享和经验交流。近几年,这种更为人性化、实用性更强的问答平台,已被越来越多的用户关注和使用。目前知识问答平台中,一些用户为了获得积分,往往利用复制粘贴单个用户已回答的内容或者拼接剪辑多个用户已回答的内容,来提交自己的答案,给后台审核管理员审核时造成了很大的障碍,大量重复的答案白白耗费了网络资源,严重影响了知识问答平台的正常良性运作。因此,在知识问答平台中,如何及时、有效地针对提问进行回答排重,成为 现有技术中亟待解决的技术问题之一。
技术实现思路
本专利技术实施例针对上述现有技术存在的问题,提供一种基于知识问答平台的回答排重方法及装置,以实现及时、有效的回答排重,节省网络资源。为此,本专利技术实施例提供如下技术方案一种基于知识问答平台的回答排重方法,包括获取当前用户提交的回答内容;确定所述回答内容的长度;如果所述长度小于或等于预设的长度阈值,则判断所述回答内容是否为预先生成的字符串的子串,所述字符串包括其他用户已提交到回答数据库中的已回答内容和问题标题;如果是,则禁止将所述回答内容提交到所述回答数据库中;否则,将所述回答内容提交到所述回答数据库中;如果所述长度大于所述长度阈值,则将所述回答内容按所述长度阈值顺序切割为多个子段;判断所述多个子段中是否有任意一个子段为所述字符串的子串,如果是,则禁止将所述回答内容提交到所述回答数据库中;否则,将所述回答内容提交到所述回答数据库中。优选地,所述方法还包括在确定所述回答内容的长度之前,生成所述字符串。可选地,所述获取当前用户提交的回答内容包括在浏览器上采用脚本程序解析超文本标记语言HTML页面的方式获取当前用户提交的回答内容;所述判断所述回答内容是否为所述字符串的子串包括利用页面脚本语言中判断字符位置的函数确定所述回答内容在所述字符串中的位置;如果所述位置大于或等于0,则确定所述回答内容是所述字符串的子串;否则,确定所述回答内容不是所述字符串的子串。可选地,所述获取当前用户提交的回答内容包括在服务器上采用嵌入HTML文档的脚本程序从对应所述当前用户的数据库中提取所述当前用户提交的回答内容;所述判断所述回答内容是否为所述字符串的子串包括利用服务器脚本语言中的切割函数,以所述回答内容为正则表达式切割所述字符串;如果所述切割函数的结果大于1,则确定所述回答内容是所述字符串的子串;否则,确定所述回答内容不是所述字符串的子串。一种基于知识问答平台的回答排重装置,包括获取单元,用于获取当前用户提交的回答内容;长度计算单元,用于确定所述回答内容的长度;第一判断单元,用于判断所述长度是否小于或等于预设的长度阈值;第二判断单元,用于在所述第一判断单元判断所述长度小于或等于预设的长度阈值后,判断所述回答内容是否为预先生成的字符串的子串,所述字符串包括其他用户已提交到回答数据库中的已回答内容和问题标题;提交控制单元,用于在所述第二判断单元判断所述回答内容是所述字符串的子串后,禁止将所述回答内容提交到所述回答数据库中;在所述第二判断单元判断所述回答内容不是所述字符串的子串后,将所述回答内容提交到所述回答数据库中;切割单元,用于在所述第一判断单元判断所述长度大于所述长度阈值后,将所述回答内容按所述长度阈值顺序切割为多个子段;所述第二判断单元,还用于判断所述切割单元切割得到的所述多个子段中是否有任意一个子段为所述字符串的子串;所述提交控制单元,还用于在所述第二判断单元判断所述多个子段中有任意一个子段为所述字符串的子串后,禁止将所述回答内容提交到所述回答数据库中;在所述第二判断单元判断所述多个子段中没有子段为所述字符串的子串后,将所述回答内容提交到所述回答数据库中。优选地,所述装置还包括字符串生成单元,用于在确定所述回答内容的长度之前,生成所述字符串。可选地,所述获取单元,具体用于在用户终端上采用脚本程序解析超文本标记语言HTML页面的方式获取当前用户提交的回答内容;所述第二判断单元,具体用于利用页面脚本语言中判断字符位置的函数确定所述回答内容在所述字符串中的位置;如果所述位置大于或等于0,则确定所述回答内容是所述字符串的子串;否则,确定所述回答内容不是所述字符串的子串。优选地,所述装置集成在浏览器上。可选地,所述获取单元,具体用于采用嵌入HTML文档的脚本程序从对应所述当前、用户的数据库中提取所述当前用户提交的回答内容;所述第二判断单元,具体用于利用服务器脚本语言中的切割函数,以所述回答内容为正则表达式切割所述字符串;如果所述切割函数的结果大于1,则确定所述回答内容是所述字符串的子串;否则,确定所述回答内容不是所述字符串的子串。优选地,所述装置集成在服务器上。本专利技术实施例提供的基于知识问答平台的回答排重方法及装置,在获取当前用户提交的回答内容后,确定该回答内容的长度。对于长度在设定的长度阈值内的回答内容,则直接检查所述回答内容是否为由其他用户已提交到回答数据库中的已回答内容和问题标题拼接成的字符串的子串;如果是,则禁止将该回答内容提交到所述回答数据库中;对于长度超过设定的长度阈值的回答内容,先对所述回答内容按所述长度阈值顺序切割为多个子段,再检查所述多个子段中是否有任意一个子段为所述字符串的子串,如果是,则禁止将 该回答内容提交到所述回答数据库中。从而可以及时、有效地阻止用户在知识问答平台上进行抄袭的行为,节省了网络资源,维护了知识问答平台的正常良性运作。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图I是本专利技术实施例基于知识问答平台的回答排重方法的流程图;图2是利用本专利技术实施例基于知识问答平台的回答排重方法实现前端排重的流程图;图3是利用本专利技术实施例基于知识问答平台的回答排重方法实现后端排重的流程图;图4是本专利技术实施例基于知识问答平台的回答排重装置的一种结构示意图。具体实施例方式为了使本
的人员更好地理解本专利技术实施例的方案,下面结合附图和实施方式对本专利技术实施例作进一步的详细说明。通常,在问答平台上,针对某一问题的页面,会显示问题标题,文本输入框、提交按钮等信息。用户在文本输入框中输入自己的回答内容,该回答内容可以是中文和/或英文字符串。在本专利技术实施例中,用户点击提交按钮后,并不将所述用户输入的回答内容直接提交到回答数据库中,而是先对其进行排重检查,禁止与已回答内容重复的回答内容提交到回答数据库,仅将未重复的回复内容提交到回答数据库中,从而及时、有效地阻止用户在知识问答平台上进行抄袭的行为,节省网络资源,维护知识问答平台的正常良性运作。如I所示,是本专利技术实施例基于知识问答平台的回答排重方法的流程图,包括以下步骤步骤101,获取当前用户提交的回答内容。步骤102,确定所述回答内容的长度。所述回答内容可以是中文和/或英文字符串等文本内容。其中,每个汉字占用2个字符长度,每个英文字母占用I个字符长度。因此,统计该回答内容占用的字本文档来自技高网
...

【技术保护点】
一种基于知识问答平台的回答排重方法,其特征在于,包括:获取当前用户提交的回答内容;确定所述回答内容的长度;如果所述长度小于或等于预设的长度阈值,则判断所述回答内容是否为预先生成的字符串的子串,所述字符串包括其他用户已提交到回答数据库中的已回答内容和问题标题;如果是,则禁止将所述回答内容提交到所述回答数据库中;否则,将所述回答内容提交到所述回答数据库中;如果所述长度大于所述长度阈值,则将所述回答内容按所述长度阈值顺序切割为多个子段;判断所述多个子段中是否有任意一个子段为所述字符串的子串,如果是,则禁止将所述回答内容提交到所述回答数据库中;否则,将所述回答内容提交到所述回答数据库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵鹏伟
申请(专利权)人:新浪网技术中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1