信息输出方法和装置制造方法及图纸

技术编号:18050174 阅读:80 留言:0更新日期:2018-05-26 08:09
本申请实施例公开了信息输出方法和装置。该方法的一具体实施方式包括:分别从待检测文本和多个历史文本中提取特征词;基于所提取的特征词,确定该多个历史文本中的至少一个候选历史文本;确定该至少一个候选历史文本中的各个候选历史文本与该待检测文本的文本重复度;基于所确定的文本重复度和预设重复度阈值的比较,确定该至少一个候选历史文本中的目标历史文本,并输出该目标历史文本。该实施方式提高了信息输出的灵活性。

【技术实现步骤摘要】
信息输出方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及信息输出方法和装置。
技术介绍
随着计算机技术的发展,移动互联网迎来了全民自媒体的时代。随着原创作品的日渐丰富,抄袭的现象也越来越多。因此,需要对用户发布的作品进行重复度检测,确定其是否为抄袭作品。现有的方式通常是直接检索两篇文章中相同句子的数量,将相同句子的数量与待检测文章中的句子总数的比值作为重复度,来判断待检测文章的抄袭程度,进而输出用于表征该重复度的数值。
技术实现思路
本申请实施例提出了信息输出方法和装置。第一方面,本申请实施例提供了一种信息输出方法,该方法包括:分别从待检测文本和多个历史文本中提取特征词;基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本;确定至少一个候选历史文本中的各个候选历史文本与待检测文本的文本重复度,其中,文本重复度用于表征文本的相似程度;基于所确定的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本。在一些实施例中,分别从待检测文本和多个历史文本中提取特征词,包括:分别对待检测文本和多个历史文本中的各个历史文本进行分词;对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量的词,将所选取的词确定为该文本的特征词。在一些实施例中,基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本,包括:对于多个历史文本中的每一个历史文本,确定该历史文本与待检测文本的共同特征词,并确定共同特证词在该历史文本中的权重与共同特证词在待检测文本中的权重的和;将所确定的权重的和中的、大于预设数值的和所对应的历史文本确定为候选历史文本。在一些实施例中,在对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取预设数量的词,将所选取的词确定为该文本的特征词之后,该方法还包括:对于从历史文本中所提取的每一个特征词,将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引,其中,关联历史文本信息包括关联历史文本的标识、该特征词在关联历史文本中的权重和关联历史文本的发布时间;将所建立的各个索引归入倒排索引列表。在一些实施例中,基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本,包括:将从待检测文本所提取的特征词作为目标特征词,从倒排索引列表中检索与目标特征词相对应的索引;从检索到的索引所对应的关联历史文本信息中提取目标特征词在与目标特征词在相对应的各个关联历史文本中的权重;对于与目标特征词相对应的每一个关联历史文本,确定目标特征词在待检测文本中的权重与目标特征词在该关联历史文本中的权重的和;将所确定的权重的和中的、大于预设数值的和所对应的关联历史文本确定为候选历史文本。在一些实施例中,基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本,还包括:响应于确定所确定的权重的和中不存在大于预设数值的和,按照权重的和从大到小的顺序选取第二预设数量的关联历史文本,将所选取的关联历史文本确定为候选历史文本。在一些实施例中,确定至少一个候选历史文本中的各个候选历史文本与待检测文本的文本重复度,包括:对于待检测文本和至少一个候选历史文本中的每一个文本,对该文本进行分词,按照预设的词数范围将该文本的词语组成短句,并计算该文本中的各个短句在该本文中的权重;提取该文本的关键词,计算所提取的关键词在该文本中的权重;对于至少一个候选历史文本中的每一个候选历史文本,确定该候选历史文本与待检测文本的共同短句和构成该候选历史文本的词语总数;确定共同短句在该候选历史文本中的权重与共同短句在待检测文本中的权重的和,并将和与词语总数的比值确定为该候选历史文本与待检测文本的句子重复度;确定该候选历史文本的关键词与待检测文本的关键词的相似度,并将相似度确定为该候选历史文本与待检测文本的词语相似度;将句子重复度和词语相似度进行融合,确定该候选历史文本与待检测文本的文本重复度。在一些实施例中,基于所确定的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本,包括:确定至少一个候选历史文本中的、文本重复度大于预设重复度阈值的候选历史文本的发布时间;将所确定的、发布时间最早的候选历史文本确定为目标历史文本,并输出目标历史文本。在一些实施例中,基于所确定的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本,还包括:响应于确定至少一个候选历史文本中不存在文本重复度大于预设重复度阈值的候选历史文本,将文本重复度最大的候选历史文本确定为目标历史文本,并输出目标历史文本。第二方面,本申请实施例提供了一种信息输出装置,该装置包括:提取单元,配置用于分别从待检测文本和多个历史文本中提取特征词;第一确定单元,配置用于基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本;第二确定单元,配置用于确定至少一个候选历史文本中的各个候选历史文本与待检测文本的文本重复度,其中,文本重复度用于表征文本的相似程度;输出单元,配置用于基于所确定的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本。在一些实施例中,提取单元包括:分词模块,配置用于分别对待检测文本和多个历史文本中的各个历史文本进行分词;第一确定模块,配置用于对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量的词,将所选取的词确定为该文本的特征词。在一些实施例中,第一确定单元包括:第二确定模块,配置用于对于多个历史文本中的每一个历史文本,确定该历史文本与待检测文本的共同特征词,并确定共同特证词在该历史文本中的权重与共同特证词在待检测文本中的权重的和;第三确定模块,配置用于将所确定的权重的和中的、大于预设数值的和所对应的历史文本确定为候选历史文本。在一些实施例中,该装置还包括:建立单元,配置用于对于从历史文本中所提取的每一个特征词,将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引,其中,关联历史文本信息包括关联历史文本的标识、该特征词在关联历史文本中的权重和关联历史文本的发布时间;归入单元,配置用于将所建立的各个索引归入倒排索引列表。在一些实施例中,第一确定单元包括:检索模块,配置用于将从待检测文本所提取的特征词作为目标特征词,从倒排索引列表中检索与目标特征词相对应的索引;提取模块,配置用于从检索到的索引所对应的关联历史文本信息中提取目标特征词在与目标特征词在相对应的各个关联历史文本中的权重;第四确定模块,配置用于对于与目标特征词相对应的每一个关联历史文本,确定目标特征词在待检测文本中的权重与目标特征词在该关联历史文本中的权重的和;第五确定模块,配置用于将所确定的权重的和中的、大于预设数值的和所对应的关联历史文本确定为候选历史文本。在一些实施例中,第一确定单元还包括:第六确定模块,配置用于响应于确定所确定的权重的和中不存在大于预设数值的和,按照权重本文档来自技高网...
信息输出方法和装置

【技术保护点】
一种信息输出方法,包括:分别从待检测文本和多个历史文本中提取特征词;基于所提取的特征词,确定所述多个历史文本中的至少一个候选历史文本;确定所述至少一个候选历史文本中的各个候选历史文本与所述待检测文本的文本重复度,其中,文本重复度用于表征文本的相似程度;基于所确定的文本重复度和预设重复度阈值的比较,确定所述至少一个候选历史文本中的目标历史文本,并输出所述目标历史文本。

【技术特征摘要】
1.一种信息输出方法,包括:分别从待检测文本和多个历史文本中提取特征词;基于所提取的特征词,确定所述多个历史文本中的至少一个候选历史文本;确定所述至少一个候选历史文本中的各个候选历史文本与所述待检测文本的文本重复度,其中,文本重复度用于表征文本的相似程度;基于所确定的文本重复度和预设重复度阈值的比较,确定所述至少一个候选历史文本中的目标历史文本,并输出所述目标历史文本。2.根据权利要求1所述的信息输出方法,其中,所述分别从待检测文本和多个历史文本中提取特征词,包括:分别对待检测文本和多个历史文本中的各个历史文本进行分词;对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量的词,将所选取的词确定为该文本的特征词。3.根据权利要求2所述的信息输出方法,其中,所述基于所提取的特征词,确定所述多个历史文本中的至少一个候选历史文本,包括:对于所述多个历史文本中的每一个历史文本,确定该历史文本与所述待检测文本的共同特征词,并确定所述共同特证词在该历史文本中的权重与所述共同特证词在所述待检测文本中的权重的和;将所确定的权重的和中的、大于预设数值的和所对应的历史文本确定为候选历史文本。4.根据权利要求2所述的信息输出方法,其中,在所述对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取预设数量的词,将所选取的词确定为该文本的特征词之后,所述方法还包括:对于从历史文本中所提取的每一个特征词,将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引,其中,所述关联历史文本信息包括所述关联历史文本的标识、该特征词在所述关联历史文本中的权重和所述关联历史文本的发布时间;将所建立的各个索引归入倒排索引列表。5.根据权利要求4所述的信息输出方法,其中,所述基于所提取的特征词,确定所述多个历史文本中的至少一个候选历史文本,包括:将从所述待检测文本所提取的特征词作为目标特征词,从所述倒排索引列表中检索与所述目标特征词相对应的索引;从检索到的索引所对应的关联历史文本信息中提取所述目标特征词在与所述目标特征词在相对应的各个关联历史文本中的权重;对于与所述目标特征词相对应的每一个关联历史文本,确定所述目标特征词在所述待检测文本中的权重与所述目标特征词在该关联历史文本中的权重的和;将所确定的权重的和中的、大于预设数值的和所对应的关联历史文本确定为候选历史文本。6.根据权利要求5所述的信息输出方法,其中,所述基于所提取的特征词,确定所述多个历史文本中的至少一个候选历史文本,还包括:响应于确定所确定的权重的和中不存在大于所述预设数值的和,按照权重的和从大到小的顺序选取第二预设数量的关联历史文本,将所选取的关联历史文本确定为候选历史文本。7.根据权利要求1所述的信息输出方法,其中,所述确定所述至少一个候选历史文本中的各个候选历史文本与所述待检测文本的文本重复度,包括:对于所述待检测文本和所述至少一个候选历史文本中的每一个文本,对该文本进行分词,按照预设的词数范围将该文本的词语组成短句,并计算该文本中的各个短句在该本文中的权重;提取该文本的关键词,计算所提取的关键词在该文本中的权重;对于所述至少一个候选历史文本中的每一个候选历史文本,确定该候选历史文本与所述待检测文本的共同短句和构成该候选历史文本的词语总数;确定所述共同短句在该候选历史文本中的权重与所述共同短句在所述待检测文本中的权重的和,并将所述和与所述词语总数的比值确定为该候选历史文本与所述待检测文本的句子重复度;确定该候选历史文本的关键词与所述待检测文本的关键词的相似度,并将所述相似度确定为该候选历史文本与所述待检测文本的词语相似度;将所述句子重复度和所述词语相似度进行融合,确定该候选历史文本与所述待检测文本的文本重复度。8.根据权利要求1所述的信息输出方法,其中,所述基于所确定的文本重复度和预设重复度阈值的比较,确定所述至少一个候选历史文本中的目标历史文本,并输出所述目标历史文本,包括:确定所述至少一个候选历史文本中的、文本重复度大于预设重复度阈值的候选历史文本的发布时间;将所确定的、发布时间最早的候选历史文本确定为目标历史文本,并输出所述目标历史文本。9.根据权利要求8所述的信息输出方法,其中,所述基于所确定的文本重复度和预设重复度阈值的比较,确定所述至少一个候选历史文本中的目标历史文本,并输出所述目标历史文本,还包括:响应于确定所述至少一个候选历史文本中不存在文本重复度大于所述预设重复度阈值的候选历史文本,将文本重复度最大的候选历史文本确定为目标历史文本,并输出所述目标历史文本。10.一种信息输出装置,包括:提取单元,配置用于分别...

【专利技术属性】
技术研发人员:黄波李大任
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1