稿件基因的选取方法、装置与电子设备制造方法及图纸

技术编号:20273574 阅读:23 留言:0更新日期:2019-02-02 04:02
本发明专利技术实施例提供一种稿件基因的选取方法、装置与电子设备,该方法包括:分别选取多个稿件基因组;对于每个稿件基因组,获取多个匹配成功率样本,并据此计算该稿件基因组对应的匹配成功率的均值和标准差;选取所有均值中的最大者对应的稿件基因组作为最大稿件基因组,并将其均值和标准差分别定义为最大均值和最大标准差;对于除最大稿件基因组之外的每个稿件基因组,基于其对应的均值和标准差,以及最大均值和最大标准差,计算其对应的Z值;基于每个稿件基因组对应的Z值,将满足设定条件的稿件基因组中的基因和最大稿件基因组中的基因合并,获取最终选取的稿件基因。本发明专利技术实施例能够使得选取出的稿件基因能够更好的体现稿件间的差异性。

【技术实现步骤摘要】
稿件基因的选取方法、装置与电子设备
本专利技术实施例涉及数据处理
,更具体地,涉及一种稿件基因的选取方法、装置与电子设备。
技术介绍
互联网高速、海量的数据中包含着种类繁多且错综复杂的文档。不同的文档,其所包含的关键信息不尽相同,则根据这些关键信息可以对不同的文档进行适于该文档的处理方式。例如,在翻译行业中,对于不同的待翻译稿件,可以根据其所包含的关键信息,来为该稿件匹配最合适的翻译人员,以有效提高翻译效率和翻译准确性。稿件与译员的基因匹配是指将译员基因与稿件基因在既定策略下通过匹配模型,实现为稿件找到最佳译员的过程。所选取的用于进行基因匹配的稿件基因与其它稿件基因相比,应该能够更好的体现待匹配稿件的差异性,如此才能为待翻译稿件匹配到更适合的译员。稿件基因主要指通过对稿件抽取若干特征并进行有效组合,形成为稿件本质刻画的相对唯一的表征。也可以认为是通过对稿件特征属性进行分析计算、量化处理,所获取到的存在于稿件的、区别于其他稿件的、独一无二的关键信息组合。稿件基因来源多种多样。稿件基因存在于所有稿件中,不同稿件具备不同的基因。由于具体应用的不同,目前存在的文档基因匹配算法在选择稿件待匹配基因进行匹配计算时,常根据经验来选择相应的基因组合。但是,互联网高速、海量的数据中稿件的种类繁多且错综复杂,上述稿件基因的选择方式会存在一定的局限性,导致选择出的稿件基因不能很好的体现稿件间的差异性。因此在进行稿件基因的选择时,更重要的是要提取差异性的基因,这样才可以差异化对待。
技术实现思路
为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供一种稿件基因的选取方法、装置与电子设备,用以使得选取出的稿件基因能够更好的体现稿件间的差异性。第一方面,本专利技术实施例提供一种稿件基因的选取方法,包括:从备选稿件基因列表中,分别选取多组不同的基因,构成多个稿件基因组;对于每一个所述稿件基因组,进行多次匹配结果采样,获取多个匹配成功率样本,并基于所述多个匹配成功率样本,计算该稿件基因组对应的匹配成功率的均值和标准差;选取所有所述均值中的最大者对应的稿件基因组,定义为最大稿件基因组,并将所述最大稿件基因组的所述均值定义为最大均值,将所述最大稿件基因组的所述标准差定义为最大标准差;对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组,基于该稿件基因组对应的所述均值和所述标准差,以及所述最大均值和所述最大标准差,计算该稿件基因组对应的Z值;基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值,从所有所述稿件基因组中选取满足设定条件的稿件基因组,并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并,获取最终选取的稿件基因;其中,所述Z值表示大样本差异性验证中Z值。第二方面,本专利技术实施例提供一种稿件基因的选取装置,包括:初始基因选取模块,用于从备选稿件基因列表中,分别选取多组不同的基因,构成多个稿件基因组;第一计算模块,用于对于每一个所述稿件基因组,进行多次匹配结果采样,获取多个匹配成功率样本,并基于所述多个匹配成功率样本,计算该稿件基因组对应的匹配成功率的均值和标准差;最大基因组选取模块,用于选取所有所述均值中的最大者对应的稿件基因组,定义为最大稿件基因组,并将所述最大稿件基因组的所述均值定义为最大均值,将所述最大稿件基因组的所述标准差定义为最大标准差;第二计算模块,用于对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组,基于该稿件基因组对应的所述均值和所述标准差,以及所述最大均值和所述最大标准差,计算该稿件基因组对应的Z值;最终基因选取模块,用于基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值,从所有所述稿件基因组中选取满足设定条件的稿件基因组,并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并,获取最终选取的稿件基因;其中,所述Z值表示大样本差异性验证中Z值。第三方面,本专利技术实施例提供一种电子设备,包括:至少一个存储器、至少一个处理器、通信接口和总线;所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述电子设备与稿件信息设备之间的信息传输;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的稿件基因的选取方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上第一方面所述的稿件基因的选取方法。本专利技术实施例提供的稿件基因的选取方法、装置与电子设备,通过预先从所有稿件的稿件基因池中选取多组稿件基因组,并通过计算这些稿件基因组所对应的Z值,来选取Z值满足设定条件的稿件基因组,以作为最终的选取结果,使得选取出的稿件基因能够更好的体现稿件间的差异性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的稿件基因的选取方法的流程示意图;图2为根据本专利技术实施例提供的稿件基因的选取方法中提取稿件基因的流程示意图;图3为本专利技术实施例提供的稿件基因的选取装置的结构示意图;图4为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术实施例的一部分实施例,而不是全部的实施例。基于本专利技术实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术实施例保护的范围。互联网高速、海量的数据中包含着种类繁多且错综复杂的文档。不同的文档,其所包含的关键信息不尽相同。由于具体应用的不同,目前存在的文档基因匹配算法在选择稿件待匹配基因进行匹配计算时,常根据经验来选择相应的基因组合。但传统方法具有一定的局限性,导致选择出的稿件基因不能很好的体现稿件的差异性等的问题。针对上述问题,本专利技术实施例通过预先从所有稿件的稿件基因池中选取多组稿件基因组,并通过计算这些稿件基因组所对应的Z值,来选取Z值满足设定条件的稿件基因组,以作为最终的选取结果,使得选取出的稿件基因能够更好的体现稿件间的差异性。其中,Z值表示大样本差异性验证中Z值。作为本专利技术实施例的一个方面,本实施例提供一种稿件基因的选取方法,参考图1,为本专利技术实施例提供的稿件基因的选取方法的流程示意图,包括:S101,从备选稿件基因列表中,分别选取多组不同的基因,构成多个稿件基因组。可以理解为,在进行本实施例的稿件基因选取之前,事先会根据稿件的所有属性信息建立一个备选稿件基因列表,该备选稿件基因列表中可以包含与稿件特定属性相关的所有基因。具体的,该备选稿件基因列表可以认为是一个基因池,在该基因池中以基因为单位存放有从所有稿件中提取的与稿件信息相关的基因,即稿件基因。稿件基因主要指本文档来自技高网...

【技术保护点】
1.一种稿件基因的选取方法,其特征在于,包括:从备选稿件基因列表中,分别选取多组不同的基因,构成多个稿件基因组;对于每一个所述稿件基因组,进行多次匹配结果采样,获取多个匹配成功率样本,并基于所述多个匹配成功率样本,计算该稿件基因组对应的匹配成功率的均值和标准差;选取所有所述均值中的最大者对应的稿件基因组,定义为最大稿件基因组,并将所述最大稿件基因组的所述均值定义为最大均值,将所述最大稿件基因组的所述标准差定义为最大标准差;对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组,基于该稿件基因组对应的所述均值和所述标准差,以及所述最大均值和所述最大标准差,计算该稿件基因组对应的Z值;基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值,从所有所述稿件基因组中选取满足设定条件的稿件基因组,并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并,获取最终选取的稿件基因;其中,所述Z值表示大样本差异性验证中Z值。

【技术特征摘要】
1.一种稿件基因的选取方法,其特征在于,包括:从备选稿件基因列表中,分别选取多组不同的基因,构成多个稿件基因组;对于每一个所述稿件基因组,进行多次匹配结果采样,获取多个匹配成功率样本,并基于所述多个匹配成功率样本,计算该稿件基因组对应的匹配成功率的均值和标准差;选取所有所述均值中的最大者对应的稿件基因组,定义为最大稿件基因组,并将所述最大稿件基因组的所述均值定义为最大均值,将所述最大稿件基因组的所述标准差定义为最大标准差;对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组,基于该稿件基因组对应的所述均值和所述标准差,以及所述最大均值和所述最大标准差,计算该稿件基因组对应的Z值;基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值,从所有所述稿件基因组中选取满足设定条件的稿件基因组,并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并,获取最终选取的稿件基因;其中,所述Z值表示大样本差异性验证中Z值。2.根据权利要求1所述的方法,其特征在于,在所述从备选稿件基因列表中,分别选取多组不同的基因的步骤之前,还包括:分别从稿件的所有项目相关信息、稿件相关信息和过程相关信息中提取相应的基因,并对应形成稿件的项目相关基因、稿件相关基因和过程相关基因;基于所述项目相关基因、稿件相关基因和过程相关基因,构成所述备选稿件基因列表。3.根据权利要求1所述的方法,其特征在于,所述基于该稿件基因组对应的所述均值和所述标准差,以及所述最大均值和所述最大标准差,计算该稿件基因组对应的Z值的步骤进一步包括:利用如下计算公式,计算所有所述稿件基因组中,除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值:式中,Zi表示第i个稿件基因组对应的所述Z值,n表示每个稿件基因组对应的所述匹配成功率样本的个数,Ei表示第i个稿件基因组对应的所述均值,Si表示第i个稿件基因组对应的所述标准差,Emax表示所述最大均值,Smax表示所述最大标准差。4.根据权利要求3所述的方法,其特征在于,所述基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值,从所有所述稿件基因组中选取满足设定条件的稿件基因组的步骤进一步包括:若所述多个匹配成功率样本符合正态分布,则根据预设置信度确定预设Z值,并剔除所述最大稿件基因组和Z值大于所述预设Z值的稿件基因组,以所有所述稿件基因组中剩余的稿件基因组作为所述...

【专利技术属性】
技术研发人员:张芃
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1