【技术实现步骤摘要】
稿件基因的选取方法、装置与电子设备
本专利技术实施例涉及数据处理
,更具体地,涉及一种稿件基因的选取方法、装置与电子设备。
技术介绍
互联网高速、海量的数据中包含着种类繁多且错综复杂的文档。不同的文档,其所包含的关键信息不尽相同,则根据这些关键信息可以对不同的文档进行适于该文档的处理方式。例如,在翻译行业中,对于不同的待翻译稿件,可以根据其所包含的关键信息,来为该稿件匹配最合适的翻译人员,以有效提高翻译效率和翻译准确性。稿件与译员的基因匹配是指将译员基因与稿件基因在既定策略下通过匹配模型,实现为稿件找到最佳译员的过程。所选取的用于进行基因匹配的稿件基因与其它稿件基因相比,应该能够更好的体现待匹配稿件的差异性,如此才能为待翻译稿件匹配到更适合的译员。稿件基因主要指通过对稿件抽取若干特征并进行有效组合,形成为稿件本质刻画的相对唯一的表征。也可以认为是通过对稿件特征属性进行分析计算、量化处理,所获取到的存在于稿件的、区别于其他稿件的、独一无二的关键信息组合。稿件基因来源多种多样。稿件基因存在于所有稿件中,不同稿件具备不同的基因。由于具体应用的不同,目前存在的文档基因匹配算法在选择稿件待匹配基因进行匹配计算时,常根据经验来选择相应的基因组合。但是,互联网高速、海量的数据中稿件的种类繁多且错综复杂,上述稿件基因的选择方式会存在一定的局限性,导致选择出的稿件基因不能很好的体现稿件间的差异性。因此在进行稿件基因的选择时,更重要的是要提取差异性的基因,这样才可以差异化对待。
技术实现思路
为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供一种稿件基因的选取 ...
【技术保护点】
1.一种稿件基因的选取方法,其特征在于,包括:从备选稿件基因列表中,分别选取多组不同的基因,构成多个稿件基因组;对于每一个所述稿件基因组,进行多次匹配结果采样,获取多个匹配成功率样本,并基于所述多个匹配成功率样本,计算该稿件基因组对应的匹配成功率的均值和标准差;选取所有所述均值中的最大者对应的稿件基因组,定义为最大稿件基因组,并将所述最大稿件基因组的所述均值定义为最大均值,将所述最大稿件基因组的所述标准差定义为最大标准差;对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组,基于该稿件基因组对应的所述均值和所述标准差,以及所述最大均值和所述最大标准差,计算该稿件基因组对应的Z值;基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值,从所有所述稿件基因组中选取满足设定条件的稿件基因组,并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并,获取最终选取的稿件基因;其中,所述Z值表示大样本差异性验证中Z值。
【技术特征摘要】
1.一种稿件基因的选取方法,其特征在于,包括:从备选稿件基因列表中,分别选取多组不同的基因,构成多个稿件基因组;对于每一个所述稿件基因组,进行多次匹配结果采样,获取多个匹配成功率样本,并基于所述多个匹配成功率样本,计算该稿件基因组对应的匹配成功率的均值和标准差;选取所有所述均值中的最大者对应的稿件基因组,定义为最大稿件基因组,并将所述最大稿件基因组的所述均值定义为最大均值,将所述最大稿件基因组的所述标准差定义为最大标准差;对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组,基于该稿件基因组对应的所述均值和所述标准差,以及所述最大均值和所述最大标准差,计算该稿件基因组对应的Z值;基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值,从所有所述稿件基因组中选取满足设定条件的稿件基因组,并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并,获取最终选取的稿件基因;其中,所述Z值表示大样本差异性验证中Z值。2.根据权利要求1所述的方法,其特征在于,在所述从备选稿件基因列表中,分别选取多组不同的基因的步骤之前,还包括:分别从稿件的所有项目相关信息、稿件相关信息和过程相关信息中提取相应的基因,并对应形成稿件的项目相关基因、稿件相关基因和过程相关基因;基于所述项目相关基因、稿件相关基因和过程相关基因,构成所述备选稿件基因列表。3.根据权利要求1所述的方法,其特征在于,所述基于该稿件基因组对应的所述均值和所述标准差,以及所述最大均值和所述最大标准差,计算该稿件基因组对应的Z值的步骤进一步包括:利用如下计算公式,计算所有所述稿件基因组中,除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值:式中,Zi表示第i个稿件基因组对应的所述Z值,n表示每个稿件基因组对应的所述匹配成功率样本的个数,Ei表示第i个稿件基因组对应的所述均值,Si表示第i个稿件基因组对应的所述标准差,Emax表示所述最大均值,Smax表示所述最大标准差。4.根据权利要求3所述的方法,其特征在于,所述基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值,从所有所述稿件基因组中选取满足设定条件的稿件基因组的步骤进一步包括:若所述多个匹配成功率样本符合正态分布,则根据预设置信度确定预设Z值,并剔除所述最大稿件基因组和Z值大于所述预设Z值的稿件基因组,以所有所述稿件基因组中剩余的稿件基因组作为所述...
【专利技术属性】
技术研发人员:张芃,
申请(专利权)人:语联网武汉信息技术有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。