文本特征值的提取方法、装置及电子设备制造方法及图纸

技术编号:17812846 阅读:66 留言:0更新日期:2018-04-28 05:34
本发明专利技术实施例提供的一种文本特征值的提取方法、装置及电子设备。通过将待提取特征值的文本中的字符转换为对应的编码,得到编码序列,按照编码序列的预设顺序,从编码序列的当前提取位置,提取第一预设数量的多个编码,将提取的多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果,再将多个编码的混淆结果求和,得到针对当前提取位置的叠加值;当叠加值在预设范围内时,按照预设顺序,选取与当前提取位置相隔第二预设数量的编码;使用选取的编码,确定出文本的针对当前提取位置的特征值,从而生成包含文本结构信息的特征序列,消除了对特定语言的限制,增强了提取文本特征值的通用性。

【技术实现步骤摘要】
文本特征值的提取方法、装置及电子设备
本专利技术涉及计算机应用
,特别是涉及一种文本特征值的提取方法、装置及电子设备。
技术介绍
在新闻网页抓取过程中,往往遇到不同网站转载同一篇新闻文本,或同一媒体对某一事件持续报道并连续更新该新闻页面。在为用户提供新闻文本时,此类新闻文本应当合并为同一篇新闻文本,避免用户看到重复的新闻文本,从而提升用户体验。为高效检索相似文本,需要将较长的文本转换为较短的特征序列,通过对文本较短的特征序列的相似性比对,实现相似文本的检索。目前主要通过文本排重的方法检测相似的文本特征序列,从而检测到相似的文本。文本排重的特征序列算法主要有simhash算法和spotsig算法。simhash算法是将文本转换为定长特征序列,转换后的特征序列会丢失了文章的结构信息,无法用于检测段落增删导致的文章差异;spotsig算法是根据文本中的指定的特征词生成变长特征序列。以英文为例,spotsig算法以常用词is、to、be、for、in作为锚点特征。可以假设在英文文本段落中上述词在文本中均匀分布,因此,在全文中找出上述所有冠词的位置作为锚点,以冠词后面第一个英文字母作为锚点对应的特征值,将所有特征值连接起来,即可得到代表文档信息的特征序列。例如对于以下文本:Thisdomainisestablishedtobeusedforillustrativeexamplesindocuments.Youmayusethisdomaininexampleswithoutpriorcoordinationoraskingforpermission.按照文本阅读顺序,其is、to、be、for、in五个词后面的第一个英文字母如表1所示:表1由表1可知,由规定的锚点位置生成的代表上述文本的特征序列为ebuidep。如果将上述文本修改为如下:Forexample,thisdomainisestablishedtobeusedforillustrativeexamplesindocuments.Youmayusethisdomaininexampleswithoutpriorcoordination.按照上述规则可以得到新的特征串eebuide,对比两个特征序列,以1表示相同部分,0表示不同部分,则可以得到序列01111110,如表2所示:表2ebuidepeebuide01111110从表2可知,两段文本首尾部分有差异,但主体内容匹配,可以认为是相似文本。可见,spotsig算法以锚点确定特征词的位置,当文章删除段落时,保留下来的段落所对应的特征词及其顺序保持不变,只是被删掉的段落对应的特征词也被删掉,对比两个特征序列里面特征值出现的位置,就可以知道被删除段落的相应位置。因此,spotsig算法不会丢失文章的结构信息。然而,spotsig算法依赖于特定的语言,针对不同语言需要制定不同的特征词,如中文文本可以将“的”、“了”等常用字作为锚点,且无法适用于非文本类型数据(如二进制文件)的特征提取,通用性较差。
技术实现思路
本专利技术实施例的目的在于提供一种文本特征值的提取方法、装置及电子设备,以实现消除了对特定语言的限制,增强了提取文本特征值的通用性。具体技术方案如下:第一方面提供了一种文本特征值的提取方法,该方法可以包括:将待提取特征值的文本中的字符转换为对应的编码,得到包含编码的编码序列,针对编码序列执行如下步骤:步骤A:按照编码序列的预设顺序,从编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始位置;步骤B:将提取的多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果;步骤C:将多个编码的混淆结果求和,得到针对当前提取位置的叠加值;步骤D:当叠加值在预设范围内时,按照预设顺序,选取与当前提取位置相隔第二预设数量的编码;步骤E:使用选取的编码,确定出文本的针对当前提取位置的特征值。在一个可选的示例中,该方法还包括:当叠加值不在预设范围内时,按照所述预设顺序,将当前提取位置的下一个位置,确定为新的当前提取位置,并返回步骤A。在一个可选的示例中,选取与当前提取位置相隔第二预设数量的编码之后,该方法还包括:将选取的该编码的下一个位置,确定为新的当前提取位置,并返回步骤A。在一个可选的示例中,使用选取的该编码,确定出文本的针对当前提取位置的特征值,包括:将选取的该编码,确定为文本的针对当前提取位置的特征值;或者将选取的该编码输入预设序列位置函数,得到序列位置,并在预设字符序列中,确定序列位置对应的字符,作为文本的针对当前提取位置的特征值。在一个可选的示例中,该方法还包括:将针对编码序列确定出的多个特征值,按照先后顺序组成文本的特征序列。在一个可选的示例中,待提取特征值的文本包括英文字符、汉字字符、数字字符或二进制序列。第二方面,提供了一种提取装置,该装置可以包括:转换模块、提取模块、运算模块、求和模块和选取模块;转换模块,用于将待提取特征值的文本中的字符转换为对应的编码,得到包含编码的编码序列;提取模块,用于按照编码序列的预设顺序,从编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始位置;运算模块,用于将提取的多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果;求和模块,用于将多个编码的混淆结果求和,得到针对当前提取位置的叠加值;选取模块,用于当叠加值在预设范围内时,按照预设顺序,选取与当前提取位置相隔第二预设数量的编码;确定模块,用于使用选取的编码,确定出文本的针对当前提取位置的特征值。在一个可选的示例中,确定模块还用于,当叠加值不在预设范围内时,按照预设顺序,将当前提取位置的下一个位置,确定为新的当前提取位置,并触发提取模块。在一个可选的示例中,选取模块选取与当前提取位置相隔第二预设数量的编码之后,确定模块,具体用于将选取的该编码的下一个位置,确定为新的当前提取位置,并触发提取模块。在一个可选的示例中,确定模块,具体用于将选取的该编码,确定为文本的针对当前提取位置的特征值;或者将选取的该编码输入预设序列位置函数,得到序列位置,并在预设字符序列中,确定序列位置对应的字符,作为文本的针对当前提取位置的特征值。在一个可选的示例中,该装置还包括排序模块;排序模块,用于将针对编码序列确定出的多个特征值,按照先后顺序组成文本的特征序列。在一个可选的示例中,待提取特征值的文本包括英文字符、汉字字符、数字字符或二进制序列。第三方面,提供一种电子设备,该电子设备可以包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的文本特征值的提取方法。在本专利技术实施的又一方面,本专利技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的文本特征值的提取方法。本专利技术实施例提供的一种文本特征值的提取方法、装置及电子本文档来自技高网
...
文本特征值的提取方法、装置及电子设备

【技术保护点】
一种文本特征值的提取方法,其特征在于,所述方法包括:将待提取特征值的文本中的字符转换为对应的编码,得到包含所述编码的编码序列,针对所述编码序列执行如下步骤:步骤A:按照所述编码序列的预设顺序,从所述编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始提取位置;步骤B:将提取的所述多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果;步骤C:将所述多个编码的混淆结果求和,得到针对所述当前提取位置的叠加值;步骤D:当所述叠加值在预设范围内时,按照所述预设顺序,选取与所述当前提取位置相隔第二预设数量的编码;步骤E:使用选取的所述编码,确定出所述文本的针对所述当前提取位置的特征值。

【技术特征摘要】
1.一种文本特征值的提取方法,其特征在于,所述方法包括:将待提取特征值的文本中的字符转换为对应的编码,得到包含所述编码的编码序列,针对所述编码序列执行如下步骤:步骤A:按照所述编码序列的预设顺序,从所述编码序列的当前提取位置,提取第一预设数量的多个编码,其中,首次提取时的当前提取位置为预设初始提取位置;步骤B:将提取的所述多个编码,采用预设混淆算法进行混淆运算,得到每个编码的混淆结果;步骤C:将所述多个编码的混淆结果求和,得到针对所述当前提取位置的叠加值;步骤D:当所述叠加值在预设范围内时,按照所述预设顺序,选取与所述当前提取位置相隔第二预设数量的编码;步骤E:使用选取的所述编码,确定出所述文本的针对所述当前提取位置的特征值。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述叠加值不在预设范围内时,按照所述预设顺序,将所述当前提取位置的下一个位置,确定为新的当前提取位置,并返回步骤A。3.根据权利要求1所述的方法,其特征在于,在所述选取与所述当前提取位置相隔第二预设数量的编码之后,所述方法还包括:将选取的该编码的下一个位置,确定为新的当前提取位置,并返回步骤A。4.根据权利要求1-3任一项所述的方法,其特征在于,所述使用选取的该编码,确定出所述文本的针对所述当前提取位置的特征值,包括:将选取的该编码,确定为所述文本的针对所述当前提取位置的特征值;或者将选取的该编码输入预设序列位置函数,得到序列位置,并在预设字符序列中,确定所述序列位置对应的字符,作为所述文本的针对所述当前提取位置的特征值。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将针对所述编码序列确定出的多个特征值,按照先后顺序组成所述文本的特征序列;将所述特征值按照选取的先...

【专利技术属性】
技术研发人员:米明恒
申请(专利权)人:珠海市君天电子科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1