文本关键词的提取方法、装置及电子设备制造方法及图纸

技术编号:17596961 阅读:67 留言:0更新日期:2018-03-31 10:10
本发明专利技术实施例提供了一种文本关键词的提取方法、装置及电子设备。该方法可以包括:获取待提取关键词的输入文本;按照输入文本中字符的预设顺序,从输入文本的首字符位置,以一个字符为步长,依次提取预设提取数量的多个字符串;针对多个字符串中的每个字符串,将该字符串中每个字符的编码,采用预设混淆算法进行混淆运算,得到混淆结果,并将得到的该字符串中每个字符的混淆结果求和,得到该字符串的叠加值;对多个字符串中满足预设条件的字符串,按照叠加值的预设大小顺序进行排序,得到排序后的字符串;选取排序后的字符串中,排在前面且与预设关键词数量相同的字符串,确定为输入文本的关键词,提高了相似文本检索精度和效率。

Extraction methods, devices and electronic devices for text key words

An embodiment of the invention provides an extraction method, a device and an electronic device for a text key word. The method includes: obtaining the to be extracted from the input text keywords; according to the characters in the input text to the default order, from the input text the first character position to a character extraction step, followed by extraction of multiple strings preset quantity; for each string of a string, each character in the string use the default encoding, obfuscation algorithms operation of confusion, get confused results, and will get every character of the string in the confusion of the sum, overlapping the string value; a plurality of string string satisfies the preset condition, sorted according to the superposition value preset order of size, are sorted string selection; after sorting the string, in the front row and the same number of predetermined keyword string, identified as keyword input text, improve The accuracy and efficiency of similar text retrieval.

【技术实现步骤摘要】
文本关键词的提取方法、装置及电子设备
本专利技术涉及计算机应用
,特别是涉及一种文本关键词的提取方法、装置及电子设备。
技术介绍
在新闻网页抓取过程中,往往遇到不同网站转载同一篇新闻文本,或同一媒体对某一事件持续报道并连续更新该新闻页面。在为用户提供新闻文本时,此类新闻文本应当合并为同一篇文本,避免用户重复看到针对同一事件的新闻文本,从而提升用户体验。目前可以通过文本排重技术对文本进行检测,文本排重技术可以分为特征对比算法以及全文检索算法等。其中,全文检索算法需要保留文本的全部内容,即对文本的全部内容进行检索,导致资源占用率高,检索效率低,因此应用较少。特征对比算法是将文本先提取可以代表文本,但长度很短的关键词,然后通过对比关键词的相似度来判定文本的相似度,即针对同一事件的多个相似文本的关键词相同或相似。其中,现有的关键词提取算法主要通过对输入文本中的分词或输入文本中的字符等进行间隔抽样的方式来获取关键词。例如,对于输入文本abcdefghijk,若采取固定间隔抽样,且规定间隔为2个字符,则可以得到的该输入文本的关键词分别为a、d、g、j。然而,当针对某一事件的输入文本发生增删本文档来自技高网...
文本关键词的提取方法、装置及电子设备

【技术保护点】
一种文本关键词的提取方法,其特征在于,所述方法包括:获取待提取关键词的输入文本;按照所述输入文本中字符的预设顺序,从初始提取位置,以一个字符为步长,依次提取预设提取数量的多个字符串,所述初始提取位置为所述输入文本的首字符位置;针对所述多个字符串中的每个字符串,将该字符串中每个字符的编码,采用预设混淆算法进行混淆运算,得到混淆结果,并将得到的该字符串中每个字符的混淆结果求和,得到该字符串的叠加值;对所述多个字符串中满足预设条件的字符串,按照叠加值的预设大小顺序进行排序,得到排序后的字符串;选取排序后的字符串中,排在前面且与预设关键词数量相同的字符串,确定为所述输入文本的关键词。

【技术特征摘要】
1.一种文本关键词的提取方法,其特征在于,所述方法包括:获取待提取关键词的输入文本;按照所述输入文本中字符的预设顺序,从初始提取位置,以一个字符为步长,依次提取预设提取数量的多个字符串,所述初始提取位置为所述输入文本的首字符位置;针对所述多个字符串中的每个字符串,将该字符串中每个字符的编码,采用预设混淆算法进行混淆运算,得到混淆结果,并将得到的该字符串中每个字符的混淆结果求和,得到该字符串的叠加值;对所述多个字符串中满足预设条件的字符串,按照叠加值的预设大小顺序进行排序,得到排序后的字符串;选取排序后的字符串中,排在前面且与预设关键词数量相同的字符串,确定为所述输入文本的关键词。2.根据权利要求1所述的方法,其特征在于,所述预设关键词数量是基于所述输入文本的长度和预设关键词提取比例确定的。3.根据权利要求2所述的方法,其特征在于,所述预设关键词数量是采用如下表达式表示确定的:N=int(L*r);其中,int()为取整函数,L为所述输入文本的长度,r为预设关键词提取比例,N和L均为正整数,0<r<1。4.根据权利要求1所述的方法,其特征在于,所述排序后的字符串中叠加值相同的字符串,是按照从前到后的提取顺序进行排序的。5.根据权利要求1所述的方法,其特征在于,所述依次提取预设提取数量的多个字符串之后,所述方法还包括:基于所述多个字符串中每个字符串的提取位置与所述预设提取数量,确定每个字符串对应的提取区域;对所述多个字符串中满足预设条件的字符串,按照叠加值的预设大小顺序进行排序,得到排序后的字符串,包括:对所述多个字符串,按照叠加值的预设大小顺序进行排序,得到第一排序结果;从所述多个字符串中选取出提取区域无重叠的多个字符串,作为多个待排序字符串,其中,所述第一排序结果靠前的字符串优先选取;对所述多个待排序字符串,按照叠加值的所述预设大小顺序进行排...

【专利技术属性】
技术研发人员:米明恒
申请(专利权)人:珠海市君天电子科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1