一种数据采集方法、装置、芯片及终端制造方法及图纸

技术编号:39293926 阅读:8 留言:0更新日期:2023-11-07 11:01
本发明专利技术实施例公开了一种数据采集方法、装置、芯片及终端,该方法通过提取待搜索文本的主题关键词,基于主题关键词确定目标主题,基于目标主题从预设的资源地址中采集至少一个网页文本,并利用TextRank算法提取网页文本中的关键词得到关键词集合,基于关键词集合中的关键词通过TDSS算法计算各网页文档与目标主题之间的相似度,进而确定目标网页。本方法在基于待搜索文本的确定目标主题之后,还基于网页文本的关键词进行数据采集,提高了主题相关度;此外,通过TextRank算法提取关键词考虑语料中的语义信息,对于主题类文本的提取能力较强,使用TDSS算法计算相似度可以保证召回率较高。高。高。

【技术实现步骤摘要】
一种数据采集方法、装置、芯片及终端


[0001]本专利技术涉及人工智能
,特别是涉及一种数据采集方法、装置、芯片及终端。

技术介绍

[0002]数据收集已是目前做数据分析或者神经网络训练的重要部分,目前收集数据的主要方式是通过搜索引擎从网络上爬取或者是数据积累,而从网络上爬取的方式主要是基于关键词或者正则表达式构建的方式从网络上抓取。
[0003]但是这种检索仅是基于设定的关键词或者关键词的语义来实现检索,而现在的网络词语不断更新的形势,该种方式得到的数据过于偏面,导致爬取的内容存在低召回率的问题。

技术实现思路

[0004]基于此,本专利技术提供一种数据采集方法、装置、芯片及存储介质,可以解决现有技术采集数据的召回率低的技术问题。
[0005]第一方面,提供一种数据采集方法,包括:
[0006]获取待搜索的文本,并利用词频提取法提取所述文本中的主题关键词,基于所述主题关键词确定目标主题;
[0007]基于所述目标主题,从预设的资源地址中采集至少一个网页文本,并利用预设的TextRank算法提取所述至少一个网页文本中的关键词,得到关键词集合;
[0008]基于所述关键词集合中各网页文档的关键词,通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度;
[0009]基于所述相似度从所述至少一个网页文本中确定目标网页。
[0010]可选的,所述基于所述目标主题,从预设的资源地址中采集至少一个网页文本,并利用预设的TextRank算法提取所述至少一个网页文本中的关键词,得到关键词集合,包括:
[0011]获取预设的搜索队列中的统一资源定位符,并调用搜索引擎基于所述统一资源定位符收集与所述目标主题匹配的至少一个网页文本;
[0012]对各所述网页文本进行分词处理,并对得到的词语按照网页文本进行归类,得到对应的分词集合;
[0013]识别各所述分词集合中各分词的语义,并利用共现窗口的方式提取语义与所述目标主题相关的分词作为关键词,得到关键词集合。
[0014]可选的,所述对各所述网页文本进行分词处理,并对得到的词语按照网页文本进行归类,得到对应的分词集合,包括:
[0015]利用Word2Vec对各所述网页文本进行向量化,得到文本向量;
[0016]对所述文本向量进行向量分量的解析,得到多个向量分量;
[0017]识别各所述向量分量的方向,并提取方向相同或相似的向量分量作为目标向量;
[0018]基于所述目标向量对所述网页文本进行词语分割,对得到的词语按照网页文本进行归类,得到对应的分词集合。
[0019]可选的,所述利用共现窗口的方式提取语义与所述目标主题相关的分词作为关键词,得到关键词集合,包括:
[0020]利用共现窗口的方式构建任意两个分词之间的关系边,其中,所述关系边的长度基于两分词之间的语义相似度确定;
[0021]提取两个分词之间存在所述关系边且所述关系边两端的分词对应的词汇长度为K的窗口中共现的分词作为关键词,得到关键词集合,其中,K为窗口的大小一个一个窗口中最多共现K个分词。
[0022]可选的,所述基于所述关键词集合中各网页文档的关键词,通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度,包括:
[0023]提取各所述网页文档中的主题信息,并计算所述主题信息与所述主题关键词之间的相关度;
[0024]若所述相关度小于预设的主题相似阈值,则提取所述关键词集合中与对应的网页文档的关键词,得到新的关键词集合;
[0025]计算新的关键词集合中各网页文档的关键词与待搜索的文本的链接之间的第一关联度;
[0026]计算新的关键词集合中各网页文档的关键词与所述目标主题之间的第二关联度;
[0027]基于预设的加权系数,计算所述第一关联度和所述第二关联度的平均值,得到各网页文档与所述目标主题之间的相似度。
[0028]可选的,计算所述主题信息与所述主题关键词之间的相关度的计算公式为:
[0029][0030]其中,T
w
为关键词中的单词在通用主题词表和任务主题词表中出现的关键词所对应的TextRank值,α和β为系数,α+β=1且α<β,n为调整系数。
[0031]可选的,在所述基于所述相似度从所述至少一个网页文本中确定目标网页之后,包括:
[0032]将从所述关键词集合中提取所述目标网页的关键词;
[0033]将所述目标网页的关键词和所述主题关键词输入至预设的神经网络训练模型中进行判别训练,得到网页文本的抓取模型。
[0034]第二方面,提供一种数据采集装置,包括:
[0035]获取模块,用于获取待搜索的文本,并利用词频提取法提取所述文本中的主题关键词,基于所述主题关键词确定目标主题;
[0036]提取模块,用于基于所述目标主题,从预设的资源地址中采集至少一个网页文本,并利用预设的TextRank算法提取所述至少一个网页文本中的关键词,得到关键词集合;
[0037]计算模块,用于基于所述关键词集合中各网页文档的关键词,通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度;
[0038]确定模块,用于基于所述相似度从所述至少一个网页文本中确定目标网页。
[0039]可选的,所述提取模块具体用于:
[0040]获取预设的搜索队列中的统一资源定位符,并调用搜索引擎基于所述统一资源定位符收集与所述目标主题匹配的至少一个网页文本;
[0041]对各所述网页文本进行分词处理,并对得到的词语按照网页文本进行归类,得到对应的分词集合;
[0042]识别各所述分词集合中各分词的语义,并利用共现窗口的方式提取语义与所述目标主题相关的分词作为关键词,得到关键词集合。
[0043]可选的,所述提取模块具体用于:
[0044]利用Word2Vec对各所述网页文本进行向量化,得到文本向量;
[0045]对所述文本向量进行向量分量的解析,得到多个向量分量;
[0046]识别各所述向量分量的方向,并提取方向相同或相似的向量分量作为目标向量;
[0047]基于所述目标向量对所述网页文本进行词语分割,对得到的词语按照网页文本进行归类,得到对应的分词集合。
[0048]可选的,所述提取模块具体用于:
[0049]利用共现窗口的方式构建任意两个分词之间的关系边,其中,所述关系边的长度基于两分词之间的语义相似度确定;
[0050]提取两个分词之间存在所述关系边且所述关系边两端的分词对应的词汇长度为K的窗口中共现的分词作为关键词,得到关键词集合,其中,K为窗口的大小一个一个窗口中最多共现K个分词。
[0051]可选的,所述计算模块具体用于:
[0052]提取各所述网页文档中的主题信息,并计算所述主题信息与所述主题关键词之间的相关度;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:获取待搜索的文本,并利用词频提取法提取所述文本中的主题关键词,基于所述主题关键词确定目标主题;基于所述目标主题从预设的资源地址中采集至少一个网页文本,并利用预设的TextRank算法提取所述至少一个网页文本中的关键词,得到关键词集合;基于所述关键词集合中各网页文档的关键词,通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度;基于所述相似度从所述至少一个网页文本中确定目标网页。2.如权利要求1所述的数据采集方法,其特征在于,所述基于所述目标主题,从预设的资源地址中采集至少一个网页文本,并利用预设的TextRank算法提取所述至少一个网页文本中的关键词,得到关键词集合,包括:获取预设的搜索队列中的统一资源定位符,并调用搜索引擎基于所述统一资源定位符收集与所述目标主题匹配的至少一个网页文本;对各所述网页文本进行分词处理,并对得到的词语按照网页文本进行归类,得到对应的分词集合;识别各所述分词集合中各分词的语义,并利用共现窗口的方式提取语义与所述目标主题相关的分词作为关键词,得到关键词集合。3.如权利要求2所述的数据采集方法,其特征在于,所述对各所述网页文本进行分词处理,并对得到的词语按照网页文本进行归类,得到对应的分词集合,包括:利用Word2Vec对各所述网页文本进行向量化,得到文本向量;对所述文本向量进行向量分量的解析,得到多个向量分量;识别各所述向量分量的方向,并提取方向相同或相似的向量分量作为目标向量;基于所述目标向量对所述网页文本进行词语分割,对得到的词语按照网页文本进行归类,得到对应的分词集合。4.如权利要求2所述的数据采集方法,其特征在于,所述利用共现窗口的方式提取语义与所述目标主题相关的分词作为关键词,得到关键词集合,包括:利用共现窗口的方式构建任意两个分词之间的关系边,其中,所述关系边的长度基于两分词之间的语义相似度确定;提取两个分词之间存在所述关系边且所述关系边两端的分词对应的词汇长度为K的窗口中共现的分词作为关键词,得到关键词集合,其中,K为窗口的大小一个一个窗口中最多共现K个分词。5.如权利要求1

4中任意一项所述的数据采集方法,其特征在于,所述基于所述关键词集合中各网页文档的关键词,通过预设的TDSS算法计算各网页文档与所述目标主题之间的相似度,包括:提取各所述网页文档中...

【专利技术属性】
技术研发人员:谢英娜何文钦何炜程何炜骏
申请(专利权)人:深圳市博锐高科科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1