一种利用负采样数据对视频作品进行搜索方法技术

技术编号：40148591 阅读：5 留言：0更新日期：2024-01-24 00:53

本发明专利技术提供一种利用负采样数据对视频作品进行搜索方法，通过文本分词、去除停顿词和词性标注处理，获取第一上下文词和第一中心词，对第一数据集进行数据清洗；对第一上下文词和第一中心词进行再抽样，去除重复出现的第一上下文词和第一中心词，这样能减少计算负担；通过对第一数据集进行负采样提高生成的词向量的质量；爬虫工具的爬取数据精确。同时只使用部分的第一负采样数据，进一步降低计算过程的计算量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体涉及一种利用负采样数据对视频作品进行搜索方法。

技术介绍

1、互联网时代，各种社交媒体、电商网站、社会服务网站等快速兴起和发展，人们发表言论的途径日益增加，互联网上产生了大量的关于商品、服务、热点等的评论信息，这些评论信息表达了人们对这些事物不同的观点和态度。从这些评论信息中，可以大概了解一件商品的性价比等信息以；其涉及到关键词的提取和对比分析。

2、在中国申请号为201910390271.5，公布日为2019.9.13的专利文献公开了一种数据处理方法、装置和电子设备，中，所述方法包括：接收搜索信息；确定所述搜索信息中客观类字段和主观类字段；依据所述客观类字段从预设数据库的索引信息中选取候选索引信息，所述预设数据库包括视频数据的关联信息和所述关联信息对应的索引信息；获取候选索引信息对应的关联信息，依据所述主观类字段和每条候选索引信息对应的关联信息，确定目标索引信息；依据目标索引信息，提取所述目标索引信息对应的关联信息，构建目标视频搜索结果，并返回；从而通过多次筛选，提高视频搜索结果的准确性。

3、该方法预先对视频的数据的评论进行进行爬取，建立索引信息与关联信息之间的关联，构成一条视频数据，并据此构建预设数据库，通过数据库进行视频数据进行快速查找。但是其没有对负采样形成数据，从而搜索方法的可靠性不高。

技术实现思路

1、本专利技术提供一种利用负采样数据对视频作品进行搜索方法，通过在评论形成第一词向量和通过待搜索内容形成第二词向量

2、为达到上述目的，本专利技术的技术方案是：一种利用负采样数据对视频作品进行搜索方法，包括以下步骤：

3、s1、利用爬虫工具爬取不同视频作品评论页的评论相关信息，每个作品形成有对应的第一数据集。

4、s2、对第一数据集进行预处理并获取第一上下文词和第一中心词，预处理包括文本分词、去除停顿词和词性标注。

5、s3、获取第一上下文词和第一中心词的出现频率，去除重复出现的第一上下文词和第一中心词。

6、s4、对预处理后第一数据集中第一上下文词和第一中心词以外的数据进行负采样，得到第一负采样数据；设置第一负采样数据的使用数量，根据使用数量随机选择第一负采样数据。

7、s5、对第一上下文词、第一中心词、根据数量选择的第一负采样数据进行计算处理，得到第一词向量。

8、s6、用户输入搜索数据。

9、s7、对搜索数据进行预处理并获取第二上下文词和第二中心词，预处理包括文本分词、去除停顿词和词性标注。

10、s8、获取第二上下文词和第二中心词的出现频率，去除重复出现的第二上下文词和第二中心词。

11、s9、对预处理后搜索数据中，第二上下文词和第二中心词以外的数据进行负采样，得到第二负采样数据；设置第二负采样数据的使用数量，根据使用数量随机选择第二负采样数据。

12、s10、对第二上下文词、第二中心词、根据数量选择的第二负采样数据进行计算处理，得到第二词向量。

13、s11、计算第二词向量与一个以上第一词向量的相似度。

14、s12、若第二词向量与一个以上的第一词向量之间的相似度达到相似度阈值，则进行s13。

15、s13、向用户推荐每个第一词向量对应的视频作品。

16、以上方法，通过文本分词、去除停顿词和词性标注处理，获取第一上下文词和第一中心词，对第一数据集进行数据清洗；对第一上下文词和第一中心词进行再抽样，去除重复出现的第一上下文词和第一中心词，这样能减少计算负担；通过对第一数据集进行负采样提高生成的词向量的质量；爬虫工具的爬取数据精确。同时只使用部分的第一负采样数据，进一步降低计算过程的计算量，由于在不同视频作品的评论形成第一词向量和通过待搜索内容形成第二词向量时都加入了负采样数据，从而使得确定关键词以及搜索词能更加可靠，进一步确保搜索出的视频作品的准确性。

17、对用户输入的搜索数据进行预处理，从用户的输入内容中提出第二词向量，当用户输入句子时，能从句子中提取到关键词，然后对比第二词向量与第一词向量的相似度，即能根据关键词向用户推荐不同的作品。

18、进一步的，s5中，采用word2vec模型对第一上下文词、第一中心词和第一负采样数据进行计算进行处理，得到第一词向量；s10中，采用word2vec模型对第二上下文词、第二中心词和第二负采样数据进行计算进行处理，得到第二词向量。

19、以上方法，通过word2vec模型对第一词向量和第二词向量进行计算，方法简单。

20、进一步的，文本分词，具体为：设置前缀字典，前缀字典中包括一个以上的前缀单字，以及每个前缀单字对应的一个以上的前缀词。

21、生成第一数据集的有向无环图，判断第一数据集中是否有前缀单字，当存在前缀单字，则在前缀字典中将当前缀单字对应的前缀词进行标注；获取第一数据集中的前缀词，根据前缀词对第一数据集进行切分。

22、以上方法，通过前缀单字对应的前缀词对第一数据集进行分词，方法简单

23、进一步的，若第一数据集中出现一前缀单字对应的两个以上的前缀词，则按不同的前缀词分别对第一数据集进行切分获取不同的分词路径，；使用动态规划的方法寻找概率最大的分词路径。

24、以上方法，通过规划出概率最大的分词路径，分词的准确率高。

25、进一步的，文本分词采用jieba分词工具进行。

26、以上方法，通过jieba分词工具进行文本分词，方法简单。

27、进一步的，去除停顿词，具体为：预设停顿词表，停顿词表中储存有一个以上的停顿词数据；去除第一数据集中与停顿词数据一致的单词。

28、以上方法，通过去除停顿词，去除了停顿词对第一上下文词和第一中心词的干扰。

29、进一步的，词性标注，具体为：采用rnnlstmgru模型进行切分后的词语进行词性标注。

30、以上方法，通过rnnlstmgru模型进行词性标注，方法简单。

本文档来自技高网...

【技术保护点】

1.一种利用负采样数据对视频作品进行搜索方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种利用负采样数据对视频作品进行搜索方法，其特征在于：S5中，采用Word2vec模型对第一上下文词、第一中心词和第一负采样数据进行计算进行处理，得到第一词向量；S10中，采用Word2vec模型对第二上下文词、第二中心词和第二负采样数据进行计算进行处理，得到第二词向量。

3.根据权利要求1所述的一种利用负采样数据对视频作品进行搜索方法，其特征在于：文本分词，具体为：设置前缀字典，前缀字典中包括一个以上的前缀单字，以及每个前缀单字对应的一个以上的前缀词；

4.根据权利要求3所述的一种利用负采样数据对视频作品进行搜索方法，其特征在于：若第一数据集中出现一前缀单字对应的两个以上的前缀词，则按不同的前缀词分别对第一数据集进行切分获取不同的分词路径，；使用动态规划的方法寻找概率最大的分词路径。

5.根据权利要求4所述的一种利用负采样数据对视频作品进行搜索方法，其特征在于：文本分词采用jieba分词工具进行。

6.根据权利要求5所述的

7.根据权利要求6所述的一种利用负采样数据对视频作品进行搜索方法，其特征在于：词性标注，具体为：采用RNNLSTMGRU模型进行切分后的词语进行词性标注。

...

【技术特征摘要】

1.一种利用负采样数据对视频作品进行搜索方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种利用负采样数据对视频作品进行搜索方法，其特征在于：s5中，采用word2vec模型对第一上下文词、第一中心词和第一负采样数据进行计算进行处理，得到第一词向量；s10中，采用word2vec模型对第二上下文词、第二中心词和第二负采样数据进行计算进行处理，得到第二词向量。

4.根据权利要求3所述的一种利用负采样数据对视频作品进行搜索方法，其特...

【专利技术属性】
技术研发人员：麦启明，夏梓桓，梁杰晋，杜龙飞，卓子皓，林俊翰，
申请(专利权)人：广州城市理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人