System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于AIGC识别用户设备信息的方法及系统技术方案_技高网

一种基于AIGC识别用户设备信息的方法及系统技术方案

技术编号:39935271 阅读:5 留言:0更新日期:2024-01-08 22:08
本申请公开了一种基于AIGC识别用户设备信息的方法及系统,属于设备识别领域,包括:获取包含用户代理字符串及用户代理字符串对应的设备信息;利用预训练的语言模型对用户代理字符串进行编码,获取用户代理字符串向量,构建用户代理字符串向量库;从用户代理字符串向量库中检索出与待识别用户代理字符串的向量相似的前N个用户代理字符串向量;将前N个用户代理字符串向量对应用户代理字符串的设备信息与待识别用户代理字符串组合,生成序列,利用序列构建提示信息;将提示信息和待识别用户代理字符串作为输入,输出预测的设备信息作为待识别用户代理字符串对应的设备信息。针对现有技术中设备信息识别准确性低,本申请提高了信息识别的准确性。

【技术实现步骤摘要】

本申请涉及设备识别领域,更具体地说,涉及一种基于aigc识别用户设备信息的方法及系统。


技术介绍

1、长期以来,主流的识别用户设备的方法是通过解析user agent字符串来实现。user agent字符串包含了设备的生产厂商、型号、操作系统等信息,可以反映出用户的设备类型。但是这种方法存在准确率不高的问题。

2、user agent字符串本身包含的设备信息有限,往往仅包括厂商、操作系统、浏览器等有限信息,用于具体判定设备型号还不够详尽。不同厂商对user agent字符串的表述形式千差万别,同一设备信息使用不同的字符串表示,增加了解析的难度。

3、中国专利申请,申请号cn202110795179.4,公开日2021年9月21日,公开了一种命名实体识别方法、装置、设备及存储介质。该申请包括:获取待识别字符的图特征向量;将待识别字符的图特征向量输入目标命名实体识别模型,得到待识别字符的图特征向量对应的实体类别。但是本申请至少存在如下方法问题:命名实体识别的训练通常需要大量的标注数据。如果标注数据中存在错误或不一致性,那么模型在训练和预测过程中可能会受到影响。错误的标注数据可能会导致模型学到错误的模式或无法捕捉正确的模式,进而影响信息识别的准确性。


技术实现思路

1、1.要解决的技术问题

2、针对现有方法中存在的信息识别准确性低的问题,本申请提供了一种基于aigc识别用户设备信息的方法及系统,通过利用预训练的语言模型对用户代理字符串进行编码、向量检索方法,提高了信息识别的准确性。

3、2.技术方案

4、本申请的目的通过以下方法方案实现。

5、本说明书实施例的一个方面提供一种基于aigc识别用户设备信息的方法,包括:获取包含用户代理字符串及用户代理字符串对应的设备信息;利用预训练的语言模型对用户代理字符串进行编码,获取用户代理字符串向量,构建用户代理字符串向量库;接收待识别的用户代理字符串;利用预训练的语言模型对待识别的用户代理字符串进行编码,得到待识别的用户代理字符串的向量;从用户代理字符串向量库中检索出与待识别的用户代理字符串的向量相似的前n个用户代理字符串向量,其中n为正整数;将前n个用户代理字符串向量对应用户代理字符串的设备信息与待识别的用户代理字符串组合,生成序列,利用序列构建提示信息;将提示信息和待识别的用户代理字符串作为输入,输入预训练的语言模型,输出预测的设备信息作为待识别的用户代理字符串对应的设备信息。

6、其中,通过预训练语言模型实现用户代理字符串的向量化表示,将字符串转换为向量空间中的点,可实现字符串之间的相似性计算。构建用户代理字符串向量库,采用向量空间检索技术,可快速找到与待识别字符串最相似的topn个字符串向量。利用找到的相似字符串向量的对应设备信息,构建提示信息序列,作为语言模型的输入,提升设备信息预测的上下文关联性。通过预训练语言模型产生上下文相关的设备信息预测结果,相比仅匹配检索等方法,提高了识别准确率。整体技术路线融合了预训练语言模型编码、向量检索和基于上下文的预测,在保证识别速度的同时,提升了用户设备信息的识别准确性。

7、进一步地,获取前n个用户代理字符串向量的步骤包括:利用预训练的语言模型对待识别的用户代理字符串进行编码,获取待识别的用户代理字符串的向量;利用向量检索方法对待识别的用户代理字符串的向量与用户代理字符串向量库中的用户代理字符串向量进行相似性比较;根据相似性比较的结果,选择与待识别的用户代理字符串的向量相似的前n个用户代理字符串向量。使用预训练语言模型对待识别字符串进行向量化编码,可获得固定长度的向量表示,便于后续向量空间计算。

8、其中,应用向量检索方法,计算待识别字符串向量与字符串向量库中向量的相似性,可快速高效找到最相似字符串。根据相似性大小排序并选择顶部的topn向量,既能获得语义信息最相关的字符串,也兼顾了计算效率。相比逐一顺序比较全部字符串的方式,该技术路线缩小了搜索范围,仅计算高相关向量的相似性,降低了计算复杂度。应用向量空间模型和相似性排序算法,可实现快速准确地检索出与待识别字符串最相似的topn向量。检索得到的topn相似字符串可为后续设备信息预测提供丰富的关联上下文信息。

9、进一步地,向量检索方法为余弦相似度、欧式距离、曼哈顿距离或闵可夫斯基距离。

10、其中,余弦相似度考虑两个向量方向而非长度,通过计算两个向量夹角的余弦值来判断相似程度,夹角越小表示越相似。计算向量方向的相似性,能够反映两个字符串语义的相关程度,适用于文本语义相似度计算。

11、其中,欧式距离指向量中每个分量差的平方和然后开方,距离越小表示越相似。计算向量间在欧式空间的实际距离,能反映两个字符串在数值上的距离。

12、其中,曼哈顿距离是向量中对应分量差的绝对值之和,是欧几里得距离的一种特例。计算向量分量在各维度上的绝对差值之和,反映各维特征之差。

13、其中,闵可夫斯基距离在欧式距离的基础上对不同维度设置权重,强调重要特征的距离贡献。计算带权向量分量差的平方和的平方根,可设定不同维度的重要性。

14、不同向量距离计算方法各有侧重,采用符合语义相似度要求的余弦相似度,可以提升字符串语义相关性判定的准确性,有利于得到与待识别字符串更相关的topn结果。

15、进一步地,生成序列的步骤包括:判断是否获取了前n个用户代理字符串向量,其中n为正整数;在判断结果为是的情况下,获取前n个用户代理字符串向量对应的用户代理字符串;从用户代理字符串向量库中,获取前n个用户代理字符串对应的设备信息;将前n个用户代理字符串的设备信息,与待识别的用户代理字符串进行拼接,生成序列。

16、其中,判断是否获取topn向量,可根据实际情况动态调整序列生成的输入源,保证了方法的健壮性。获取topn向量对应的用户代理字符串,可准确获取语义最相关的字符串信息。从向量库中检索topn字符串的设备信息,获得丰富的相关上下文源。将topn字符串及其设备信息,与待识别字符串拼接,构建了语义和设备信息均相关的序列。生成的序列作为语言模型输入,可最大程度提供有效的上下文信息,利于模型正确预测设备信息。相比随机序列,该生成策略可产生对设备信息预测更有价值的输入序列。序列生成过程简洁可靠,有效提取并利用了topn相似字符串的语义和设备信息。

17、进一步地,构建提示信息的步骤包括:利用预训练的语言模型获取待识别的用户代理字符串的语义和上下文信息;利用获取的语义和上下文信息,通过词向量方法从序列中获取与设备信息对应的词汇作为提示词汇;根据提示词汇,通过预训练的语言模型生成提示信息。

18、其中,应用预训练语言模型分析字符串,可准确获取语义信息和上下文,提供后续提示生成的知识来源。利用词向量方法从序列中提取设备信息相关词汇,既过滤无关内容,又保留有效信息。提取的提示词汇高度相关于设备信息,可有效辅助提示生本文档来自技高网...

【技术保护点】

1.一种基于AIGC识别用户设备信息的方法,包括:

2.根据权利要求1所述的基于AIGC识别用户设备信息的方法,其特征在于:

3.根据权利要求2所述的基于AIGC识别用户设备信息的方法,其特征在于:

4.根据权利要求1所述的基于AIGC识别用户设备信息的方法,其特征在于:

5.根据权利要求4所述的基于AIGC识别用户设备信息的方法,其特征在于:

6.根据权利要求1所述的基于AIGC识别用户设备信息的方法,其特征在于:

7.根据权利要求6所述的基于AIGC识别用户设备信息的方法,其特征在于:

8.根据权利要求1所述的基于AIGC识别用户设备信息的方法,其特征在于:

9.根据权利要求1所述的基于AIGC识别用户设备信息的方法,其特征在于:

10.一种基于AIGC识别用户设备信息的系统,包括:

【技术特征摘要】

1.一种基于aigc识别用户设备信息的方法,包括:

2.根据权利要求1所述的基于aigc识别用户设备信息的方法,其特征在于:

3.根据权利要求2所述的基于aigc识别用户设备信息的方法,其特征在于:

4.根据权利要求1所述的基于aigc识别用户设备信息的方法,其特征在于:

5.根据权利要求4所述的基于aigc识别用户设备信息的方法,其特征在于:

...

【专利技术属性】
技术研发人员:杨本芊杨文俊蔡海翔任翔徐健
申请(专利权)人:南京网眼信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1