基于神经网络的用户行程识别方法及装置制造方法及图纸

技术编号：40938345 阅读：4 留言：0更新日期：2024-04-18 14:56

本发明专利技术公开了基于神经网络的用户行程识别方法及装置，首次将弱监督学习方法引入用户行程识别建模中，通过人工标注少量样本结合LSTM神经网络算法和K‑means算法在大量游客行程数据中预测并标注正负样本，基于分层置信度阈值筛选方法选取应用模型训练样本，通过该方法筛选出高置信度样本重新训练LSTM模型构建的模型可运用于任意时空各重点旅游领域、各重点旅游业态的客流量统计和旅游行为分析，从技术上解决了旅游市场特别是假日旅游市场面临的供需矛盾，为科学决策提供精准数据支撑。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习、移动通信，具体涉及基于神经网络的用户行程识别方法及装置。

技术介绍

1、用户行程存在数据量大的问题，通过人工识别用户行程耗时耗力，现有技术中通过lstm神经网络对用户行程进行基于大数据的识别，例如：基于用户行程识别游客，进而实现游客量的统计。然而，现有技术中存在短行程点识别和人工标注标准两方面的情形。短行程是基站捕捉到的用户行程中行程点较少(少于2个行程点)的行程，由于无法准确获取该类行程用户出行目的，且该类行程存在较大随机性，现有lstm(long short-term memory，长短期记忆)神经网络无法很好的解决短行程识别随机性问题，无法发挥其对时间序列模型特征提取优势；而人工标注标准，基于业务定义，由于用户行程的范围广泛，不单指代去往目的地的用户行程，很难形成统一的标注标准，导致人工标注的数据质量存在隐患。

技术实现思路

1、为解决现有技术的不足，实现科学、高效识别用户行程的目的，本专利技术采用如下的技术方案：

2、基于神经网络的用户行程识别方法，包括如下步骤：

3、步骤s1：获取用户行程数据；

4、步骤s2：弱监督训练，基于人工标注的用户行程数据，训练第一长短期记忆网络(浅层lstm网络)，筛选出高置信度正、负样本；基于未标注的用户行程数据，训练聚类模型k-means；构建置信度筛选规则，基于用户的不同行程点数划分层级，不同层级采用不同的置信度阈值，同时结合聚类结果，筛选用户行程类别的正、负样本(即游客、非游客)；

5、步骤s3：用户行程预测；基于置信度规则得到的正、负样本，训练第二长短期记忆网络(深层lstm网络)，抽取预测结果进行人工校验，修正后的正样本对应的用户行程数据作为人工标注的用户行程数据，用于第一长短期记忆网络(浅层lstm网络)的训练；最终通过训练好的第二长短期记忆网络(深层lstm网络)识别用户行程的类别。

6、进一步地，所述步骤s1中，构造用户在一段时间内的行程序列数据，并对其进行特征筛选，得到行程轨迹特征和影响行程因素特征；行程轨迹特征和影响行程因素特征用于训练第一长短期记忆网络，行程轨迹特征用于训练聚类模型。

7、进一步地，所述步骤s1中，对用户行程数据包含的特征数据进行预处理，包括如下步骤：

8、步骤s1.1：对天气特征进行自然数字编码，其余特征保持原状，并填充缺失值；

9、步骤s1.2：计算每个行程数据的行程点个数，用于弱监督训练进行样本筛选；

10、步骤s1.3：针对特征值量纲不统一的问题，对数据进行标准化处理，统一数据量纲。

11、进一步地，所述步骤s2中，第一长短期记忆网络(浅层lstm网络)的训练，包括如下步骤：

12、步骤s2.1.1：对人工标注的用户行程数据进行序列化处理，改变数据维度，得到处理后的数据维度包括[行程总数据量，形成点数，特征数]；

13、步骤s2.1.2：构建第一长短期记忆网络(浅层lstm网络)，获取序列化的人工标注用户行程数据，得到用户行程类别；lstm模型是一种具有记忆长短期信息的能力的神经网络,通常用于基于时间序列数据进行预测的场景，由于用户行程规划中的行程点间存在紧密关联性，使用lstm能够较好提取出行程点之间的关联特征；

14、步骤s2.1.3：定义损失函数，将预测的用户行程类别与标注的用户行程类别进行比较，训练第一长短期记忆网络(浅层lstm网络)。

15、进一步地，所述步骤s2中，聚类模型的训练，包括如下步骤：

16、步骤s2.2.1：获取未标注的用户行程数据；

17、步骤s2.2.2：基于用户行程类别定义聚类中心簇，生成聚类中心；

18、步骤s2.2.3：基于数据对应的特征点到聚类中心的距离，进行类别聚合。

19、进一步地，所述步骤s2中，置信度筛选规则，包括如下步骤：

20、步骤s2.3.1：正样本筛选；根据不同行程点数对应的用户行程数据，采用对应的不同置信度作为筛选条件，筛选正样本；

21、步骤s2.3.2：负样本筛选；基于第一长短期记忆网络(浅层lstm网络)预测与聚类模型k-means预测的负样本，筛选负样本。

22、由于基于弱监督模型方法识别出的正负样本存在部分偏差，识别错误的样本误差会累积到应用模型中，为降低误差累积带来的负面影响，本专利技术提出基于置信度的筛选逻辑，对于正样本，使用lstm预测出的正样本，基于行程点数进行分层筛选，对于不同行程点数区间使用不同置信度阈值；对于负样本，使用lstm与k-means预测结果相结合的方法进行筛选，并基于特定比例采样混合样本。

23、进一步地，所述步骤s2.3.1中，对于用户行程点数大于第一行程点数阈值，且第一长短期记忆网络(浅层lstm网络)预测概率大于等于第一正样本阈值的用户行程数据，作为正样本；对于用户行程点数小于等于第一行程点数阈值，大于等于第二行程点数阈值，且第一长短期记忆网络(浅层lstm网络)预测概率大于等于第二正样本阈值的用户行程数据，作为正样本；对于用户行程点数在第三行程点数阈值以内，且第一长短期记忆网络(浅层lstm网络)预测概率大于等于第三正样本阈值的用户行程数据，作为正样本；

24、所述步骤s2.3.2中，对于第一长短期记忆网络(浅层lstm网络)预测概率小于第一正样本阈值，且聚类模型k-means预测为负样本的用户行程数据，作为负样本。

25、进一步地，所述步骤s3中，为了提升模型整体精度，对于第二长短期记忆网络(深层lstm网络)预测的结果数据，分别对正样本和负样本进行随机采样，并使用人工校验修正的方式修正样本标签，为了减少人工标注标准不一致对数据质量造成的负面影响，人工标注时采用二次交叉标注的方式进行标注，即将用户行程数据分配给另一人标注，如果二次标注的标签与一次标注标签类型相同，则将该用户行程数据输入第二长短期记忆网络(深层lstm网络)进行训练，从而完成模型的迭代调优。

26、进一步地，所述长短期记忆网络包括依次连接的长短期记忆lstm单元、全连接层和归一化层，由于筛选出的样本量更庞大，为了更好的特征提取，第二长短期记忆网络的长短期记忆lstm单元数量，大于第一长短期记忆网络的长短期记忆lstm单元数量。

27、基于神经网络的用户行程识别装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述的基于神经网络的用户行程识别方法。

28、本专利技术的优势和有益效果在于：

29、本专利技术的基于神经网络的用户行程识别方法及装置，将弱监督学习引入用户行程识别建模中，摆脱了基于少量人工标注的样本训练出的用户行程识别的局限性，让识别网络学习到更广泛的用户行程特征；相较于现有技术，本专利技术在弱监督模型预测过程中，通过神经网络与聚类算法相结合的方法，使用分层置本文档来自技高网...

【技术保护点】

1.基于神经网络的用户行程识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤S1中，构造用户在一段时间内的行程序列数据，并对其进行特征筛选，得到行程轨迹特征和影响行程因素特征；行程轨迹特征和影响行程因素特征用于训练第一长短期记忆网络，行程轨迹特征用于训练聚类模型。

3.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤S1中，对用户行程数据包含的特征数据进行预处理，包括如下步骤：

4.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤S2中，第一长短期记忆网络的训练，包括如下步骤：

5.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤S2中，聚类模型的训练，包括如下步骤：

6.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤S2中，置信度筛选规则，包括如下步骤：

7.根据权利要求6所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤S2.3.1中，对于

8.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤S3中，对于第二长短期记忆网络预测的结果数据，分别对正样本和负样本进行随机采样，并使用人工校验修正的方式修正样本标签，人工标注时采用二次交叉标注的方式进行标注，即将用户行程数据分配给另一人标注，如果二次标注的标签与一次标注标签类型相同，则将该用户行程数据输入第二长短期记忆网络进行训练，从而完成模型的迭代调优。

9.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述长短期记忆网络包括依次连接的长短期记忆单元、全连接层和归一化层，第二长短期记忆网络的长短期记忆单元数量，大于第一长短期记忆网络的长短期记忆单元数量。

10.基于神经网络的用户行程识别装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-9中任一项所述的基于神经网络的用户行程识别方法。

...

【技术特征摘要】

1.基于神经网络的用户行程识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤s1中，构造用户在一段时间内的行程序列数据，并对其进行特征筛选，得到行程轨迹特征和影响行程因素特征；行程轨迹特征和影响行程因素特征用于训练第一长短期记忆网络，行程轨迹特征用于训练聚类模型。

3.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤s1中，对用户行程数据包含的特征数据进行预处理，包括如下步骤：

4.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤s2中，第一长短期记忆网络的训练，包括如下步骤：

5.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤s2中，聚类模型的训练，包括如下步骤：

6.根据权利要求1所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤s2中，置信度筛选规则，包括如下步骤：

7.根据权利要求6所述的基于神经网络的用户行程识别方法，其特征在于：所述步骤s2.3.1中，对于用户行程点数大于第一行程点数阈值，且第一长短期记忆网络预测概率大于等于第一正样本阈值的用户行程数据，作为正样本；对于用户行程点...

【专利技术属性】
技术研发人员：吴雪飞，王晓亮，黄佳惠，徐旻，陈思宇，
申请(专利权)人：浙江旅游职业学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人