京东用户行为分析
- *项目背景
京东作为传统电商巨头,京东商城和京东物流的发展相辅相成。然而,各种新兴的电商模式带来了电商平台千人一面的购物模式和更加激烈的竞争。电商平台发展初期的粗放式运营,也转向利用大数据和算法,实现基于用户行为的精细化营销。在此背景下,本文基于京东平台的部分数据对用户行为进行了分析。
[En]
JD.com, as a traditional e-commerce giant, the development of JD.com Mall and JD.com logistics complement each other. However, various emerging e-commerce models have brought the shopping mode of thousands of people and more fierce competition in the e-commerce platform. The extensive operation in the early stage of the development of e-commerce platform has also turned to the use of big data and algorithm to achieve fine marketing based on user behavior. Under this background, this paper analyzes the user behavior based on some data of JD.com platform.
本分析的主要目的是从数据中探索以下问题,得出结论,并提供一些可行的建议:
[En]
The main purpose of this analysis is to explore the following issues from the data, draw conclusions, and provide some feasible suggestions:
- 分析用户在使用App整个过程中的特点,从获客,激活,留存,营收等方面,寻找可以优化的点
- 对用户购买行为进行分析,找出用户行为转化中存在的问题,最受欢迎的商品,找到针对用户运营和商品推荐的方向
-
进行用户价值分析,对用户进行分层,采用更有针对性的营销
-
*分析框架
( 一 ) 数据集介绍
原始数据为京东竞赛数据集,数据集共有五个列表文件,包含了"2018-02-01"至"2018-04-15"之间在京东平台的用户行为数据,评论数据,商品数据,商家店铺数据以及用户数据
在此分析过程中,需要使用用户行为数据、商品数据和用户数据。原始数据集中的行为数据列表太大,因此截取2018-04-01至2018-04-15期间的数据以清理用户行为数据集:
[En]
In the process of this analysis, the user behavior data, commodity data, and user data need to be used. The list of behavior data in the original data set is too large, so the data from 2018-04-01 to 2018-04-15 is intercepted to clean the user behavior data set:
jdata_action:
user_id
用户唯一标识
sku_id
商品唯一标识
action_time
行为时间
数据清洗时拆分成date,hour,weekday
type
1.pv 2.pay 3.fav 4.comm 5.cart
jdata_product:
sku_id
商品唯一标识
brand
品牌名
shop_id
店铺id
cate
品类
market_time
商品上市时间
j data_user:
User_id
用户唯一标识
Age
年龄,-1表示未知,数字越大,年龄越大
Sex
性别 0:男 1:女 2: 保密
User_reg_tm
注册时间
User_lv_cd
会员级别,数字越大,级别越高
City_level
城市等级,常用收货地址,数字越大,等级越高
Province
省份
City
城市
County
县
( 二 ) 分析框架
- 分析 *过程
(一)基于平台运营流程的AARRR模型分析
(1)每日新增uv
由于数据截取,前面几天老客数据不能完全计算,数据会有偏差,可以看出后面几天日新增uv基本稳定在30%左右。
(2)用户在不同时间维度下的活跃情况
日期维度下,pv和uv比较平稳,4.1—4.9日小幅波动,4.10开始递减,推测数据波动是由小规模营销活动产生。
星期维度下,pv和uv无明显波动,周日到周一周二的日均pv和uv略高,周五的pv相较于uv增加得更多,说明周末开始用户有更多的点击行为,这也可以为每周活动运营做一个参考,即每周活动可以放在周五晚开始,利用周末用户更多的浏览时间,并在周日晚上加大活动力度或是限时促销活动,促进销量。
小时维度下,pv和uv波动较大,在凌晨呈下降趋势,在凌晨3-4点达到最低,随后不断上升,在上午10点左右有一个小高峰,晚上19点之前pv和uv都比较平稳,晚上19—22点这段时间,用户访问行为达到最高峰。因此上午8-10点,晚上19-22点是各类活动运营非常关键的时间段,凌晨1-4点适合作为系统维护时间。
(3) 留存率分析
由于截取的是部分时间数据,前两天的留存率会相对较高,但从总体看,用户留存率基本维持在10%--20%。根据Facebook的40-20-10法则,在所考察的时间范围内,平台的留存率低于标准,但留存率递减较慢,说明平台的用户依赖性较高,但同时也可以通过一些运营策略来提高平台的留存率:
通过活跃度刺激,引导新用户产生新人福利、立减卡券、日常入住等关键行为,引导客户熟悉会员制、积分制,优化用户使用流程,让用户第一次接触平台就能产生更好的用户体验,提高用户粘性。
[En]
Through activity stimulation, guide new users to produce key behaviors, such as newcomer benefits, reduced card coupons, daily check-in, etc. Guide customers to familiarize themselves with the membership system and points system, optimize the user use process, so that users can produce a better user experience when they first touch the platform, so as to improve user stickiness.
(4)营收情况分析
因为数据中缺少付费金额,所以用付费次数代替,从上图可知,在所考察的时间周期,86%的用户只有一次购买行为,9%的用户有两次购买行为,每日的ARPPU约为1.1,绝大部分付费用户的购买次数相对比较低,复购率为0.1316。
(二)用户购买行为分析
(1)when用户在什么时间购买
每日的付费用户数大约占总独立访客数的30%,星期维度下,周六周日的付费用户数占比略高。
小时维度下,用户的购买行为在上午10点和晚上22点达到两个峰值,相对于pv来说,在上午10点付费用户更多,晚上总体pv非常高,但付费用户数略低于上午10点,说明晚上用户浏览平台,有部分是"逛京东",实际转化率相对较低,因此上午10点左右,注重商品的精准推荐,通过优惠券,限时折扣活动,促进付费转化,晚上19—22点,注重商品多样化推荐,提高用户"逛京东"的体验,同时设置限时秒杀活动,即时促进转化率。
(2)who购买次数前200的用户画像
从年龄(排名越大,年龄越大)、性别、市级(排名越大,城市等级越高)、会员级别(排名越大,会员等级越高)四个维度进行分析。
[En]
It is analyzed from four dimensions: age (the larger the rank number, the older the age), gender, city level (the larger the number, the higher the city grade), and the membership level (the larger the number, the higher the membership grade).
消费次数排名前200位的用户中:
从年龄来看,他们主要是老年用户,他们的收入水平相对较高,购买力较强。
[En]
In terms of age, they are mainly older users, who have a relatively high level of income and strong purchasing power.
从性别来看,男性用户略多于女性用户。在细分方面,年龄段略高一些。在中年群体中,女性用户较多,而在低年龄段用户中,男性用户明显多于女性用户。
[En]
In terms of gender, there are slightly more male users than female users. In terms of subdivision, the age class is slightly higher. In the middle-aged group, there are more female users, while in the lower age class users, male users are significantly more than female users.
从会员级别来看,消费较多的用户是等级较高的用户,等级较高的男性用户数量相对较多。
[En]
In terms of membership level, the users who consume more are the users with higher grades, and the number of male users with higher grades is relatively more.
从城市级别来看,以中级为主,注意到城市最低级别的用户数量也比较多。
[En]
In terms of city level, it is mainly medium-level, and it is noted that the number of users with the lowest level in the city is also relatively large.
从以上分析,可以重点关系以下几类用户
①等级较高,年龄较大的用户;
②中年女性用户;
③城市等级较低的用户;
④年龄等级较低的男性用户
(3)what用户浏览最多的产品,用户购买最多的产品
浏览量Top10品类
购买量Top10品类
数据集中,品类数为80,平台覆盖的品类非常丰富,浏览量和购买量Top10的品类基本重合,说明这10大品类确实是用户最关注,最主要的消费品类,因此在做选品方面需要优先涉及到这10大品类。
进一步分析浏览量和购买量较高的商品及其所属品类:
浏览量Top10的商品及其所属的品类
购买量Top10的商品及其所属的品类
浏览量前10的商品中,品类7有5件商品,只有224207这件商品购买量排在前10,品类34有3件商品排在前10,但是没有购买量占前10的商品。
购买量前10的商品所属的品类相对分散,说明每个品类都有其热销款,品类27有3款商品的购买量都排在前10,而且购买转化率比较高
浏览量前10的商品中,有6件商品的购买转化率为0%,可进一步分析原因:系统数据异常,产品价格,产品详情页,是否缺货导致。对于品类7可以对比分析购买量排在前10的商品和其他几个转化率为0的商品。
(4)how购买行为转化漏斗
在所考察的时间周期内,浏览—购买的转化率为21.55%,浏览—加入购物车—购买的转化率为17.27%,直接购买转化率较高,说明用户倾向于使用较为简单的购买方式
浏览-加入购物车-购买路径,加上购物车-购买转化率为60%,相对较高,表明用户购买加入购物车的商品意向较高。此时,可以使用消息提醒,推出限时优惠券,提高购物车产品的转化率。
[En]
Browse-join the shopping cart-purchase path, add the shopping cart-purchase conversion rate is 60%, which is relatively high, indicating that users have a high intention to buy goods that join the shopping cart. At this time, you can use message reminders and launch time-limited coupons to improve the conversion rate of shopping cart products.
浏览—收藏—购买这一路径中,浏览—收藏转化率非常低,仅为3.32%。结合App页面进行分析,可能原因是:1.收藏功能是用形状表示的,而非文字,不容易引起用户的注意,这一功能的使用率就比较低;2.收藏的商品后期查看也没有购物车功能方便,由于这部分的分析没有相关的数据支撑,无法得出准确的结论,可以通过设计问卷进行调查,从而进行系统的优化
浏览—收藏—购买这一路径中,收藏—购买转化率为48%,近一半加入购物车的用户会付费购买,说明提高收藏功能的使用,有助于提高付费率,因此可以优化收藏功能的展示,以及收藏功能查看商品信息的优化,提升用户体验,促进付费
(三)用户价值分层RFM模型分析
根据最近一次消费的时间间隔和频率,用户可以根据他们的平均点数和参考线分为四类:
[En]
According to the time interval and frequency of the last consumption, the users can be divided into four categories according to their average points and reference lines:
第I象限:最近一次消费时间与消费频次都为高分,该类用户近期有消费,且消费频率较高,属于高价值用户,对这类用户可以提供更多的会员活动以及VIP专属活动,提升用户被平台重视的体验感。
第II象限:最近一次消费时间得分低,消费频次得分较高,该类用户购买频次较高,但是最近一次购买的间隔时间比较长,存在用户流失的风险,对这类用户需要采取活动短信推送,客户端push提醒用户,并通过分析用户对产品的核心诉求与行为特征,有针对性地策划营销活动促进用户找回,并在找回后做好维护。
第III象限,最近一次消费时间与消费频次都为低分,该类用户近期无消费,且消费频次较低,属于机会用户,其价值有待挖掘,可以先根据用户画像,评估用户价值与成本,对于潜在价值较高的用户,向其推出一些试用活动以及优惠券,提升活跃度,培养平台购物习惯。
第IV象限,最近一次消费时间得分高,消费频次得分低,该类用户最近有消费,但消费频次较低,属于需要深耕的用户,在用户购买行为后,做好售后服务,提升用户体验,并及时推送用户浏览量较高的商品,促进其复购。
- *结论与建议
1.用户在一天中,上午10点,晚上21-22点最为活跃,也是购买的两个高峰时间段,其中上午10点付费人数更多,晚上21-22点,相对于浏览量,转化率较低部分用户的行为是"逛"。对于上午10点左右的活跃用户,进行商品的精准推荐,限时降价活动,简化付费流程。对于晚上19—22点之间活跃的用户,进行多样化的商品推荐,提升用户"逛"的体验,并通过拼团促销,直播种草活动,让用户更多地将心仪商品加入购物车或收藏。
2.用户的次日留存量为20%左右,相对较低,但递减较慢,用户对于平台依赖性较强,平台发展比较稳定,可以通过会员体系,积分活动提升用户对平台的信任,并通过每日签到,会员不定期优惠活动,提高用户活跃度与留存率
3.86%的用户付费次数仅为1次,复购率0.1316,付费用户中,仅有13.16%的用户有复购行为,用户复购率低,考虑有考察周期较短的,部分用户的复购行为不在所考察的时间周期,但每天付费用户的消费次数也仅为1.1-1.2次,更多的还是用户本身复购行为较少,从用户留存率偏低也可以得到验证。
留存是复购的基础,可以参考提高留存率的方法,也可以从产品质量、服务质量(包装、物流、售后)、产品体验等方面进行分析。这些信息可以从产品评论和客户服务反馈中获得。你也可以通过问卷调查、产品试用等方式进行交叉核对。运用假设检验的方法,提出问题,并通过数据验证,得出回购利率偏低的原因,进而有针对性地提出解决方案。
[En]
Retention is the basis of repurchase, so we can refer to the methods to improve the retention rate, and we can also analyze it from the following aspects: product quality, service quality (packaging, logistics, after-sales), and product experience. these can be obtained from product reviews and customer service feedback. You can also cross-check through questionnaires, product trials and other ways. By using the method of hypothesis testing, the problems are put forward, and through data verification, the reasons for the low repurchase rate are obtained, and then the solutions are targeted.
4.购买次数前200名用户中,男性用户占比较高,会员等级较高的用户占比较高,需要重点关注:①等级较高,年龄较大的用户购买力高,是重要的价值用户,可以对这类用户做好针对于会员的专属活动,进一步加强用户忠实程度;②中年女性关注商品质量,同时也关注价格,可以根据用户搜索和浏览行为,精准推荐用户青睐的商品,并适时推出折扣活动;③城市等级较低的用户,消费水平相对较低,对于价格比较敏感,对这类用户,拼团活动,限时秒杀等促销活动,可以较好地促进其消费;④年龄等级较低的男性用户,这类用户一般对某品类商品有偏好,同时价格敏感度较低,有冲动消费倾向,对于这类用户,精准推荐商品,并做好详情页的展示,以及简化付费流程。
5.浏览量和购买量最高的商品品类7,34,27,81,69,75,34,20,56,其中品类7的商品浏览量最高,但浏览购买转化率很低,仅为2.3%,还有部分商品转化率为0, 需要进一步分析原因,购买量前10的商品所属的品类较为分散,说明每个品类中都有其畅销款,用户的需求也比较分散。
因此,在选品时,优先考虑浏览和购买排名前10的品类,并分析转化率较低的品类下商品,找到转化率低的原因
6.用户浏览商品后,,直接购买转化率最高,加入购物车多于收藏,而加入购物车后,购买转化率60%,收藏购买转化率48%,相对比较高,而通过浏览—收藏—加入购物车—购买这一路紧转化率最低,说明有消费意愿的用户,更倾向较为简单的购买流程。另外,收藏功能的使用率较低,可以通过问卷调研方式了解原因,并有针对性地进行优化。
7.根据最近一次消费时间间隔,对于近期很长时间未消费的潜在流失用户,通过短信或客户端push方式进行召回,并策划与用户特征相匹配的活动,提升用户与平台的黏性,根据消费频次,对于消费频次较低的用户,可以通过发放试用权益,优惠券等方式,提高用户的活跃度,培养其在平台购物的习惯;对于近期有消费且频次较高的高价值用户,推出VIP活动。对于所有用户,都可以在有重要的日期,如用户生日,会员日等,发送消息或专属优惠活动,用户关怀对于不同层级的用户都有一定的提升用户对平台的信任,增强黏性的作用,留存是用户购买的基础,留住用户,再在关键时间节点推出对应的运营活动,提高用户购买转化率。
sql代码:GitHub - 132101020/-
Original: https://blog.csdn.net/m0_47283312/article/details/120444099
Author: 努力学习的小何
Title: 京东用户行为分析
相关阅读
Title: 正确简单地安装Tensorflow和Keras
Title: 正确简单地安装Tensorflow和Keras
安装前注意:
- 这里只讨论tensorflow和keras的安装,如果你的电脑不支持CUDA、没有CUDA Toolkit、没有cuDNN这些基本的深度学习运算环境,那这篇文章可以关闭了。
- 安装tensorflow和keras不要直接复制官网的任何命令,因为大部分情况下都会装错。
- 安装一定要注意自己的cuda、python等环境的版本要对应,然后手动编写安装命令,不然全都错。
好了,言归正传,下面开始安装。
1、Tensorflow安装
首先明确好自己的Python、cuda版本,比如我是:
Python Version: 3.6.13
CUDA Version: 10.0
关于怎么查版本请自行百度
然后查询版本对照表:
linux/macOS版本对照表: https://www.tensorflow.org/install/source#gpu
windows版本对照表: https://www.tensorflow.org/install/source_windows#gpu
红色框中圈出的表示可以安装在您的环境中,其他版本的安装是错误的。
[En]
The representation circled in the red box can be installed in your environment, and the installation of other versions is wrong.
比如现在我想安装tensorflow2.0的GPU版本。那我就可以在命令行输入:
pip install tensorflow-gpu==2.0.0
或者:我想安装tensorflow2.0的CPU版本。那我就可以在命令行输入:
pip install tensorflow==2.0.0
最后回车即可。
注意!!!
- 官网上说:tensorflow2 支持 CPU 和 GPU 的最新稳定版(适用于 Ubuntu 和 Windows),而对于 TensorFlow 1.x,CPU 和 GPU 软件包是分开的。这句话很有迷惑性,乍一看还以为是tensorflow2 把CPU 和 GPU 合并在一起了,其实不然,你要想使用gpu版本,还得在后面加个
-gpu
。 - 如果pip命令拿不准可以去 https://pypi.org/ 搜索包的名字,搜索这个包及其历史版本的安装命令。如果是用conda: https://anaconda.org/anaconda/conda
2、Keras安装
keras安装之前需要TensorFlow、Theano、CNTK三个其中一个的环境,TensorFlow上面已经装好了,接下来只装keras即可。
和Tensorflow一样,安装Keras之前环境也必须对应,对照表如下:
- keras对照表:https://docs.floydhub.com/guides/environments/(网站已经关闭了,可以看国内的一些博客,如下)
- https://www.cnblogs.com/-yhwu/p/14619541.html(这篇博客很详细的搬运了keras环境对照表)
- 也可以去github上看,不过不是很详细:https://github.com/keras-team/keras#release-and-compatibility
可以看到我只能安装 Keras 2.3.1
的版本,安装其他的都会报错。命令如下:
pip install Keras==2.3.1
笔记
以下是拓展延伸,与上面的操作无关。
Tensorflow 和 Keras的关系?
tensorflow官网:https://www.tensorflow.org
keras官网:https://keras.io/
Keras 是一个模型级库,为开发深度学习模型提供了高层次的构建模块。它不处理诸如张量乘积和卷积等低级操作。相反,它依赖于一个专门的、优化的张量操作库来完成这个操作,它可以作为 Keras 的「后端引擎」。相比单独地选择一个张量库,而将 Keras 的实现与该库相关联,Keras 以模块方式处理这个问题,并且可以将几个不同的后端引擎无缝嵌入到 Keras 中。
目前,Keras 有三个后端实现可用: TensorFlow 后端, Theano 后端, CNTK 后端。而且如果安装了多个后端,是可以切换的,具体操作看官网。
什么是CUDA、CUDA Toolkit、cuDNN?
- CUDA:为"GPU通用计算"构建的运算平台。
- CUDA Toolkit (nvidia): CUDA完整的工具安装包,其中提供了 Nvidia 驱动程序、开发 CUDA 程序相关的开发工具包等可供安装的选项。包括 CUDA 程序的编译器、IDE、调试器等,CUDA 程序所对应的各式库文件以及它们的头文件。(NVCC 是CUDA的编译器,只是 CUDA Toolkit 中的一部分)
- CUDA Toolkit (Pytorch): CUDA不完整的工具安装包,其主要包含在使用 CUDA 相关的功能时所依赖的动态链接库。不会安装驱动程序。
- cuDNN:用于深度神经网络的GPU加速库,可以集成到更高级别的机器学习框架中,如tf、torch。
注意:CUDA 和 CUDA Toolkit 的版本是一致的。
可以这么理解:
- CUDA 是一个工作台。
- CUDA Toolkit 是一个工具箱,里面有扳手、螺丝刀等等,后面括号里表示在不同情况下所用的工具箱。
- cuDNN 是一个工具,比如是个钳子。
如果是为了使用 PyTorch/TensorFlow,推荐使用 conda 安装CUDA Toolkit 和 cuDNN。即:
conda install cudatoolkit==版本号
conda install cudnn==版本号
安装 cudnn 时不加版本号会自动安装与 cudatoolkit 兼容的版本。
吐槽:tf不像torch那样很好装,torch官网直接提供了完整正确的安装命令生成器和完美的历史版本查询表。tf则没有,完全靠自己人肉对号入座,而且文档也写得一塌糊涂,链接引来引去,把重要的东西全写在后面了。
Original: https://blog.csdn.net/qq_38237214/article/details/122157197
Author: Jnchin
Title: 正确简单地安装Tensorflow和KerasOriginal: https://blog.csdn.net/qq_38237214/article/details/122157197
Author: Jnchin
Title: 正确简单地安装Tensorflow和Keras

百度BML&飞桨训练营(二)基本流程熟悉NLP简单模型训练

EDA软件断供对国产芯片发展有什么影响?

从零开始,手把手教你使用Keras和TensorFlow构建自己的CNN模型

公众号《AI大道理》征稿函

Keras 中的循环神经网络 (RNN)

深度学习实战(十):使用 PyTorch 进行 3D 医学图像分割

图像处理技术(二)滤波去噪(上)

Mind+ 语音识别控制灯

可穿戴产品常用的几款主流的健康传感器盘点

羡慕 Excel 的高级选择与文本框颜色呈现?Pandas 也可以拥有!! ⛵

微信小程序同声传译开发(语音识别、语音输入转文字)开发教程

离线语音遥控器控制红外设备

SU-03T语音模块的使用(持续更新)

KpHang’s Leetcode notes 力扣算法笔记本
