数据分析从0到1的文章有很多,看得眼花缭乱,有必要系统的梳理一遍到底数据分析的工作流程是怎样的。一般来说,有6个阶段。
1. 搞数据
数据分析,顾名思义,只有有数据才能分析。无论您做什么分析,获取数据始终是最重要的事情。巧妇难为无米之材。尽可能多地做数据,否则一切都无从谈起。
[En]
Data analysis, as the name implies, can only be analyzed if there is data. No matter what analysis you do, getting data is always the most important thing. A skillful wife cannot make bricks without rice. Do as much data as possible, otherwise everything is out of the question.
数据种类很多,当然不可能一下子都掌握,首先要明确需要什么样的数据,也就是目标是什么。
[En]
There are many kinds of data, of course, we can't grasp them all at once, first of all, we should make clear what kind of data we need, that is, what the goal is.
数据分析关注的数据一般是面向业务主题的,比如数据服务的产品、运营、销售、营销等业务板块有哪些数据,我们需要什么数据。这是一名合格的数据分析师必须解决的问题。具体地说,可以分为两个部分:
[En]
The data that data analysis focuses on is generally oriented to business topics, such as what data is in the product, operation, sales, marketing and other business sectors of data services, and what data we need. These are what a qualified data analyst must sort out. Specifically, it can be divided into two parts:
- 指标
- 维度
学习的一个非常重要的方法,那就是自问自答。
如果对自己要搞的数据不清晰,可以问自己以下问题:
- 我服务的部门是?【目的是明确主要KPI指标】
- 部门的KPI指标或绩效考核是?【目的是明确主要KPI指标】
- 部门属于利润中心 or 成本中心?【目的是明确主要KPI指标】
- 部门的主要流程是?【目的是解释KPI指标如何达成,过程指标体系相关】
- 部门现有的过程指标是?【目的是解释KPI指标如何达成,过程指标体系相关】
- 在现有的流程中,已采集的数据是?【目的是解释KPI指标如何达成,过程指标体系相关】
- 部门的组织架构是?【用来筛选关键分类维度的】
- 部门的服务对象是?【用来筛选关键分类维度的】
- 部门常用分类维度是?【用来筛选关键分类维度的】
数据是死的,人是活的
既不能仅仅习惯于取数跑Sql,更要清楚业务流程、数据来源、采集,既要知道自己手里有什么数据,更要明白这些数据背后的意义。
2.定基线
在这个阶段,至少我可以了解手头的数据,了解每个数据的用途,以及重点是什么。
[En]
At this stage, at least I can understand the data on hand, understand where each data is used, and what is the point.
下一步要干嘛???
有了粮食,数据模型就开始构建了!大声建立数据模型,拿出来问别人它是什么,你想表达什么,什么指标是正常的,什么是异常的。如果不是带着一张傻乎乎的脸被问到,那就太奇怪了。
[En]
With grain in hand, the data model began to be built! Build the data model out loud, take it out and ask others what it is, what you want to express, what indicators are normal and what is abnormal. It would be strange not to be asked with a silly face.
所以,第二步非常重要,非常关键的是:定基线。
这一步非常重要,因为数据本身没有含义,数据+标准才有含义!
并不是所有的指标都会由商业方面给出。一些数据很可能需要基于经验、常识和分析的基线。
[En]
Not all indicators will be given by the business side. It is quite possible that some data require baselines based on experience, common sense and analysis.
从网上paste一张截图:
题外话:不管做什么类型的工作,与他人沟通困难或者就某个问题互相扯皮说不清,这样的问题很多时候都是因为双方没有设定一个共识,也就是对某项流程的标准没有达成一致,各说各的。如果一开始就先把这些模糊的问题明确清晰了,以后简直是事半功倍,与人合作就是一件愉快的事情。
; 3.拆因素
跨过第二步后,作为一名数据分析师,您已经很好地了解了业务的共同趋势。而且,如果你有能力做出判断,你就能识别出异常状态。并不是所有的异常都是不可控的,相当一部分异常是由可观察的因素造成的,比如营销行动和促销计划等宏观环境。在这一点上,有必要有能力了解这些清晰可识别的“白犀牛”,然后再考虑其他“黑天鹅”问题。
[En]
After crossing the second step, as a data analyst, you already have a good understanding of the common trends of the business. Moreover, if you have the ability to make a judgment, you will be able to identify the abnormal state. Not all anomalies are uncontrollable, and a considerable number of anomalies are caused by observable factors, such as the macro environment, such as marketing actions and promotion plans. At this point, it is necessary to have the ability to understand these clearly identifiable "white rhinos" before considering other "black swan" problems.
到这里,肯定有人会说:"这个简单,我的PEST,SWOT已经按捺不住了,来吧!"然鹅,没卵用。你看那么多PEST的文章,有一篇教过我们怎么量化P、E、S、T四个指标不???
再paste一张截图
因此,这一步的任务是对影响业务的因素进行拆解,以便将其量化,用一个或多个数据指标来表示,并可以结合内部数据进行分析。即拆卸系数
[En]
Therefore, the task of this step is to disassemble the factors that affect the business so that they can be quantified, represented by one or more data indicators, and can be analyzed in combination with internal data to this extent. That is, * disassembly factor *
具体如何拆解,是需要做大量分析工作的基础,最终沉淀的是最宝贵的经验。
[En]
Specific how to dismantle, is the need for a lot of analytical work to do the basis, and finally precipitated is the most valuable experience.
4.测细节
在完成第三步后,数据分析师可以判断明显和显著的影响因素。如果你想进一步改进,你必须深入细节,了解活动是如何做的,产品是如何设计的,用户需要什么。这些都已经触及了业务的核心,很难在短时间内摸清头绪,需要长期积累。
[En]
After completing the third step, the data analyst can judge the obvious and significant influencing factors. If you want to further improve, you have to go deep into the details to understand how the activity is done, how the product is designed, and what users need. These have reached the core of the business, so it is difficult to figure it out in a short time and needs to be accumulated over a long period of time.
想做这一步,有2个关键工作要做。
- *打标签
你越深入到企业的核心,就越不能描述连续的指标,你就越需要给它们贴上标签。相似的用户情感、偏好、产品功能点、营销逻辑都通过标签来描述和量化。这不同于拖出数据库中的现有维度表。如何对业务进行精准标注、量化、明确分类,是资深数据分析师的本领。
[En]
The more you get to the core of the business, the less continuous indicators can describe and the more you need to label them. Similar user emotions, preferences, product function points, marketing logic, are described and quantified by tags. It's not like dragging out the existing dimension tables in the database. How to label accurately, quantify the business, and make a clear classification is the skill of senior data analysts.
- *做实验
可能有人会说:ABtest经常干,为啥自己感觉不到进步呢。
只能说,现在的ABtest,很多是产品驱动的,不是数据驱动的。鬼知道产品经理从哪里搞了2个版本,扔过来就测,然后让数据分析师解释差异。这是非常本末倒置的,只会让人陷在琐碎的数据里。
一个正式的实验(哪怕没这么正式,起码思路逻辑上要对路):
- 1、有清晰的改进目标
- 2、有清晰的改进逻辑
- 3、有关键改善过程指标
- 4、有环境控制变量
- 5、有组间差异预判
5.理逻辑
想要让数据更好地展现价值,就得有能力应对现实问题。在千头万绪中,梳理清楚问题逻辑,找到正确的答案,或者至少给自己找到脱身的办法。
通过以上4步:描述问题–发现问题–解释问题–校验效果,基本上能够达成闭环,如果在数据层面考虑的话。
但!在实际工作中,相当多的问题不是来自技术,而是来自商业。
[En]
But! In real work, quite a lot of problems come not from technology, but from business.
作为一名技术boy,日常工作最头大的就是怎么跟业务方沟通好,两个不在同一思考维度的人如何做到共赢。最头疼业务方的屁股决定脑袋,业务方急功近利、大干快上,业务方事前拍脑袋,事后拍大腿。
这时候"理逻辑", 重点是把口语表达的,不可量化的业务逻辑,转化成数据可验证的逻辑,并且选择合适的数据方法得出结论。除了数据能力,还需要数据分析师有业务洞察,有一些职场沟通技巧,才能完成任务。
6.组模型
终于到模型搭建部分了!!
此时的我们需要从前几步的数据中提炼一些属于自己的模型出来。
- 如果用少数关键指标就能概括这个行业的问题,可以捏个业务模型
- 如果某个业务场景,用特征+算法能得到很准确的预测结果,就固定成该行业算法模型。
做这一步,不仅是为了沉淀经验、提升压力,更是为了传递知识、扩大服务范围。很难保证,一个掌握了出色分析技能的人,在不改变职业的情况下,终生都会成为某一行业的专家。知识的转移有赖于模型的总结和经验的积累,缺一不可。
[En]
The purpose of doing this step is not only to precipitate the experience and improve the pressure, but also to transfer knowledge and expand the scope of service. It is difficult to guarantee that a person who has mastered excellent analytical skills will be an expert in a line of work without changing the profession all his life. The transfer of knowledge depends on the summary of the model and the accumulation of experience, both of which are indispensable.
总结
作为刚毕业不到2年的职场菜鸟,唯一引以为豪的就是保持着学习的激情,不限领域,不限行业。但是光学不用,就是无用,所以如何学以致用也是我一直都在努力的方向。
我对数据分析的了解越多,我就越喜欢这个职业。这个职位不仅要求人们有自己解决问题的技能,而且还要求他们了解业务、流程和为什么要这样做。这是道、法、艺的综合体。
[En]
The more I know about data analysis, the more I feel like this profession. This position requires not only that people have the skills to solve problems by themselves, but also that they understand the business, the process and why they do it. This is the complex of Tao, dharma and art.
在企业层面,数据分析师的使命不仅仅是收集数据、做处理和分析,更重要的是为管理层提供决策支持,为企业的发展壮大做出贡献。
[En]
At the enterprise level, the mission of data analysts is not only to collect data, do processing and analysis, but also to provide decision support for management and contribute to the development and growth of enterprises.
Original: https://blog.csdn.net/kun_csdn/article/details/122939999
Author: JaquanC
Title: 数据分析工作流程

MATLAB学习笔记 使用马氏距离的RGB图像聚类

基于CNN的图像识别(Tensorflow)

tvm relay inline pass的调研

tensorflow报错问题及解决方案记录页

2022各顶会NAS论文(不全)

手把手教你玩转YOLOX–(下)数据集标注及训练

避坑:利用zed2运行ORB-SLAM3(保姆级教程)(一)

python 语谱图_基于python手动画出spectrogram(语谱图)
![[深度学习]-Dataset数据集加载](https://www.itcode1024.com/wp-content/themes/begin/prune.php?src=https://www.itcode1024.com/wp-content/themes/begin/img/loading.png&w=280&h=210&a=&zc=1)
[深度学习]-Dataset数据集加载

Edge浏览器:“STATUS_INVALID_IMAGE_HASH“错误状态码

【CVPR 2022】目标检测SOTA:DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

【读点论文】Transformer in Transformer 细化图片结构,递归使用transformer。让图片去拟合自然语言处理的操作。

tensorflow2.0 基础知识点4 (基本数学——张量运算)

centos7.9部署Tensorflow版本
