互联网大厂数据分析面试常见问题及解法,建议收藏

人工智能41

工作5年多,在大厂也面试了几十场的同学,有社招也有校招,从面试官的角度沉淀了一些常见的数据分析问题以及问题背后考察的能力,并为大家一一拆解背后的逻辑,助力大家拿offer!

能力模块划分

根据数据分析的一般胜任力模型,将其划分为以下模块。通常,面试官会把重点放在简历的四个模块上。如果简历不涉及这一部分,它将从一般问题出发考察应聘者的能力水平。

[En]

According to the general competency model of data analysis, it is divided into the following modules. Usually, the interviewer will focus on the four modules in the resume. If the resume does not involve this part, it will examine the candidate's ability level from the general question.

  1. 指标体系建设:根据业务目标,制定能客观反应业务现状和进度的指标体系。
  2. 业务理解洞察:从数据出发,发现或解决业务问题,洞察业务机会,并将数据价值落地在业务中,不断迭代优化。
  3. 数据分析方法:了解数据分析方法的底层原理,并能主导完成数据分析项目,应用合适的工具或模型(包括但不限于ABtest应用、规则模型、有/无监督机器学习模型、神经网络等),深入了解业务问题,针对业务痛点给出可落地的分析结论。
  4. 技术能力考察:重点考察技术选型、落地方案,如数据开发能力、大数据组建的应用、数仓的搭建等等

面试常见问题

1. 指标体系建设

问题1:比如为滴滴的管理层搭建公司级的指标体系,同理可得其他常见的移动端APP或PC端的应用。通常会根据候选人背景而定。

问题2:在xx场景下,需要选用唯一的北极星指标去跟踪,请问你会选取什么指标?为什么选取该指标?该指标能反应项目当前的进度或公司的发展情况吗?该指标有什么问题?

考察内容:北极星指标的选择、指标体系搭建的方法论

  • 北极星指标的选择:
  • 系统性:可以找到局部与整体的关系和问题的位置。当数据发生变化时,通过对指标体系的逻辑拆解,可以快速定位出一般的异常模块及其原因。
    [En]

    systematicness: can find the relationship between the part and the whole and the location of the problem. When the data changes, through the logical disassembly of the index system, we can quickly locate the general abnormal module and reason.*

  • 全面性(焦点):能够满足不同数据用户的日常需求,对产品运营和开发有整体了解
    [En]

    comprehensiveness (focus): be able to meet the daily needs of different data users and have an overall understanding of product operation and development*

  • 认知统一性:该指标体系服务于不同的角色群体,解释简单、科学,符合公众认知。
    [En]

    Cognitive unity: the index system serves different role groups, which can be explained simply and scientifically, and is in line with public cognition.*

  • 告别虚荣心(聚焦调查):指标体系要反映产品活跃度,杜绝浮华虚荣心指标。
    [En]

    Farewell to vanity (focus on investigation): the index system should reflect the product activity and put an end to flashy vanity indicators.*

  • 注重健康:在产品注重规模指标的同时,科学的指标体系注重健康水平,确保产品可持续发展。
    [En]

    pay attention to health: while the product pays attention to the scale index, the scientific index system pays attention to the health level to ensure the sustainable development of the product.*

  • 可迭代:指标体系随着生命周期阶段的不同而变化,指标体系在发展过程中要迭代。
    [En]

    iterable: the index system changes with different life cycle stages, and the index system should be iterative in the course of development.*

  • 指标体系搭建的方法论:
  • 根据业务策略OSM:Object(业务目标)、Strategy(业务策略)、Measure(业务度量)
  • 如电商的场景,业务目标为提升GMV,其中GMV=用户数 x 转化率 x 客单价。业务策略为新增高质量的拓客渠道、提高流量分发&产品体验优化、运营促销活动&商品运营。新增高质量的拓客渠道的业务度量为渠道的访问数、登录数、下单数、新用户登陆、下单转化等等。提高流量分发&产品体验优化的业务度量为首页流量曝光数、下单关键节点的转化漏斗。运营促销活动&商品运营的业务度量为用户留存、复购率、商品平均单价等等。
  • 增长模型搭建:Acquisition(获取)、Activation(激活)、Retention(留存)、Revenue(变现)、Referral(推荐)。
  • 如下单后的红包分享活动分析

互联网大厂数据分析面试常见问题及解法,建议收藏

2. 业务理解洞察

问题3:请列举1-2个在之前的经历中,通过数据洞察业务问题并成功落地的案例。在候选人熟悉的背景下深入提问,通过什么数据指标发现问题?发现问题后如何拆解?拆解过程逻辑是否自洽?是否通过严格的数据论证过程去解释?你的分析推动了哪些重要的决策?落地效果怎么样?如何评估效果?后续有无后续的迭代?

问题4:某APP的推出会员付费活动页,上线第一周,会员付费订单数不及预期,请问你会如何分析?

问题5:假如你是穿越火线PC端的数据分析师,如何提升你们MAU?

问题6:一款游戏,月活没变,周活下降,分析原因?

考察内容:结构化思维、业务思维&数据敏感性。

结构化思维:讲项目,遵循项目背景-> 通过数据拆解原因(列举数据,讲拆分思路,注意MECE法则)-> 制定解决方案(合理性) -> 落地效果评估(效果评估严谨性、ABtest) -> 持续迭代优化。

互联网大厂数据分析面试常见问题及解法,建议收藏

举个例子

  • 项目背景:某APP的推出会员付费活动页,上线第一周,会员付费订单数不及预期
  • 拆解原因:通过多维度拆解(渠道、终端、地区等)发现,以及下单核心节点的漏斗分析,不同终端(iphone、安卓)在点击支付到支付完成的转化率差异较大(iphone为15%,安卓为60%)。进一步定位到原因是iPhone平台主要采用IAP支付,连接苹果服务器失败。
  • 制定解决方案:最直接的方法是向苹果官方反馈,希望对方优化,该方案周期较长。那么有什么间接的解决方案呢?可针对有明确购买意愿用户,在支付失败后定向挽回,引导进行H5支付。
  • 落地效果评估:通过上线Abtest,发现有定向挽回的用户,支付完成的整体转化率提升50%。
  • 持续迭代优化:在分析回收渠道的基础上,发现不同回收渠道的转化率差异显著,针对邮件渠道等不同回收渠道制定针对性策略,重点提升游戏点击率。
    [En]

    continuous iterative optimization: based on the analysis of recovery channels, it is found that there are significant differences in the conversion rate of different recovery channels, and formulate targeted strategies for different recovery channels, such as mail channels, with emphasis on improving the click-through rate of the game.*

业务思维&数据敏感性:考察候选人,主动思考,在数据异常的情况下,如何分析,并通过数据洞察/归因发现业务可提升的地方,最终推动业务落地。可以看出这里的关键词是主动&归因分析,而不是被动承接业务需求,这个点要表达出来。

举个例子,比如有数据敏感性的分析师每日会关心核心的业务数据,发现某终端的新用户转化率下降了10%,通过归因发现是当天派券系统出现bug,导致新用户无法领取首单10元优惠券。一般分析师在这一步就结束了,直接回复业务是因为以上原因导致的转化率下降。但是有业务思维的分析师会自我提问,引发一个思考,给新用户派发10元优惠券,到底ROI值不值?要派发10元,8元,6元?还是根本不派券?通过后来的Abtest,我们发现,在当时的业务场景下(刚需),派发3元的优惠券的ROI实际上和派发10元的优惠券ROI的差异并不大。

3. 数据分析方法

这里根据不同岗位的要求,考察不同的能力项。

偏向ABtest实验:则考察ABtest实验原理、实验设计

问题7:AB实验的基本流程

问题8:如何证明AB组的数据差异是不是分流不均匀造成的,为什么可能分流不均,AA测试的理解

问题9:一个UI实验的上线,例如短视频产品,在4G网络下的自动播放弹窗UI实验,A组是实验组(新UI设计),B组是对照组(原UI设计),第一天发现A组比B组点击率高,结论置信,有什么结论,或需要做什么?AB组的差值在不断降低,为什么?

问题10:实验设计时,应该用多少样本量?

部分业务战略分析:考虑量化问题的能力,这部分要求应聘者对被面试公司的业务有一定的了解,通常面试官会给出一个具体的业务场景来分析。

[En]

Partial business strategy analysis: consider the ability to quantify the question, this part requires the candidate to have some understanding of the business of the company being interviewed, and usually the interviewer will give a specific business scenario to analyze.

问题11:新游戏上线,如何对新用户进行分层营销,提升商业化收入?

问题12:游戏上线一段时间后,如何对老用户进行分层营销,提升商业化收入?

问题13:在音乐流媒体APP场景,如何判断是否需要购买某首歌的版权?

偏数据挖掘:则考察机器学习模型、神经网络等

问题14:请解释一下你项目中提到的模型的原理,和选择该模型的原因?

问题15:解释准确率和召回率。它们和ROC曲线有什么关系?

问题16:什么是选择偏差,为什么它是重要的,你如何避免它?

问题17:解释什么是过拟合,你如何控制它

问题18:解释准确率和召回率。它们和ROC曲线有什么关系?

问题19:各大APP(如腾讯视频、QQ音乐等)的「猜你喜欢」背后的原理是什么?

考察内容:Abtest实验、对面试公司的业务了解程度、模型的底层原理&评估方式

针对Abtest实验、模型的底层原理&评估方式,本文就不展开说了,基本套路就是去把原理搞清楚,举一反三。

对面试公司的业务分析(参考张磊的《价值》):

投资一般可从行业、公司、管理层这三个层面来分析。看行业就要关注商业模式,这个生意的本质是什么、赚钱逻辑是什么;关注竞争格局,是寡头垄断还是充分竞争;关注成长空间,警惕那种已经寅吃卯粮的夕阳行业;关注进入门槛,是不是谁都可以模仿;等等。 看公司就要关注业务模式、运营模式和流程机制,管理半径有多大,规模效应如何,有没有核心竞争力。 看管理层就要关注创始人有没有格局,执行力如何,有没有创建高效组织的思维和能力,有没有企业家精神。

在这里,我补充一下,还需要体验该公司的产品,准备一些想法和建议:比如我在面试QQ音乐的时候,就体验了QQ音乐的产品,准备了一些建议,如可通过场景化推荐,根据用户所处的场景(开车、睡前、运动、健身等),结合空间+时间维度,提高推荐的准召率。然后刚好面试官就是负责这块内容,就针对这块深入聊,有备而来的我当然是顺利的拿下了。

4. 技术能力考察

这里主要列举2种较为通用的能力:SQL和数仓搭建的能力。此外还有python、spark、flink等一些技术能力。

SQL能力:

表结构如下

sid

cid

score

学生编号

课程编号

分数

问题20:查询"01"课程比"02"课程成绩高的学生的信息及课程分数

问题21:筛选出每个学生最好那门课的数据,课程数>=2

问题22:union 和 union all差别

问题23:主键和索引的差别?

数据仓库搭建:

问题21:说下你构建过的数据模型的业务逻辑?

问题22:数仓的价值怎么衡量?

问题23:数据中台和数仓的关系?是否有了解数据治理那块?

问题24:从0-1搭建数仓的方法,如何处理历史任务

问题25:数据接入?什么时候用增量/全量?

问题26:离线数仓和实时数仓的关系?如何融合?流批一体架构如何解决这个问题?

Original: https://blog.csdn.net/ian_zlm/article/details/125125420
Author: ian_zlm
Title: 互联网大厂数据分析面试常见问题及解法,建议收藏

相关文章
安装CUDA ToolKit 11.4和cuDNN 8 人工智能

安装CUDA ToolKit 11.4和cuDNN 8

注意!如果你使用的是pytorch,只需要装好CUDA,不需要装cuDNN。而且完全可以等到报错了再装CUDA,一般情况系统都已经装好CUDA Toolkit了。 除非你只装了低版本的CUDA Too...
聚类稳健标准误 人工智能

聚类稳健标准误

一、为什么? 对样本做回归分析的 核心是使用最小二乘法去估计模型里的 参数,比如核心解释变量前面的系数。我们通过最小二乘法使得残差平方和最小,求得 样本估计系数。如果进行一次估计,由于 干扰项e的存在...
2021-11-12 TensorFlow安装 人工智能

2021-11-12 TensorFlow安装

新手刚开始接触机器学习,安装过程遇到了几个可能比较基础的问题,特此记录。 一、目的 安装win10下Anaconda3安装Tensorflow 二、安装anaconda3 这个按照这个链接操作即可,操...