关于数据分析的一些思考

数据科学方法论与实践框架构建

Posted by 冯宇 on June 9, 2024

整体性框架

指标体系

什么是指标体系?

简单来说就是找到不同的角度去描述同一件事情,只是说,我们在找的过程中可以关注下面的点

  • 能够体现当下业务的关注点
  • 同时包含过程性指标和结果性指标
  • 有对应的业务抓手

在前面两点的基础上,我们除了希望通过指标体系反映业务现状、定位问题原因外,更希望它能够指导业务动作,告诉哪些部门应该在哪些环节进行改进,这个就是我们说的“要有对应的业务抓手”。

这里可以用GPA来举例,我们在评估一个学生的优良好坏时,往往会采用GPA的方式实现,这个指标关注的是学习能力,仅仅只是一个结果性指标,如果只依靠这个东西去评判学生,那么就很容易陷入到一叶障目的局面。因此,我们需要更多的东西去帮助我们判断,需要过程性的指标,那么什么东西是过程性指标?比如说论文或者项目经历,这些需要时间堆积的就是一种尝试从过程性指标入手的判断方式。

那么有了上面工作,接下来我们想要提升我们的综合排名,就可以给出具体的建议。

如何构建指标体系?

所谓构建指标体系其实就是在问,我们应该从哪些方面,哪些机位去观察事物?在这个问题下各个框架的本质目的都是服务于此。如何准确且全面地描述事物。

OSM模型

这个模型主要分成三个部分

  • O(Object,目标)。一定要清晰了解业务重点和目标
  • S(Strategy,策略)。将目标和核心指标拆解,拆解为各个过程性指标。
  • M(Mesure,指标)。确保各个细分指标独立并且相互能够穷尽。

从上面的组成其实就可以发现,这个模型要做的就是根据目标制定不同的行动策略,然后用对应策略的指标去衡量就可以。

让我们再次回到如何评估学生的综合能力这个目标。

我们的策略是先将能力分为学术能力与非学术能力。即非学术能力作为学术能力的一个附生存在。不过这里只是为了方便说明问题,并没有太大必要去做更细的区分。

我们可以进一步地追问,如何衡量学术能力与非学术能力。

其实这里的本质问题是:如何判断各类能力的本质作用变量?

我们可以从相关性出发,找到似乎和学术能力相关程度较高的因素,比如说学习成绩以及科研项目。

这里我们就可以找到相关的目标了,提升学生学习成绩以及让他们参与到更多的科研项目。

第二步:寻找能够实现目标的行动策略。

比如说提升学习成绩,我们就需要将学生与学习成绩之间提升之间的流程给写出来。

上课->学习->课后复习->习题测试->成绩提升。

比如说,接下来我们就可以进一步构建上课相关的指标,比如说缺勤率,上课时间,上课回答问题数量等。

如何应用指标体系

  • 首先要明确产品的业务目标,KPI和所处的产品阶段。

比如说,我们为学生提供课程说到底是要提升学生的成绩,我们的KPI就是在学期末的时候教授完所有的课程。

这个时候我们可以按照时间为提供产品服务划分阶段

(1)前半学期

(2)后半学期

当然,这样的划分是一种比较粗略的划分。下面是更加精细的划分方式。

目标细分可以有多种类型,常见的有以下几种:

●按达成时间细分:年、季度、月。

●按服务对象细分:各个部门、整个公司。

●按流程位置细分:结果型目标、过程型目标。

  • 根据业务目标,确定判断标准

简单来说就是要判断一下到底没有没满足条件,比如说每天定读15页书,结果只有读了10页,那么接下来需要做的就是分析为什么会没有达到。

  • 根据业务需求,从数据指标体系中挑选出相应的指标,进行拆解

这里的话就需要根据工作经验整理相关的数据指标了,所以后续的学习过程中需要根据具体的工作场景积累不同的指标,然后总结模板,这样的话就可以十分迅速地应用起来。

  • 查看不同层级数据指标,找出原因
  • 搭建以日、周、月为单位的数据指标监控体系报表
  • 根据数据监控结果/数据指标体系进行多维度分析

具体操作步骤可以是下面的

(1)进行多维度分类分析,这里可以用的方法参考即兴表达中的矩阵分析法,通过设置不同的横纵坐标,我们能够实现多维度分析

(2)确定指标异常状态,明确运营策略执行者。

(3)明确执行时间,可从反馈类型+时间状态两个维度实现

过去+负反馈->关注什么问题

过去+正反馈->获得什么样的经验

未来+负反馈->应该警惕什么

未来+正反馈->应该去发现存在什么样的机会。

(4)明确需要多大力度。

其实当自己不断确定自己的一个状态以及接下来如何和人相处的时候,就是在明确自己要在互动过程中扮演什么样的角色,并且以什么样的姿态才能够实现自己的目标以及让大家都能够获得比较大的收益。

(5)复盘后行动改善效果。最主要的环节就是效果的复盘,观察是哪里出了问题,然后看具体效果并且改善。

数据指标体系,需要配合数据监控体系。

经验积累

电商场景:提升总营业收入的指标体系

image-20240522194214888

上面的指标体系就是根据OSM模型构建出来的,其实还可以进一步对注册、登录等各环节进行逐层拆解。

GMV拆解

image-20240524170101290

GMV收入指标=流量X付费转化率X客单价

其实本质上就是有多少人买了这个产品,但是在互联网中我们得加入转化率这个指标.

社交/工具累DAU

image-20240524170236665

常见错误与通用工作流程

数据分析最终是否能产生价值,除了上述的发现问题、定位问题、给出方案和建议外,还要注重项目的落地,这里涉及的能力有项目能力(需求管理、定义问题、落地计划、部署上线)、资源协调、向上汇报、横向沟通等。

初入门的数据分析师往往会陷入到下面的陷阱当中

  • 不了解数据来源,不确保数据的正确性

很多人在数据分析中十分重视分析方法,却忽略了数据本身,这是数据分析最大的“陷阱”:不了解数据来源,不确保数据的正确性。错误的数据是得不出正确的结论的,因此,数据分析的第一步就是了解数据来源,确保数据正确性。

  • 未清洗数据,数据抽样存在偏差

  • 需求不匹配,分析目的不明确
  • 指标不合理,评估出现偏差

  • 轻视业务,生搬硬套方法论,与实际场景脱节

数据分析流程

业务解构

一般来说我们都是通过数据的结果分析与呈现去影响最终业务的一个具体执行。这个过程,首先看到表面解决问题的过程:明确问题(what)→分析原因(why)→落地执行(How)。

在这个过程当中的逻辑可以是:业务解构(what)→建模分析(why)→变革提效(How)

其实这个流程在个人成长当中也极为有用,对于自己现在正在做的事情,将其解构,看看要素之间的关联是如何发生的,然后我们进一步构建新的模型,去尝试提升效率。

比如说,弄明白情绪的产生机制后,我们就能够根据这个机制,进一步去丰富我们自身对于情绪的理解以及加强对其感知能力与控制能力。

建模分析

帮助驱动业务的数据分析方法可以概括为:比较分析、相关分析、预测和发现。

  • 比较分析

通过横向与纵向比较判断当前指标、特征是否显著

  • 相关性分析

分析变量之间的相关性

  • 预测

帮助企业实现对销售或者用户行为的预测,进而赚更多钱。

  • 发现

这种方法主要应对未知模式的分析

变革提效

借用《数据分析即未来》里的观点:判断一个组织的数据能力强不强,并不在于它的算法模型有多复杂,而是数据模型能否融入业务流程中,在不同部门间形成协同。为了达成数据驱动过程,在最后的落地阶段,需要数据分析师完成两项工作:数据故事与模型实施。

  • 数据故事

简单来说就是根据数据,去创造一个能够说服人的故事。这里可以采用数理B,反限C的方式去表达。

往往会需要去做PPT,去讲述起因,过程,确保最终结论让人认可。

  • 模型实施

不论是业务模型还是算法模型,最终都需要落地实施、部署上线。

不同的模型部署的地方不同,业务模型会放到流程当中,算法模型则是放到产品功能里面。这里抖音就是一个比较好的例子。

数据驱动业务增长是一个厚积薄发的过程,需要在日常业务工作中做好数据收集、数据清洗、数据监控、数据可视化分析、数据产出在内的每一个环节。其底层逻辑体现在基于数据思维进行的业务解构、建模分析,并最终将分析结论在业务流程中落地,实现变革提效。

这样来看,其实柳比歇夫的时间管理法则就是这样一个数据收集(自己做了什么事情)、数据清洗(整理笔记)、数据监控(每个时间段的活动)、数据可视化分析(或是画图或是整理出文本)的方式去管理自己的生活。想要实现超越,我们必须有策略地去做!

通用分析方法

新的问题:什么是数据异常?

简单来说就是数据和我们的认知或者说心里预测的结果不一致。存在偏差,所以我们认为存在数据异常。

现在的问题是,存在哪几种异常?在生活中又有哪些东西是符合描述的?

  • 一次性波动:只在某个时间点发生波动

这个东西经常发生在股市里面,比如说马斯克发布了要收购推特的消息,一下子就能够让推特的股价发生改变,这就是一种突发性的一次性波动。再回到生活当中,早上时候突然老师发消息过来说某个代码存在问题,其实这个时候就可以看作是一个数据的一次性波动。因为老师与我的互动不是周期性的。

  • 周期性波动:周期性上升或者下跌。

  • 持续性的波动:从某个时间点开始,一直出现上升或者下降的趋势。

这一点的话快乐或者emo都可以用来解释,比如说当我知道我被欺骗之后,就会持续性地处于一个emo的状态,不过近来回复速度也逐渐加快。

工程能力

产品能力

业务经验

算法模型

项目能力

分析思维

什么是数据思维(What)

数据思维是指一种借助数据思考的逻辑思维能力。

其中存在下面几个核心要素

  • 数据概念表述(表示)
  • 判断分析能力(分析)
  • 逻辑推理能力(推理与应用)

在我看来,这里面其实就两个核心过程:解释和预测。不过这个更像是对模型具有能力的表述,其实我们的智能在现实中的作用也是这样一个过程。

数据概念表述(表示)

这里就可以发现数据有两大作用

  • 了解现状
  • 快速拉齐信息

数据分为定性数据和定量数据:

●定性数据描述事物的属性、名称等,它是一种标志,没有序次关系,例如“性别”数据中“男”编码为1,“女”编码为2。

●定量数据描述量化属性,或用于编码,如交易金额、商品数量、积分数、客户评分等。

判断分析能力

什么是判断分析能力?可以理解为分析决策和做结论,能找出部分现象的本质属性和彼此之间的关系,对其进行剖析、分辨、观察和研究。

从图模型的角度来说,就是找到各个变量之间的相关性、因果性甚至是偏微分关系,判断各个变量之间是如何影响作用的。

我们必须在这个过程开始之前就确定自己的目的,否则我们就只会获得思考的快乐,进而失去更加重要的存在——对现实的掌控力。

如何做呢?

  • 明确目的。在DUCG中则是一开始就可以确定我们要研究的问题,即眩晕问题。
  • 全面了解信息,尽可能消除信息不对称。

假象不可怕,可怕的是看不透假象。

  • 借助分析方法、模型框架

  • 落地场景。分析不同的结果,考察是否具有落地可能性。

逻辑推理能力

逻辑推理注重的是客观事实,是指一个人对于某件事件进行观察、分析、判断之后,进行推理、论证的一种综合能力。

其实就是根据现实当中接收到的证据去推理的能力。这里可以分为根因推断以及未来预测两个部分。

关键就是讲数据故事。

这个时候就存在下面要素

  • 论点:分析结论、落地建议是什么?

比如说在DUCG里面,做的就是找到不同的能够解释当前证据的结论是什么,然后进一步给出具体的落地建议,这一步就需要和领域专家配合起来。

  • 论据

这一步在DUCG里面就是各个变量之间的因果关联关系以及转移概率

  • 论证:如何基于论据推出论点?强有力的论证必须基于业务场景。

在DUCG里面应用到的推理规则是链式推理,权重逻辑展开就是一种推理法则。

此外,CCRP算法也是一种推理规则,只是这种规则是在模型内实现的。

如何使用数据思维(How)

使用数据思维需要结合数据分析流程:明确问题(What)→分析原因(Why)→落地执行(How)。

明确问题(What)

  • 明确目标。查看数据波动,明确数据来源在哪里?目标是谁?

在我看来就是要去分析我们的数据是哪里来的,每一天看的可能是抖音或者小红书又或者是知乎,这些信息的来源是否可靠?

  • 理解数据

接收到数据之后,要看是否有意义。比如说,相同的事物,不同层级的抽象表达,给人的感受是完全不一样的。

eg。粗粒度:那个人

细粒度:那个早上穿着不同颜色袜子到面包店买了一瓶果酱的奇怪男人。

这样的描述粒度是完全不同的。

  • 确认目的

我们为什么要分析,这是这一环节要处理的问题,如果没有目的,那就是在瞎想。当然,作为无聊时的放松自然是可以的,只是当我们投入到工作中时候,我们就必须要思考如何才能够更加有效的思考。

  • 预期效果

明确通过分析达到什么效果。这里的话最好就是用某个可以量化的目的去解释。

就比如说,我现在通过了解数据分析的内容,我想要达到的目标是什么?最终的目标肯定是找到一份数据分析的实习,可是在前面的阶段,需要做的同样需要将其量化出来。这里可以存在两种形式效果呈现

(1)项目成果呈现。这一步我打算分成两部分,一是论文成果,二是项目成果。论文成果就按照正常的流程去做就可以,项目成果的话接下来就需要去学习数据分析课程中的内容,然后搭建诸如推荐系统之类的项目。

(2)知识性成果呈现。这一部分打算整理出一个比较简单的框架去展示到网上,这样形成一个知识输出的过程,进而让大家知道我确实学到过这些东西。

此外,学习算法的成果也可以被量化,简单来说就是根据问题去找到不同的解决方案,然后从中挑出一个比较合适的解决方案。

之后的代码练习就按照这种方式去实现。

分析原因(Why)

  • 明确需要。需要什么维度的数据?

马斯洛的需求理论其实就回答了这个问题,或者说给了我们一个启发,让我们在寻找原因的时候,可以从自我实现这一个框架当中去寻找。进一步地,我们又能够感知到更加底层的数据。

  • 拆解指标。

比如说在爱的需求这一块,要拆解指标的话,则是与他人的联系,以及愿意给予与探索的心。

  • 数据采集/处理。现在我们对爱有了指标拆解后,接下来要做的就是采集数据,只有这样我们才能够判断自己有没有爱人。

这里常用的方式就是调用数据库还有提前技术卖点。技术埋点在这里的具体操作就是找到让自己感受到爱的时刻,这一点不仅仅可以用在自己身上,用在他人身上也是一样的。我忽然意识到!所谓爱的语言,就是找到爱的技术埋点!

我们必须要去挖掘自己被爱的时刻,同时也要挖掘他人被爱的时刻。

  • 数据分析。

其实这一步要做的事情很多,我们需要判断我们的数据埋点到底是不是准确的,如果我们理解对方的埋点是A,事实却是B!那么最终也只会让对方感到厌烦,不愿意再多接触交流。

因此,我们必须要对数据进行综合分析,这里的方法有很多,相关分析或者对比分析。

于我而言,我的常见的学习方式就是找到领域书籍去直接获取高相关性的因素,通过观察那些因素,进而采取对应行动。

这一步其实可以看作是一个测试的过程。

落地执行(How)

就是讲故事,不过用的东西是数据,而不是日常语言。具体要做的事情如下

  • 数据展现。总得给人看吧,找到问题以后,这样会非常直观。
  • 输出价值。找准问题以后,就得想怎么行动了。
  • 执行方案。确定具体的执行方案是什么?预期的效果又是什么?通过不断地迭代,最终就能够创造出更加具有价值的生活。

以健身为例,其实可以看一看自己健身的时间、强度等指标,然后从中判断出自己当前处于什么问题,是锻炼不充分?还是哪一个环节没有做对,导致自己现在处于一个不上不下的阶段。

训练方法

可以从数据思维的要素出发,去做针对性的训练:

●数据概念:掌握基本的数据认知,如统计学知识、指标体系,针对性地了解业务。

●判断能力:借助数据分析方法,提升对事物的判断力。

●推理逻辑:基于问题、数据、结论等,给出自己的观点,并利用数据进行论证,也就是用数据讲故事。

数据概念:提升对数据的敏感度

这里的数据我们可以将其抽象到生活中方方面面,什么锻炼啊,什么睡眠啊,什么吃饭啊,都可以将它们给量化!

  • 养成对数据的探究,需要知道数据是如何来的

只有保证了数据的可靠性,才能够保证后续结论推理的有效性。想像这样一个场景,如果是菜市场中的肉贩子说自己的肉质好,这样的“数据”值得相信嘛?肯定不能嘛,自己肯定是会说自己的好,哪里有说自己差的。

  • 梳理数据指标的维度

理解评估标准,不同业务有不同的关键业务指标,可以利用思维导图积累相关业务的指标体系,多总结、多问为什么。

其实就是积累具体的指标是如何拆解的,这样的话相当于增加训练样本了,以后遇到就能够更快速地处理。

  • 养成对数据指标的拆解习惯

简单来说就是养成解构的习惯,要善于将所有东西都给拆解为更加细小的元素,这样我们就能够通过干预基本变量进而解决复杂问题。

到底还是要关注变量之间的关系

我仍然记得变量之间存在的关系:相关性,因果性以及偏微分关系。

  • 了解业务是如何说明业务的

增强数据的可解释性,这点的话可能就要借助到某些模型什么的。不过或许也不需要。比如说一个人一天睡10个小时,从一般人的角度来说,我们都知道睡眠时间越长对一个人的精力水平有正向的影响。

判断能力:多熟悉各种数据分析模型

这一步要做的就是积累更多的模型了,对于我而言,其实没有必要跟随别人去学各种各样的模型,因为当前我已经逐渐构建了自己的框架,自己需要做的是根据自己框架中的需要去不断学习对应知识的模型,这样更有针对性一些。

比如说即兴表演,这里就存在许多模型,正式表达的、即兴演讲的以及即兴交流的,每一个场景下面应用到的模型都是不一样的,学了这些东西能够直接对生活产生正面的影响。博弈论也是同样的道理。

推理逻辑:用数据说事实而不是观点

  • 讲事实。

《原则》一书中提到:大部分人不是真正地寻找事实,而是寻找那些能证明自己观点的事实。

这样一种生活方式会让自己陷入到舒适区,无法成长。不过也有好处,那就是能够构建出自己的框架。对于现阶段的我而言,更重要的事情是构建框架,不同我希望做到的是在尊重事实的基础上构建自己的框架,否则构建出的生活哲学脆弱地难以忍受。

  • 用客观标准代替主观判断

主观是指人的意识、思想、认识等;客观是指人的意识之外的物质世界或认识对象。

其实还是用数据说话,这一点就和

show me the code rather than story or ppt

是同样的道理。

  • 利用演绎法的核心思维方式:三段论

简单来说就是由大前提→小前提→结论

一般性分析方法

描述性分析

这一块的基本思路其实之前也练过,比如说什么泰坦尼克号之类的例子

首先,描述业务概况,根据分析目的,计算关键字段的描述性指标,如平均数、标准差、方差、分位值等。

其次,描述分布规律,如正态分布、长尾分布等。

再次,制定参考标准,根据业务经验或是之前制定的标准,制定参考标准。

最后,综合现状和标准输出有价值的结论,并进行可视化,如柱状图、条形图、散点图、饼状图等。

我想到,完全可以以我自己要开一家米线店为例,首先想好许多问题

描述性分析主要回答业务现状“是什么”以及“怎么样”的问题

对比分析

我们每个人在日常生活中都会用到对比分析,对比已经成为一个基础性的认知活动,可以说,没有对比,就没有价值判断!

我们现在的问题是,如何才能够更好的对比?(Why)

有了问题,那么接下来就需要去思考,当我们在对比的时候,究竟发生了什么?我们是在和谁做对比?

一般来说,我们对比对象(Who)如下:横向对比和纵向对比

image-20240524161731308

仍旧以小吃店为了,目标层面我们要对比的是每个月要卖出小吃数量,与历史对比则是要看相较上个月或者去年,自己的营业额是否有所增长。与同类竞品比较则是对比当前区域中竞争对手的销售情况,与行业对比则是看在一整个区域当中,自己家处于什么样的水平。

另外,有了对比对象以后,我们需要进一步去思考要对比的东西。(WHAT)

  • 对比宏观指标。宏观指标看现状。

  • 对比细分指标。细分指标探究原因。
  • 对比竞品、行业指标。外部对比看环境。

image-20240524162055286

对比原则

  • 对比对象要一致。一个比大象重量,一个比小鸟重量,对比个球。
  • 对比时间属性要一致。总不能自己用今年的数据和别人去年的数据对比吧。
  • 对比指标定义和计算方法要一致。如果算的方法都不一样,那还对比个锤子。
  • 对比数据源要一致。不能说一个数据来自政府,另外一个数据来自民营企业吧。

其实从这一点来看,我们对比不同计算方法的时候,对比精度是没有意义的!因为我们算的方法都不一样,说个锤子精度。什么情况下我们可以对比精度?这是用现实测量工具才能够对比的!有了一个现实的基准才可以,可是问题在于领域当中没有一个基准,那再多的精度对比都是无意义,白干。

另外,对比时间的时候需要格外注意业务场景。可能有的受到假期影响比较重。

细分分析

所谓体系,一定是多个相关的指标以一定的形式组织在一起,而这种形式,一般是金字塔或者逻辑树的形式,体现的是一种总分的思路。

构建自己的世界观同样也是如此,仅仅只是将那些概念罗列出来是不行的,还需要将他们组织起来.

有了完善的业务指标体系,就可以清晰地知道业务的现状.

细分分析是一种非常重要的分析思维,多问一些“为什么”,才能得到关键的结论。而一步一步拆分,就是在不断问“为什么”的过程。

拆解只是手段,优化才是目的

正如对问题的分析只是一个手段,关键还是要去解决问题.

归因分析

简单来说就是找问题的原因.这里提供集中常见的归因分析模型.

  • 末次归因模型(最后点击模型)

这种归因模型将功劳100%分配给转化前的最后一个渠道,即不管用户发生了什么行为,只关注最后一次。

image-20240524170922279

这种在生活中也很常见,谁最后负责了某个事,然后出问题了,谁就大概率会追责.

  • 首次归因模型(首次点击模型)

这种归因模型将功劳100%分配给第一个渠道,即不管用户产生了多少行为,只关注第一次。如果末次归因模型是认为“不管之前有多少次互动,没有最后一次就没有成交”,那么首次归因模型就认为“没有第一次的互动,剩下的渠道连互动都不会产生”。

根因推断做的就是这件事。

image-20240524171601354

两种模型用的场景是不一样的,如果处于扩展阶段,那么就会更加关注用户是在哪里第一次接触公司。

  • 线性归因模型

线性归因模型是多触点归因模型中的一种,也是最简单的一种,它将功劳平均分配给用户路径中的每一个触点。

image-20240524171650548

  • 时间衰减归因模型

对于路径上的所有渠道,距离最终转化时间越近,就可以获得更多的功劳权重。时间衰减归因模型基于一种假设:它认为渠道越接近转化,对转化的影响力就越大。

image-20240524171727453

为什么我说追溯上一个阶段会更好,而不是回到自己的童年,因为我一定程度上认为影响当前自己心理状态的主要原因就是上一阶段自己的不足。

  • 位置归因模型

image-20240524171840913

这种模型重视最初带来的线索以及最终造成成交渠道的模型。

理论上来说,归因分析应当是一个非常有用的分析方法。但在实际应用时存在一些难以克服的问题,这其中最大的问题是数据质量的问题,一个模型再好,如果数据质量不行,那也是不准确的。

从自身成长的角度来说,数据可以是过去的经历,也可以是当前的经历,通过不断喂新的,更加美好的数据,自己也就有了更大的成长可能性。

预测分析

人终其一生,一个重要目标就是为了让自己变得可被预测。

如何才能够预测自己?我想完整的三观是必须的,要知道自己所有的思想所在,不至于被潜意识所支配。

什么是预测?简单而言,基于过去和现在的数据,预测未来的进程。

相关性分析

简单来说相关性分析就是找到存在相关性的变量。

所谓相关性是指一者变,另外一者也变,这种变动是双向的。如果是单向的改变,那么就是因果性。

相关性是描述两个变量之间相互关系强弱和方向的度量。

虽然因果性是精度更高的度量,不过我们在日常生活中,大多数用到的就是相关性。

相关性主要用来解决下面两个问题

  • 判断多个变量之间是否存在统计学上的关联
  • 如果存在关联,那么进一步分析关联的强度以及方向。

方法

  • 皮尔逊相关系数

简单来说就是评估一个变量变化与另外一个变量变化是否呈现出线性关系。即,相关性是否可以用直线展示出来?

但是这个方法存在下面的局限性

(1)处理离群值比较无力,这个时候算不出变量之间的相关性。

(2)无法区分自变量与因变量。其实也很好理解,毕竟是判断线性相关性的工具,要是能够区分自变量与因变量,那就变成因果的工具了

(3)无法用以计算非线性相关关系。

帕累托定律分析

二八定律的含义是指多数时候,80%的结果归于20%的原因,多数往往只会造成少量的影响,少数往往会造成关键影响。

二八定律分析要求数据分析师在数据分析工作中要善于抓主要矛盾,善于从纷繁复杂的数据工作中理出头绪,把资源用在最重要、最急迫的事情上。

其实帕累托定律分析应该要和相关性分析配合使用,因为我们只有知道哪些变量之间存在相关关系,我们才能够进一步去抓住主要矛盾,不然在一无所知的情况下,我们很难判断什么东西是关键的,什么东西是非关键的。

现在的问题是,我们要如何应用帕累托分析,其实也很简单,就是对评估的指标进行排序,然后找到排名靠前的指标。

不要以为帕累托定律意味着只做80%的成果。正如80%的楼房是在前20%的时间内建造的,但仍然需要完成楼房的其余部分才能完成工作。

商业分析方法

PEST分析

其主要围绕政治(Politics)、经济(Economy)、社会(Society)和技术(Technology)四大类影响企业的外部环境因素进行系统分析,进而精准地判断宏观环境的现状及变化趋势,抢占先机或是规避风险,帮助企业做出正确的战略决策。

之前我看到另外一种说法就是需要在分析框架当中加入表演的框架,当时觉得深以为然,因为表演框架可以看作是各个框架的一个综合性体现,我们在表演的过程中,总是带有我们所处的政治结构,经济结构,社会结构以及对现实的掌控技术手段.

  • 政治

国家的制度,政策以及法规等.

政治环境对行业的影响是最大的,也是最宽泛和最不好把握的。

为什么说家里面在体制内有人最好?因为如果在里面有人,就能够第一手把握政治,这样对于自身经济拥有最大的分配.

从家族的角度来看,如果能够进入到体制,是最好的选择.从个人的角度来说,选择自己的路则是最好的.

  • 经济

与政治环境相比,经济环境对企业生产经营的影响更加直接,更加具体.

构成经济环境的关键战略要素包括GDP、利率水平、财政货币政策、通货膨胀、市场需求等。一般分为宏观、微观两个方面。宏观是国民收入、GDP、CPI等关键指标的变化,这些指标往往表征着国家经济发展的趋势,通过这些指标可以识别出当前经济周期是处于波峰还是波谷、上行还是下行,然后顺势而为,才能享有经济的红利。微观经济环境主要指企业所处行业的周期情况,例如企业所在地区或所服务地区的消费者的收入水平、消费偏好、储蓄情况、就业程度等因素,这些因素直接决定着企业目前及未来的发展情况。例如,随着互联网流量成本的增加,各大电商的经营效益大不如前,这个时候,新零售又兴起了。

如果经济行业拥有人脉是最好的,这样的话能够帮助自己及时了解经济消息,即顺势而为.如果目标是想要赚钱的话.

  • 社会

社会分析较为困难,因为其涉及因素特别多.

建议对社会环境的分析聚焦在影响行业收入和成本的社会因素,然后采用拆解的思路逐项分析。

  • 技术

科学技术是第一生产力.但是我们关注技术,关键不是罗列,而是要回答:什么技术对行业发展至关重要?

这很简单,如果找到发展至关重要的的技术,那么我们就能够很容易乘风破浪.

未来必然是因果推断的世界,因为人们对于现实解释与预测的精度会不断提升,GPT能够大幅度提升生产力.但是关键的精度,也就是后20%,这条路还是需要数据分析里面的高级方法才能够实现.即应用符号主义的思路才能够去实现.

分析思路

首先,要确定分析的目的,然后才能有侧重地从政治、经济、社会、技术等环境因素入手分析。

对于我个人而言,想要做的就是赚到足够的钱,然后去更多地探索这个世界.我意识到,或许我不需要进入到体制内,毕竟要进入体制,自己还有很多办法,比如说让自己的亲人进去,当然,得值得信任的人.关键不在于一定要让自己掌握权力,而是说,要让自己掌握力量.

其次,找出各个方面的影响因素.

再次,确定哪些因素对目标起到关键作用.

最后,对信息进行整理,得出最终结论.

其实最好就是将PEST分析当作一个收集信息的框架,我们应该关注这个框架下,政治,经济,社会以及技术四个要素对人的影响,然后从中挖掘出人们的真实性需求.

SWOT分析

这种分析方法又称为态势分析方法.同时分析对象内外部因素得出战略性结论的分析方法.

主要存在四个维度

  • 优势Strengths

具体包括:有利的竞争态势、充足的财政来源、良好的企业形象、技术力量、产品质量、市场份额、成本优势、财务资源的充足保障、管理层的能力保障、市场上的业绩口碑、策略的远瞻和适应性等。

  • 劣势Weaknesses

具体包括:设备老化、管理混乱、研究开发落后、推广营销的能力不足、内部管理不佳、资金链断裂、成本过高等。

  • 机会Opportunities

具体包括:新产品、新市场、新需求、外国市场壁垒解除、竞争对手失误等。

比如说当GPT出来的时候,就是一个典型的新机会,当然自己那个时候并没有能力抓住那个机会.这种能力是综合性的,而怡姐就抓住了这个机会.往后这些机会,只能够通过自己去抓住,而不是依靠老师或者其他人.自己必须在此之前准备好,学习各种技术就是为抓住机会做准备.

  • 威胁Threats

具体包括:新的竞争对手、市场紧缩、行业政策变化、经济衰退、突发事件等。

内部因素 外部因素
优势 机会
劣势 威胁

分析思路

(1)选择相应的分析范围,确定目标以及战略

(2)梳理SWOT各项因素,并且标记紧急程度.

以研究生阶段数据分析为例,可以做的分析如下

  • 优势:沟通汇报能力,思维能力,
  • 劣势:PPT能力,项目管理能力,业务能力,报告能力,
  • 机会:重点项目_国家自然科学基金项目,智能运维相关研究
  • 威胁:就只有自己一个人去研究各个内容,项目的核心难点需要依靠自己攻破,未找到合适的数据集

结合优势和劣势去进行思考:●“我”现在所处的行业/领域发展潜力如何?●“我”的专业技能在市场上是否有竞争力?●在这个岗位上再干5年或10年会是怎样?●外部环境有哪些对“我”有利的因素?●“我”身上有哪些别人不具备的能力/技能?在发现机会和威胁因素时,可以进行以下思考:●外部环境有哪些对“我”不利的因素?●现实中有哪些阻碍?●有哪些即使“我”不断提升和改进仍无法改变的环境因素?●“我”的经验和技能是否足够?●行业/领域中有哪些阻碍“我”个人发展的因素?

(3)整体分析,进行组合各种策略方案

考虑在不同组合下的可行性方案,例如:●“优势+机会”:在这种情形下,企业可以用自身内部优势撬起外部机会,最大限度地发挥优势。●“劣势+威胁”:自身的劣势能否快速弥补?如果不能,能否尽量规避这一劣势带来的威胁,充分发挥自身的优势,在某个细分赛道碾压对手。●“劣势+机会”:如果发现机会,但竞争处于劣势,这个时候需要加大内部投入,尽快促进劣势向优势转换,打造更多核心竞争力。●“优势+威胁”:在这种情形下,需要时刻警惕自己的优势地位,保证拥有核心的竞争力,应对外部环境的威胁,尽量做到少犯错。

(4)按照矩阵或者类似的方式,进行优先级排序

(5)根据战略目标,进行评估,选出最终方案.

逻辑树分析

其实就是金字塔方法是,将一个问题拆分为子问题,考虑这个问题和哪些问题或者子任务相关.

如果要用逻辑树去分析问题,那么就需要满足三个要素

  • 要素化:将相同问题归纳成要素,找出关键因素
  • 框架化:将各个要素组织成框架,遵守不重不漏的原则
  • 关联化:框架当中各个要素保持必要的相互关系

2 逻辑树分析应用的基本思路第一步:确定需要解决的问题。将原本模糊笼统的问题,确定为一个个具体的、单纯的问题。第二步:分解问题。将问题的各个结构拆分成一个个更细致的、互相独立的部分。第三步:剔除次要问题。针对各个部分依次进行分析,找出问题的关键点,剔除那些不重要的。第四步:进行关键分析。针对关键驱动点,集思广益找出解决问题的方案。第五步:制订方案。将思维过程转化为可执行的计划

面试可能遇到问题

  • 现在我们的APP的日活显著下降,你能够帮助我们找到数据异常的原因?

好的,我认为我们可以从以下几方面去做这样事

(1)首先判断数据源的准确性。数据源是基本,如果采集得到的数据源本身就是错的,那么我们做再多的分析也是白搭。

(2)保证数据源的准确性后,我们要做的就是评估指标异常程度以及影响。

这个时候我们可以从三方面来考虑评估:

横向对比、纵向对比以及业务影响分析。

横向对比是指要判断我们的指标相比其他同类竞品的对应指标是否存在下降,下降了多少?是否在一个合理的范围?

纵向对比则加入时间因素,我们考虑昨天、上一周同一天、上一个月同一天的指标数据变化情况

业务影响对比是指去看日活这个指标下降了,对业务会产生什么程度的影响?

(3)在获得指标以后,我们就需要进一步地去拆解指标

例如,日活=新增用户+老用户留存+流失用户回流,将这些指标进一步拆解如下:①按新增用户来源渠道拆解:应用市场,百度搜索等;②按老用户留存渠道拆解:华为、vivo应用商店等;③按新老用户登录平台拆解:安卓、iOS等;④按新老用户的区域拆解:天津、北京等;⑤按新老用户使用版本拆解:新、老版本;⑥按新老用户活跃时间拆解:节假日、周期性等;⑦按回流用户类型拆解:自然回流、回访干预回流等。

(4)做出假设,分析验证

“内部—外部”事件在一定时间内可能会同时存在,万变不离其宗,主要关注数据指标的起点、拐点、终点即可。●数据指标起点:数据指标刚下跌时,发生了什么事件,往往起点事件是问题发生的直接原因。●数据指标拐点:在指标持续下跌过程中,是否某个事件的出现让问题变得更严重,或者开始改善。拐点意味着可以通过运营手段改善指标。●数据指标终点:当某个事件结束后,指标恢复正常;或当开始某个事件后,指标下跌结束。终点事件的两种形态,代表着两种改善指标的方法:等问题自己过去,或者主动出击解决问题。

内部事件因素分为用户获取渠道(渠道转化率降低)、产品功能迭代(功能迭代等引起某类用户不满)、运营策略调整(最近新上的运营活动没达成目标)、突发技术故障(突发的产品技术问题导致产品使用故障)。外部事件因素采用PEST分析(宏观经济环境分析),包括政治(政策影响)、经济(短期内主要是竞争环境,如竞争对手的活动)、社会(社会舆论、用户生活方式、消费心理、价值观变化等)、技术(创新解决方案的出现)。

(5)预测趋势,制定方案

image-20240523202055324


💬 交流与讨论

⚠️ 尚未完成 Giscus 配置。请在 _config.yml 中设置 repo_idcategory_id 后重新部署,即可启用升级后的评论系统。

配置完成后,评论区将自动支持 Markdown 代码高亮与 LaTeX 数学公式渲染,访客回复会同步到 GitHub Discussions,并具备通知功能。