我把一个完整的数据分析过程分为六个环节,包括明确分析目的、数据采集、数据处理、数据分析、数据可视化、提出建议推动落地
首先,明确分析目的。
任何事物都有其对应的目的,数据分析也是如此。每次分析之前,都要明确这个分析的目的是什么。只有明确了目的,后面的分析才能围绕它展开。常见的数据分析目标包括以下三种类型:
解释型:某一天销量突然下降,某一天新用户留存突然下降。这时候往往需要分析师来解释波动的原因,分析更有针对性,主要是寻找波动的原因。
数据回顾:类似于月报、季报,常见于互联网领域。app的某个功能上线一段时间后,数据分析师往往需要审核这个功能的性能,看看有没有问题。
专题探索:针对某一主题发起的专项探索,如新用户流失、收入分析等。
二。数据采集
有了明确的分析目标后,就可以根据目标得到需要的数据。数据采集可分为外部数据和内部数据:
外部数据
如果想获取外部数据,第一,可以从公开数据网站查询。比如,战略分析师在研究进入某个地区或国家的战略时,往往需要得到相应地区或国家的数据。
国家数据:数据来源为中华人民共和国国家统计局,包括中国经济、民生等方面的数据,涵盖月度、季度和年度数据,全面而权威。中国统计信息网:国家统计局的官方网站,汇集了中国各级政府的大量国民经济和社会发展统计信息,建立了统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排名等。,主要依据统计公报。Github:非常全面的数据采集通道,包含了各个子领域的数据库资源。自然科学和社会科学的覆盖面非常全面,适合研究人员和数据分析师。
第二种获取外部数据的方式是爬虫,会更灵活,但是现在做爬虫有一定的法律风险。
内部数据
内部数据是企业自身的内部数据。对于互联网行业来说,用户行为的数据是以埋点的形式上报和获取的,最终存储在蜂巢表中。作为数据分析师,您需要使用sql来提取数据。
三。数据处理
数据处理阶段的主要目的是解决数据质量问题。在数据采集过程中,内部数据往往质量较好,但外部数据,如爬虫获取的数据往往比较杂乱,俗称“脏数据”,需要进行数据清洗,包括填充缺失值、删除异常值、重复值、数据转换等。
1。异常值处理
什么是离群值?下面是一个明显异常的例子。我们在进行分析的时候,比如回归分析,这种离群点往往会被删除,否则会对结果产生很大的影响。但是,并不是所有的异常值都要删除,不同的字段有不同的异常值处理方式。比如在风控领域,我们反而应该把重点放在异常值上,因为大部分用户都是正常的,异常值可能是在欺骗用户。
图片来自互联网
2。完成缺少的值
如果有一个值丢失了怎么办?编吧。补充缺失值的常用方法包括:
通过其他信息填补,比如通过身份证补充生日、籍贯等将样本进行分类,然后以该类中样本的均值、中位数补全
四。数据分析
处理完数据后,您可以开始分析。根据你的分析目标,你要选择合适的分析方法。常见的分析方法包括:
描述性分析
描述性分析是一种主要对收集的数据进行分析,得出反映客观现象的各种数量特征的分析方法。包括数据集中趋势分析、数据分散分析、数据频次分布分析等。描述性分析是进一步数据分析的基础。
推理分析
推断分析是研究如何根据样本数据推断出整体样本的数量特征。它是在对样本数据进行描述性统计分析的基础上,推断出整体研究的数量特征。常见的分析方法包括假设检验、相关分析、回归分析和时间序列分析。
探索性分析
探索性分析是通过一些分析方法,从大量数据中发现未知的、有价值的信息的过程。它不受研究假设和分析模型的限制,尽可能地寻找变量之间的相关性。常用的分析方法有聚类分析、因子分析和对应分析。
动词 (verb的缩写)数据可视化
通过数据分析得出结论后,需要用图表展示出来。俗话说“文不如表,表不如图”用图表更清楚地展示你的结论。
六、出谋划策,推动落地。
在根据你的分析目标得出结论后,数据分析师还要根据你的结论提出相应的改进建议,并将建议推至地面,从而完成一个完整的数据分析闭环。比如你发现新用户高流失的原因是新用户引导的某个节点有问题,你可以提出相应的建议,比如产品应该如何改进这个节点。
你的策略实施后,发现新用户流失率明显下降,从而完成了一个完整的数据分析,通过分析改进业务。
本文来自笑醉生梦投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/495174.html