一个完整的数据分析过程应该包括以下几个方面。建议收藏此图,仔细阅读。
(注:图片保存了,可以看得更清楚)
作为数据分析师,无论最初的职业定位是技术还是业务,到了一定阶段后都会承担数据管理的角色。因此,一个高水平的数据分析师需要有完整的知识结构。
1.数据收集
了解数据收集的意义在于真正了解数据的本来面目,包括时间、条件、格式、内容、长度、限制等等。这将有助于数据分析师更有针对性地控制数据生产和收集过程,避免因违反数据收集规则而导致的数据问题;同时,数据采集逻辑的知识增加了数据分析师对数据的理解,尤其是对数据异常变化的理解。
例如:
Omniture中的Prop变量长度只有100个字符,在数据采集和部署的过程中无法给Prop变量赋值大量的中文描述(多余的字符会被截断)。
在Webtrekk323之前的Pixel版本中,单条消息默认只能发送不超过2K的数据。当页面包含的变量过多或者变量长度超过限制时,通常的解决方案是在数据收集的要求下,使用多个sendinfo方法进行分条发送。在325之后的Pixel版本中,单个消息默认最多可以发送7K的数据,非常方便的解决了代码部署中单个消息过载的问题。(Webtrekk根据请求量付费。请求越少,费用越低)。
当用户离线使用APP时,由于无法连接互联网,数据被发送出去,导致正常时间数据的统计分析延迟。在下次设备连接到互联网之前,数据可以发送出去并包含在当前时间中。当在不同时间查看相同历史时间的数据时,这导致数据差异。
在数据收集阶段,数据分析人员需要更多地了解数据生产和收集过程中的异常情况,以便更好地追溯源头。另外,这也可以在很大程度上避免“垃圾数据入导致垃圾数据出”的问题。
2.数据存储
无论数据是存储在云端还是本地,数据的存储都不仅仅是我们看到的数据库那么简单。
例如:
数据存储系统是MySql、Oracle、SQL Server还是其他系统。数据仓库结构及各库表如何关联,星型、雪花型还是其他。生产数据库接收数据时是否有一定规则,比如只接收特定类型字段。生产数据库面对异常值如何处理,强制转换、留空还是返回错误。生产数据库及数据仓库系统如何存储数据,名称、含义、类型、长度、精度、是否可为空、是否唯一、字符编码、约束条件规则是什么。接触到的数据是原始数据还是ETL后的数据,ETL规则是什么。数据仓库数据的更新更新机制是什么,全量更新还是增量更新。不同数据库和库表之间的同步规则是什么,哪些因素会造成数据差异,如何处理差异的。
在数据存储阶段,数据分析师需要了解数据存储的内部工作机制和流程。核心因素是在原始数据的基础上处理什么样的数据,最终得到什么样的数据。由于数据在存储阶段是动态变化、迭代更新的,其及时性、完整性、有效性、一致性和准确性往往会因为软硬件、内外环境的问题而得不到保证,从而导致后期数据应用的问题。
3.数据析取
数据抽取是取出数据的过程,数据抽取的核心是在哪里、什么时候、如何获取数据。
从哪取,数据来源——不同的数据源得到的数据结果未必一致。何时取,提取时间——不同时间取出来的数据结果未必一致。如何取,提取规则——不同提取规则下的数据结果很难一致。
在数据抽取阶段,数据分析师首先需要具备数据抽取的能力。常用的Select From语句是SQL查询和提取的必备技能,但即使是简单的数据检索工作也有不同的层次。第一层是根据条件从单个数据库中提取数据的能力,其中是基本的条件语句;第二层是掌握跨数据库表提取数据的能力,不同的join有不同的用法;第三层是优化SQL语句,通过优化嵌套和筛选的逻辑层次和遍历次数,减少个人时间浪费和系统资源消耗。
其次,是理解业务需求的能力。比如商业需要“销售”这个领域。相关字段至少包括产品销售额和产品订单金额。区别在于是否包含优惠券、运费等折扣和费用。包含的因子是订单金额,否则就是产品单价×产品销售数量。
4.数据挖掘技术
面对海量数据,数据挖掘是数据价值提取的关键。以下是算法选择的基本原则:
没有最好的算法,只有最适合的算法。算法选择的原则是准确性、可操作性、可理解性和适用性。
没有一种算法可以解决所有问题,但是掌握一种算法可以解决很多问题。
算法挖掘最难的部分是算法调优。同样的算法在不同的场景下参数设置是一样的,所以实践是获得调优经验的重要途径。
在数据挖掘阶段,数据分析师要掌握数据挖掘的能力。一、数据挖掘、统计学、数学的基本原理和常识;二、熟练使用一个数据挖掘工具,克莱曼婷、SAS或者R都是可选的,如果你是程序出身,也可以选择编程。第三,我们需要了解常用的数据挖掘算法,每个算法的应用场景和优缺点。
5.数据分析
与数据挖掘相比,数据分析更偏向于业务应用和解释。当数据挖掘算法得出结论时,如何从结果、可信度、意义等方面说明算法对业务的实际意义,如何将挖掘结果反馈到业务运营过程中,以方便业务理解和实施,是关键。
6.数据显示
数据呈现是数据可视化的一部分,是数据分析师如何向业务部门呈现其数据视图的过程。数据呈现除了遵循各公司统一规范的原则外,还要基于实际需求和场景。
基本质量要求如下:
工具。FineBI是一个很好的演示工具。
表单。插画的基本原理更容易理解,生动性、趣味性、互动性、故事性都是加分项。
原理。领导层喜欢看图片、趋势和结论,而高管喜欢看数字、文字和流程。
场景。大型会议用PPT最合适,汇报用Word最实用,数据多的时候用Excel更方便。
最重要的是,数据呈现永远是数据内容的辅助,有价值的数据报表才是关键。
7.数据应用
数据的应用是数据价值的直接体现。这个过程需要数据分析师具备数据沟通、业务推广和项目工作的能力。
数据通信能力。简单的数据报表和简洁的数据结论更有利于业务理解和接受,类比和举例是非常实用的技巧。
业务驱动能力。在业务理解数据的基础上,推动业务实施数据建议。从业务最重要、最紧急、最有成效的环节入手是一个很好的方法,同时要考虑业务落地的客观环境,即好的数据结论需要有客观的落地条件。
项目工作能力。数据项目工作是一个渐进的过程。无论是数据分析项目还是数据产品项目,都要求数据分析师具备计划、领导、组织和控制项目工作的能力。
本文来自莫失莫忘投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/477649.html