"工欲善其事,必先利其器."作为数据产品经理,你必须掌握很多工具才能得心应手,无论是做数据分析还是搭建数据平台。下面我们就从简单的Excel开始,到R,再到数据平台需要的工具和技术。由易到难,全方位帮你掌握数据产品经理必备技能。
数据分析的利器—Excel
相信大家都会用到Excel的一些简单功能,但是作为一个数据产品经理,仅仅掌握这些功能是无法满足大数据分析的需求的。首先,你要掌握以下几个常用功能:
日期函数:
day,month,year,date,today,weekday,weeknum
数学函数:
product,rand,round,sum,sumif,sumproduct
统计函数:
large,***all,***x,min,rank,count,countif,average,averageif
查找和引用函数:
choose,***tch,index,column,row,vlookup,hlookup,lookup,offset
文本函数:
find,search,text,value,left,right,mid,len
逻辑函数:
and,or,if,false,true
掌握这些功能后,您可以为经常分析的业务创建一个数据模板,比如业务日报表,省去手动计算大量数据的麻烦,根据模板自动更新新数据,直接显示结果。
接下来我们来说说Excel数据分析的另一个非常有用的工具—透视表,可以快速将大量数据生成可供分析显示的报表,可以随意组织选择各种维度和数值。就像魔方一样,可以自由组合,从不同的角度查看不同的结果。它把复杂的公式变成简单的数据分析,非常实用,简单易用。
通过透视表,可以实现以下功能:
自动计算分类间的数据汇总,计数,最大值,最小值,平均值等
自动排序、分组以及分组
分析环比、同比、定基比等
根据业务逻辑进行个性化分析
用于数据分析和可视化的强大语言—R
r是一种用于统计计算和绘图的语言和环境。是一套开源的数据分析解决方案。其功能包括:
数据存储和处理系统
数组运算工具(其向量、矩阵运算方面功能尤其强大)
完整连贯的统计分析工具
优秀的统计制图功能
简便而强大的编程语言
可操纵数据的输入和输入,实现分支、循环,用户可自定义功能
R与其说是一个统计软件,不如说是一个数学计算环境,因为R不只是提供一些统计程序,用户只需要指定一个数据库和一些参数就可以做一个统计分析。
R的思路是可以提供一些集成的统计工具,但更重要的是可以提供各种数学计算和统计计算功能,让用户可以灵活地分析数据,甚至创建新的符合自己需求的统计计算方法。r内置统计和数字分析功能。
构建数据平台的必要条件—Hadoop
Hadoop是一种分布式系统基础设施,现在广泛应用于大数据平台的开发。在处理海量数据方面具有其他技术无法比拟的优势。
Google文件系统、Map-Reduce和BigTable被称为分布式计算的三驾马车。
Google File System
用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余的方式,来取得读写速度与数据安全并存的结果。
Map-Reduce
是函数式编程,把所有的函数都分为两类,Map和Reduce,Map用来将数据分成多份,分开处理,Reduce将处理的结果进行归并,得到最终的结果。
BigTable
是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。
下面两张图有助于从总体框架和结构上理解Hadoop。
Hadoop架构
Hadoop核心设计
除了Hadoop架构的基本工具,数据产品经理还需要了解以下基本工具。
1。弹性搜索
基于Lucene的搜索服务器。提供基于RESTful web界面的分布式多用户全文搜索引擎。Elasticsearch是在Apache的许可条款下作为开源发布的,它是一个流行的企业搜索引擎。专为云计算设计,可实现实时搜索,稳定可靠,速度快,安装使用方便。
2。Memcached
Memcached是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减少数据库负载。它通过在内存中缓存数据和对象来减少数据库读取的次数,从而提高动态的、数据库驱动的网站的速度。一般目的是通过缓存数据库查询结果来减少数据库访问次数,从而提高动态Web应用的速度和可扩展性。
3。Redis
开源是用ANSI C语言写的,支持网络,可以基于内存或持久化日志,键值数据库,提供多种语言的API。为了保证效率,数据全部缓存在内存中。不同的是Redis会周期性的将更新的数据写入磁盘或者对附加记录文件进行修改操作,并在此基础上实现主从同步。Redis的出现很大程度上弥补了Memcached等键/值存储的不足,在某些场合可以对关系数据库起到很好的补充作用。
4。卡夫卡
Kafka是一个高吞吐量的分布式发布订阅消息系统,可以处理消费者规模网站中的所有动作流数据。这种行为(网页浏览、搜索和其他用户行为)是现代网络上许多社交功能的关键因素。由于吞吐量要求,这些数据通常通过处理日志和日志聚合来解决。对于Hadoop这样的日志数据和离线分析系统来说,这是一个可行的解决方案,但是它需要实时处理的限制。
Kafka cluster可以在指定时间内保留所有发布的消息,不管这些消息是否被消费。例如,如果这个时间设置为两天,那么这条消息在发布后的两天内就可以被消耗掉,但是两天后,这条消息就会被系统丢弃,释放空时间。Kafka的性能不会受到数据量的影响,所以保持大量的数据不是问题。
5。风暴
Storm是一个分布式数据处理的框架,几乎不提供复杂的事件计算。Storm用于实时处理,就像Hadoop用于批处理一样。Storm保证每条消息都会被处理,在一个小集群中每秒可以处理几百万条消息。
Storm的应用领域包括实时分析、在线机器学习、信息流处理(比如可以用Storm处理新数据、快速更新数据库)、连续计算(比如用Storm连续查询然后返回结果给客户端,比如转发微博上的热点话题给用户)、分布式RPC(远程过程调用协议,通过网络向远程计算机程序请求服务)、 ETL [/s2
相信在掌握了上面提到的常用工具后,无论是数据分析还是大数据平台的搭建都可以快速轻松的使用,同时在数据产品经理的成长道路上又迈出了一大步。
本文来自倾心之夏投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/573194.html