淘宝采集软件哪个好用手机app数据采集软件推荐-百科知识-舒华文档

大数据有很多来源。大数据时代，如何从大数据中收集有用的信息，是大数据发展最关键的因素。大数据采集是大数据产业的基石，大数据采集阶段的工作是大数据的核心技术之一。为了高效地收集大数据，根据收集环境和数据类型选择合适的大数据收集方法和平台非常重要。下面是一些常用的大数据采集平台和工具。

1水槽

Flume作为Hadoop的一个组件，是Cloudera专门开发的一个分布式日志收集系统。尤其是近几年来，随着Flume的不断完善，用户在开发过程中的便利性有了很大的提高，Flume现在已经成为Apache顶级项目之一。

Flume提供了从控制台、RPC(Thrift-RPC)、文本(文件)、Tail(UNIX Tail)、Syslog和Exec(命令执行)等数据源收集数据的能力。

Flume采用多主方式。为了保证配置数据的一致性，Flume引入了ZooKeeper来保存配置数据。ZooKeeper本身可以保证配置数据的一致性和高可用性。另外，当配置数据发生变化时，ZooKeeper可以通知Flume主节点。Flu***ster节点使用Gossip协议来同步数据。

Flume还具有良好的针对特殊场景的定制和扩展能力，因此Flume适用于大多数日常数据采集场景。因为Flume是用JRuby构建的，所以它依赖于Java运行时环境。Flume设计为分布式管道架构，可以看作是数据源和目的地之间有代理的网络，支持数据路由。

Flume支持设置Sink的故障转移和负载均衡，这样即使一个代理失效，整个系统仍然可以正常采集数据。Flume中传输的内容被定义为一个事件，由头部(元数据)和有效载荷组成。

Flume提供SDK，可以支持用户定制开发。Flume客户端负责将事件发送到事件源的Flume代理。通常，客户端和生成数据源的应用程序在同一个进程空中。常见的Flume客户端有Avro、Log4J、Syslog和HTTP Post。

2流体

Fluentd是另一种开源数据收集架构，如图1所示。Fluentd是用C/Ruby开发的，使用JSON文件统一日志数据。通过丰富的插件，您可以从各种系统或应用程序中收集日志，然后根据用户定义对日志进行分类。有了Fluentd，跟踪日志文件、过滤它们并把它们转移到MongoDB是非常容易的。Fluentd可以将人们从繁琐的日志处理中完全解放出来。

图1流体架构

Fluentd有很多特点:安装简单，空间小空，半结构化数据日志，灵活的插件机制，可靠的缓冲和日志转发。宝数据公司为该产品提供支持和维护。另外，采用JSON统一的数据/日志格式是JSON的另一个特点。与水槽相比，流体槽的结构相对简单。

Fluentd具有非常好的可扩展性，客户可以自行定制(Ruby)输入/缓冲/输出。Fluentd存在跨平台问题，不支持Windows平台。

Fluentd的输入/缓冲区/输出与Flume的源/通道/汇非常相似。Fluentd架构如图2所示。

图2流体架构

3 Logstash

Logstash是著名开源数据栈ELK(ElasticSearch，Logstash，Kibana)中的L。因为Logstash是用JRuby开发的，所以运行时依赖于JVM。Logstash的部署架构如图3所示。当然，这只是一个部署选项。

图3 log stash的部署架构

典型的Logstash配置如下，包括过滤器的输入和输出设置。

输入{

文件{

type = & gt”Apache-access ”

path = & gt”/var/log/Apache 2/other _ vhosts _ access . log ”

}

文件{

type = & gt”pache-error ”

path = & gt”/var/log/Apache 2/error . log ”

}

过滤器{

格罗克

***tch = & gt{“消息”= & gt”%(COMBINEDApacheLOG)”}

}

日期{

***tch = & gt{“时间戳”= & gt”DD/MMM/yyyy:HH:mm:ss Z ”}

}

输出{

标准输出{}

Redis

host = & gt”192.168.1.289″

data _ type = & gt“列表”

key = & gt“Logstash & # 8221

}

大多数情况下，ELK同时用作堆栈。在你的数据系统使用ElasticSearch的情况下，Logstash是首选。

楚克瓦语

Chukwa是Apache旗下的另一个开源数据收集平台，名气远不如其他。Chukwa基于Hadoop的HDFS和MapReduce(用Java实现)，提供可伸缩性和可靠性。它提供了许多模块来支持Hadoop集群日志分析。Chukwa还提供数据显示、分析和监控。该项目目前处于非活动状态。

Chukwa适应以下需求:

(1)灵活、动态、可控的数据源。

(2)高性能和高度可扩展的存储系统。

(3)用于分析收集的大规模数据的合适框架。

Chukwa架构如图4所示。

图4 Chukwa架构

5抄写

Scribe是由脸书开发的数据(日志)收集系统。官网已经很多年没有维护了。Scribe为日志的“分布式收集和统一处理”提供了可扩展的容错方案。当中央存储系统的网络或机器出现故障时，Scribe会将日志转移到本地或其他位置；当中央存储系统恢复时，Scribe会将传输的日志重新传输到中央存储系统。Scribe通常与Hadoop结合使用，将日志推送到HDFS，而Hadoop通过MapReduce作业定期处理日志。

划线架构如图5所示。

图5 Scribe架构

划片架构比较简单，主要包括三个部分，分别是划片代理、划片和存储系统。

6 Splunk

在商业大数据平台产品中，Splunk提供完整的数据采集、数据存储、数据分析和处理以及数据呈现能力。Splunk是一个分布式机器数据平台，有三个主要角色。Splunk架构如图6所示。

图6 Splunk架构

搜索:负责数据搜索和处理，在搜索过程中提供信息提取功能。

Inde:负责数据存储和索引。

Forwarder:负责数据收集，清洗，变形，发送到索引器。

Splunk内置了对系统日志、TCP/UDP和假脱机的支持。同时，用户可以通过开发输入和模块化输入获得具体数据。Splunk提供的软件仓库中有很多成熟的数据采集应用，如AWS、DBConnect等。，可以轻松从云端或数据库获取数据，进入Splunk的数据平台进行分析。

搜索头和索引器都支持集群的配置，即高可用、高扩展，但是Splunk还没有Forwarder的集群功能。也就是说，如果其中一个货代的机器出现故障，数据收集就会中断，正在运行的数据收集任务就无法故障转移到其他货代。

7个废物

Python的爬虫架构叫做Scrapy。Scrapy是Python语言开发的一种快速、高级的屏幕抓取和网页抓取架构，用于抓取网站和从页面中提取结构化数据。Scrapy用途广泛，可用于数据挖掘、监控和自动化测试。

Scrapy的吸引力在于它是一个架构，任何人都可以根据自己的需要轻松修改它。它还为各种类型的爬虫提供基类，如BaseSpider、Site***p crawler等。最新版本提供了对Web 2.0爬虫的支持。

Scrapy的工作原理如图7所示。

图7刮刀的工作原理

Scrapy的整个数据处理过程由Scrapy引擎控制。Scrapy操作流程如下:

(1)当1)Scrapy引擎打开一个域名时，crawler处理该域名，并让crawler获得第一个爬取的URL。

(2)Scrapy引擎首先从爬虫中获取第一个要爬取的URL，然后在调度中作为请求进行调度。

(3)Scrapy引擎从时间表中获取下一页。

(4)调度将下一个爬取的URL返回给引擎，引擎通过下载中间件将它们发送给下载器。

(5)网页被下载器下载后，响应内容通过下载器中间件发送给垃圾引擎。

(6)Scrapy引擎接收下载器的响应，通过爬虫中间件发送给爬虫进行处理。

(7)爬虫处理响应并返回爬行的项目，然后向Scrapy引擎发送新的请求。

(8)Scrapy引擎将捕获的项目放入项目管道，并向调度程序发送请求。

(9)系统重复步骤(2)之后的操作，直到调度程序中没有请求，然后将Scrapy引擎与域断开。

本文来自语死早数已亡投稿，不代表舒华文档立场，如若转载，请注明出处：https://www.chinashuhua.cn/24/585944.html

淘宝采集软件哪个好用 手机app数据采集软件推荐

相关推荐

php自动采集教程 python数据采集代码

孕后期做什么动作可以生的快（想要顺产生的快，孕后期就要练习的5大促产瑜伽）

网站采集系统免费分享(网站自动采集系统)

淘宝一键采集软件 淘宝无货源采集软件推荐

评论列表

联系我们

分享到：

淘宝采集软件哪个好用手机app数据采集软件推荐

淘宝一键采集软件淘宝无货源采集软件推荐