大数据下Python的三款大数据分析工具

投稿
APP
微信扫一扫获取更多

大数据下Python的三款大数据分析工具

李建鑫

2018-08-16 11:12:37

图灵汇官网

导读

Python在大数据处理中已经成为一种常见的工具。接下来，我们将探讨三种Python工具，它们能够帮助你更好地处理大数据。

处理大数据的Python工具

本文将介绍三个Python工具，这些工具可以帮助你在实际应用中提升大数据编程的能力。

背景

在本文中，我们将会使用虚拟环境工具如virtualenv或pyenv，当然你也可以选择其他环境或本地的Python版本。以下的操作步骤将在IPython环境中进行，如果你愿意，可以按照以下步骤安装所需工具：

bash mkdir python-big-data cd python-big-data virtualenv ../venvs/python-big-data source ../venvs/python-big-data/bin/activate pip install ipython pip install pandas pip install pyspark pip install scikit-learn pip install scipy

安装完成后，就可以开始大数据处理之旅了。

数据源

为了演示这些工具，我们使用了一组实际的生产日志数据，这些数据是从一个网站上收集的。尽管这些数据并不是严格意义上的“大数据”（大小约为2MB），但它们足够用来展示如何使用这些工具进行处理。如果你想要获取更大规模的数据（例如超过1TB的数据），则需要增强基础设施。

你可以从我的GitHub仓库中获取这些示例数据：

bash git clone https://github.com/admintome/access-log-data.git

数据是一个简单的CSV文件，每行代表一条日志记录，字段由逗号分隔。

使用Python Pandas处理大数据

我们首先介绍的是Python Pandas库。Pandas是一个强大的Python数据分析库，它能够帮助你轻松地加载和处理数据。

启动IPython并使用Pandas来处理示例数据：

python import pandas as pd headers = ["datetime", "source", "type", "log"] df = pd.read_csv('access_logs_parsed.csv', quotechar="'", names=headers)

几秒钟后，你将看到数据的前几行：

python In [11]: df.head() Out [11]: datetime source type log 2018-08-01 17:10 www2 www_access 172.68.133.49 - - [01/Aug/2018:17:10:15 +0000] ... 2018-08-01 17:10 www2 www_access 162.158.255.185 - - [01/Aug/2018:17:10:15 +0000] ... 2018-08-01 17:10 www2 www_access 108.162.238.234 - - [01/Aug/2018:17:10:22 +0000] ... 2018-08-01 17:10 www2 www_access 172.68.47.211 - - [01/Aug/2018:17:10:50 +0000] ... 2018-08-01 17:11 www2 www_access 141.101.96.28 - - [01/Aug/2018:17:11:11 +0000] ...

Pandas能够帮助你快速加载和分析数据，数据科学家们通常会使用Pandas和IPython进行交互式的数据分析，从而提取有价值的商业洞察。

使用PySpark处理大数据

接下来我们介绍的是PySpark，它是Apache Spark项目的一部分，专门用于处理大规模数据集。

启动PySpark shell：

bash pyspark

启动完成后，你可以看到一个Web管理界面，用来监控当前工作状态，网址为http://localhost:4040。

使用PySpark加载示例数据：

python dataframe = spark.read.format("csv").option("header", "false").option("mode", "DROPMALFORMED").option("quote", "'").load("access_logs.csv") dataframe.show()

PySpark将为你提供一个DataFrame示例，显示加载的数据：

python +----------------+----+----------+----------------------------------+ | _c0| _c1| _c2| _c3| +----------------+----+----------+----------------------------------+ |2018-08-01 17:10|www2|www_access|172.68.133.49 - - [01/Aug/2018:17:10:15 +0000]... |2018-08-01 17:10|www2|www_access|162.158.255.185 - - [01/Aug/2018:17:10:15 +0000]... |2018-08-01 17:10|www2|www_access|108.162.238.234 - - [01/Aug/2018:17:10:22 +0000]... |2018-08-01 17:10|www2|www_access|172.68.47.211 - - [01/Aug/2018:17:10:50 +0000]... |2018-08-01 17:11|www2|www_access|141.101.96.28 - - [01/Aug/2018:17:11:11 +0000]... |2018-08-01 17:11|www2|www_access|141.101.96.28 - - [01/Aug/2018:17:11:11 +0000]... |2018-08-01 17:11|www2|www_access|162.158.50.89 - - [01/Aug/2018:17:11:11 +0000]... |2018-08-01 17:12|www2|www_access|192.168.1.7 - - [01/Aug/2018:17:12:11 +0000]... |2018-08-01 17:12|www2|www_access|172.68.47.151 - - [01/Aug/2018:17:12:11 +0000]... |2018-08-01 17:12|www2|www_access|192.168.1.7 - - [01/Aug/2018:17:12:11 +0000]... |2018-08-01 17:12|www2|www_access|141.101.76.83 - - [01/Aug/2018:17:12:11 +0000]... |2018-08-01 17:14|www2|www_access|172.68.218.41 - - [01/Aug/2018:17:14:11 +0000]... |2018-08-01 17:14|www2|www_access|172.68.218.47 - - [01/Aug/2018:17:14:11 +0000]... |2018-08-01 17:14|www2|www_access|172.69.70.72 - - [01/Aug/2018:17:14:11 +0000]... |2018-08-01 17:15|www2|www_access|172.68.63.24 - - [01/Aug/2018:17:15:11 +0000]... |2018-08-01 17:18|www2|www_access|192.168.1.7 - - [01/Aug/2018:17:18:11 +0000]... |2018-08-01 17:18|www2|www_access|141.101.99.138 - - [01/Aug/2018:17:18:11 +0000]... |2018-08-01 17:19|www2|www_access|192.168.1.7 - - [01/Aug/2018:17:19:11 +0000]... |2018-08-01 17:19|www2|www_access|162.158.89.74 - - [01/Aug/2018:17:19:11 +0000]... |2018-08-01 17:19|www2|www_access|172.68.54.35 - - [01/Aug/2018:17:19:11 +0000]... +----------------+----+----------+----------------------------------+

PySpark的DataFrame可以视为内存中的数据表示，类似于数据库表或Excel电子表格。