Python

【Python入門】Pandasインストールと機能解説!データ分析ライブラリならコレ!

 

エンジニアライフスタイルブログを運営しているミウラ(@miumiu06171)です。

 

普段はフリーランスでシステムエンジニアをしております。

 

今回は、Pythonでデータ分析ができるPandasのインストール、データ構造、代表的な機能の概要を紹介していきます。

 

なお、本記事内のPythonソースコードは、JupyterLabで動作を確認しているので、同様に動作確認したい方はこちらの記事も参照し、まずはJupyterLabの環境構築をおこなってください。

 

 

Pandas(パンダス)とは

 

Pandasとは、Pythonのライブラリの一つで、データ分析を支援する機能を豊富に持っているライブラリです。

 

そのため、データ分析はもちろんのこと人工知能の分野でもPandasが必須となっています。

 

Pandasインストール

 

Pandasをインストールするには、以下のpipコマンドを使用します。

 

 

 

Pandasのデータ構造

 

Pandasでは、データ分析するためにDataFrame、Series、Dataの3つのデータ構造を持って、データ処理することを前提にしています。

 

DataFrame(データフレーム)

 

PandasのDataFrameとは、エクセルの表と同様にラベル付きの二次元データを持つデータの集まりです。

 

 

行のことを「index」(インデックス)、列のことを「column」(カラム)と呼ぶので、一緒におぼえておきましょう。

 

 

Series(シリーズ)

 

PandasのSeriesとは、DataFrameから一列取り出したときにできるデータ型です。

 

 

Pythonでいうと、辞書型やインデックス付きのリストのイメージです。

 

Data(データ)

 

PandasのDataとは、下図のようにDataFrameやSeriesのデータ部分を指します。

 

 

 

Pandasの機能

 

次にPandasの機能をみていきましょう。

 

エクセルで提供している機能、データベースのSQLで提供している機能は、ほぼPandasでも実現することができます。

 

データの並び替え(sort)

 

DataFrame内の列の並び替えなどデータを並び替えることができます。

 

 

データの結合(merge/concat)

 

異なる2つのDataFrameを結合することもできます。

 

なお、下図は縦方向に結合した例になりますが、横方向にも結合することが可能です。

 

 

データのフィルタリング(filtering)

 

DataFrameから条件に合うデータを取り出すようなフィルタリング機能もあります。

 

 

Excelファイルの読み込み・書き込み機能(excel read/write)

 

外部のExcelファイルからPandasのDataFrameに読み込んだり、逆にDataFrameからExcelファイルに書き込んだりすることも可能です。

 

 

CSVファイルの読み込み・書き込み機能(csv read/write)

 

Excelファイルと同様にCSVファイルからPandasのDataFrameに読み込んだり、逆にDataFrameからExcelファイルに書き込んだりすることも可能です。

 

 

人工知能(AI)のデータ集計やデータ加工

 

DataFrameのデータを集計・加工したり、そのDataFrameの情報を元に人工知能で機械学習させたりすることができます。

 

 

 

まとめ

 

いかがでしたでしょうか。

 

Pythonでデータ分析するためのPandasライブラリの概要、データ構造、機能をみてきました。

 

Pythonの人気は非常に高まってきており、様々な分野で利用されるようになってきましたが、各分野で中核をなすのはやはり「データ処理・データ分析」です。

 

つまり、データ処理や分析が得意なPandasの基礎をおさえることはPythonエンジニアとしては必須になりますので、以下の記事もぜひご覧の上、一緒にPandasの使え方をマスターしていきましょう。

 

【関連記事】

【TIPS】データ分析ならコレ!Python,Pandas使い方まとめ(DataFrame編)