エンジニアライフスタイルブログを運営しているミウラ(@miumiu06171)です。
普段はフリーランスでシステムエンジニアをしております。
今回は、Pythonでデータ分析ができるPandasのインストール、データ構造、代表的な機能の概要を紹介していきます。
なお、本記事内のPythonソースコードは、JupyterLabで動作を確認しているので、同様に動作確認したい方はこちらの記事も参照し、まずはJupyterLabの環境構築をおこなってください。
Pandas(パンダス)とは
Pandasとは、Pythonのライブラリの一つで、データ分析を支援する機能を豊富に持っているライブラリです。
そのため、データ分析はもちろんのこと人工知能の分野でもPandasが必須となっています。
Pandasインストール
Pandasをインストールするには、以下のpipコマンドを使用します。
1 |
pip install pandas |
Pandasのデータ構造
Pandasでは、データ分析するためにDataFrame、Series、Dataの3つのデータ構造を持って、データ処理することを前提にしています。
DataFrame(データフレーム)
PandasのDataFrameとは、エクセルの表と同様にラベル付きの二次元データを持つデータの集まりです。
行のことを「index」(インデックス)、列のことを「column」(カラム)と呼ぶので、一緒におぼえておきましょう。
Series(シリーズ)
PandasのSeriesとは、DataFrameから一列取り出したときにできるデータ型です。
Pythonでいうと、辞書型やインデックス付きのリストのイメージです。
Data(データ)
PandasのDataとは、下図のようにDataFrameやSeriesのデータ部分を指します。
Pandasの機能
次にPandasの機能をみていきましょう。
エクセルで提供している機能、データベースのSQLで提供している機能は、ほぼPandasでも実現することができます。
データの並び替え(sort)
DataFrame内の列の並び替えなどデータを並び替えることができます。
データの結合(merge/concat)
異なる2つのDataFrameを結合することもできます。
なお、下図は縦方向に結合した例になりますが、横方向にも結合することが可能です。
データのフィルタリング(filtering)
DataFrameから条件に合うデータを取り出すようなフィルタリング機能もあります。
Excelファイルの読み込み・書き込み機能(excel read/write)
外部のExcelファイルからPandasのDataFrameに読み込んだり、逆にDataFrameからExcelファイルに書き込んだりすることも可能です。
CSVファイルの読み込み・書き込み機能(csv read/write)
Excelファイルと同様にCSVファイルからPandasのDataFrameに読み込んだり、逆にDataFrameからExcelファイルに書き込んだりすることも可能です。
人工知能(AI)のデータ集計やデータ加工
DataFrameのデータを集計・加工したり、そのDataFrameの情報を元に人工知能で機械学習させたりすることができます。
まとめ
いかがでしたでしょうか。
Pythonでデータ分析するためのPandasライブラリの概要、データ構造、機能をみてきました。
Pythonの人気は非常に高まってきており、様々な分野で利用されるようになってきましたが、各分野で中核をなすのはやはり「データ処理・データ分析」です。
つまり、データ処理や分析が得意なPandasの基礎をおさえることはPythonエンジニアとしては必須になりますので、以下の記事もぜひご覧の上、一緒にPandasの使え方をマスターしていきましょう。
【関連記事】
【TIPS】データ分析ならコレ!Python,Pandas使い方まとめ(DataFrame編)