Pandasとは
我らがWikipediaによると以下のように紹介されています。
pandasは、プログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリである。特に、数表および時系列データを操作するためのデータ構造と演算を提供する[1]。PandasはBSDライセンスのもとで提供されている[2]。
全くなんのことだか分からない、つまり分からない人には分からないままの役に立たない説明な気がします。でもそんなこと言っちゃうと、じゃぁお前が編集しろって言われてしまいそうなので、ここだけの話に・・・。
誤解を恐れつつも何それおいしいの?って人向けに「おっ、それはちょっと良さそうだな」って思ってもらい、あながち間違っていない説明をしてみると
「こんなデータがありまして、いろいろ数値いじって、あんな集計して、こんな結果を出したいとして、いまから何使います?」
って聞かれて「まぁ、Excelかなぁ」ってなったときに、Pythonを使うならそのままそっくりの流れで最後が「Pandasかなぁ」ってなります。
ただまぁ、このシリーズに関しては、想定する読者は「自分」なのでゴチャゴチャ書くのは後回しで、とにかく記事の充実(忘れないうちにメモとも言う)を優先させたいと思います。
お品書き
以下に取扱予定の内容をリストし、コンテンツの準備が出来たものからリンク化していく予定です。リストは変更される事があります。記載の順番は入れ替わるかも知れませんし、記載の順に準備していくとも限りません。
- 用語の基本
- ファイルからの読み込み
- CSVファイルからの読み込み
- Excelファイル(「Hello Excel」にてサンプル実装していますのでご参照下さい)
- 行名、列名、行数、列数、要素数
- 値へのアクセスと変更とforループ
- 行、列に対する関数の適用
- 条件に一致する行の抽出(完全一致、部分一致)
- 複数条件で行を抽出
- 行と列の入れ替え、縦持ち横持ち変換
- 複数の列へ分割
- 列を結合して新たな列へ
- 行、列を削除する
- 新たな列、新たな行
- 先頭、末尾
- ファイルへの書き出し
- CSVファイル
- Excelファイル
- Indexを振り直す
- 列をIndexに割り当てる
- DBアクセス
- データ
- ユニークな数
- 出現回数
- Group by
- ソート
- サンプル抽出