この記事は 弥生 Advent Calendar 2021 の1日目の記事です。
よくできてる
こんにちは、3年間育てていた観葉植物のうち、ひとつがフェイクだと分かったgarusanです。
質感が違うなぁって思っていたら、素材も違っていたんですよね。でもよくできてます。
そんなショックを悟られないようにデータ分析について考えていたところ、 エクセルで行っていた集計をQuickSightに置き換えてみたら、結構かんたんにできることが分かりました。 本日はそんなQuickSightについて紹介します。こちらもよくできてます。
QuickSightって?
AWSが提供しているBIサービスです。 S3に配置したデータ、AthenaやRDSで抽出したデータを読み込んで、かんたんに視覚化できます。
視覚化してみよう
今回は、とあるcsvファイルのデータをQuickSightで視覚化してみます。
使用するデータ
日付型や数値が含まれるデータを用意しました。
へッダーあり、カンマ区切りのデータでUTF-8でエンコードしています。
植物 | 日付 | 葉っぱの枚数 | お世話 | 観察結果 |
---|---|---|---|---|
植物A | 2018/03/31 | 10 | 購入 | ふわふわしてる |
植物B | 2018/03/31 | 10 | 購入 | ふわふわしてる |
植物C | 2018/03/31 | 10 | 購入 | ふわふわしてる |
植物D | 2018/03/31 | 10 | 購入 | ふわふわしてる |
植物E | 2018/03/31 | 10 | 購入 | ふわふわしてる |
植物F | 2018/03/31 | 10 | 購入 | つるつるしてる |
... | ... | ... | ... | ... |
データセット作成
データはS3に配置することが多いのですが、今回はcsvファイルをそのままアップロードしてみます。
一般的な形式の日付データは、フォーマットの指定不要で自動変換して読み込みます。よくできてます。
データ加工
もし、自動変換できなかった場合は文字列型として読み込まれます。 そんなデータも西暦の日付形式であれば、フォーマットを指定することで変換できます。わざわざラムダを作成してデータ変換しなくても変換できることは大きなメリットです。 ちなみに和暦や和風月名は対応していません。弥生晦日→03/31の変換はさすがにダメでしたね。
視覚化
最後に視覚化です。今回は折れ線グラフを選択し、X軸、値、色に各項目をドラッグ&ドロップします。
データセットとグラフの関連付けが終わりました。ここまでくればほぼ完成です。
後は細かい体裁を整えます。デフォルトで設定されるグラフタイトルがちょっとアレなのでそれらしく変更し、日付の表示形式も変更します。
よくできてる
ビジネスデータを分析する場合、各サービスから取得するデータは日付フォーマットやエンコードも様々です。クセの強いデータは加工処理が必要になりますが、よくある日付フォーマット指定や数値の集計程度の加工であれば、ラムダやETLツールによる変換処理を作成せずにQuickSightだけでかんたんに視覚化が可能です。よくできてます。