列指向のデータストレージ形式、Apache Parquetについてもう少しだけ詳しく調べてみた
オープンソースの列指向のデータストレージ形式 Apache Parquetについて少しだけ詳しく調べてみた。AWS Athena(SQLを使用したS3でのデータクエリ)でCSVとParquetとのRun Time、Scan量の違いを比較してScan量が抑えられか検証した。
オープンソースの列指向のデータストレージ形式 Apache Parquetについて少しだけ詳しく調べてみた。AWS Athena(SQLを使用したS3でのデータクエリ)でCSVとParquetとのRun Time、Scan量の違いを比較してScan量が抑えられか検証した。
AWS s3上のファイルに対してSQLを発行できるAWSのサービスAthenaを試した。Athenaはスキャン料に応じた従量制の為、列試行のデータストレージParquet形式のファイルとCSVとのRun Time 、スキャン量の比較を行った。列を指定すればParquetのスキャン量が少ないはず
DynamoDBは安価でデータの蓄積には適している反面、取り出し方がちょっとめんどくさい。一方、AthenaはAWSのサービスのひとつでサーバレスでS3に保存されたCSV、JSON、ORC、Parquet形式のファイルをSQLで取り出すことができる。SQLは使い慣れているので試してみた時の備忘録
最近のコメント