エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
Parquetに初めて触れて、データ構造とか色々調べたのでメモとして残します。 Parquetとは Apache Parque... Parquetに初めて触れて、データ構造とか色々調べたのでメモとして残します。 Parquetとは Apache ParquetはHadoopエコシステムなどで主に利用される オープンソースのファイルフォーマット。 特徴 カラムナフォーマット(列志向) csvなど行志向フォーマットと比べて、不要なカラムを読まずにすむので分析クエリが高速になる。 プログラム言語やデータ処理基盤(Hadoop, Spark etc)に依存せずに利用可能。 ネストされたデータタイプもサポートしている。 フォーマット 公式のドキュメントによると FileはいくつかのRawGroupに論理的に水平分割される。 RawGroupには1つ以上のColumn Chunkに分けられる。 Column Chunkははさらに1つ以上のPageに分割される。 圧縮とエンコーディングはPageのメタデータで定義されているため以上分