[フレーム]

サクサク読めて、
アプリ限定の機能も多数!

はてなブックマーク
テクノロジー
1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

気に入った記事をブックマーク

気に入った記事を保存できます
保存した記事の一覧は、はてなブックマークで確認・編集ができます
記事を読んだ感想やメモを書き残せます
非公開でブックマークすることもできます

1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

テクノロジーカテゴリーの変更を依頼記事元:qiita.com/fujine

適切な情報に変更

エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます

コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

次回からTwitterへ自動リダイレクト

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

326users がブックマークコメント 21

ゲスト

コメントするにはログインが必要ですブックマークを追加

ブックマークを追加

よく使うタグ

1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

326 users qiita.com/fujine

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページへ

記事へのコメント21件

注目コメント
新着コメント

Ez-style

Ez-style 業務で作業するならBQに突っ込めでFAとして、CSVの基本統計量を計算するだけなら grep と awk という手段が(老人会脳 / 身も蓋もないことをいえば、アタリをみたいだけならランダムサンプリングすればよくね。

2023年06月06日リンク

その他

nakag0711

nakag0711 RDB使わない場合はDask+Parquetと

2023年06月06日リンク

その他

Fluss_kawa

Fluss_kawa 逐次読み込みで基本統計量計算するアルゴリズムなかったっけ?

2023年06月06日リンク

その他

kiririmode

kiririmode メモリに載らない量のデータの基本統計量の算出

2023年06月09日リンク

その他

Windymelt

Windymelt parquet形式だ。いいよね。pyarrowはdaskってやつから呼び出す感じなんだろうか。 / 自分だったらPython使わずに直接Sparkとかで処理しちゃうだろうな

2023年06月06日リンク

その他

cartman0

cartman0 逐次読み込みなかったっけ?

2023年06月06日リンク

その他

hiromi_ayase

hiromi_ayase ファイルI/Oはストリーム処理が基本だし何が難しいんだろう・・・?と思ったらpandas限定の問題だった

2023年06月06日リンク

その他

megadrive

megadrive kaggle

2023年06月06日リンク

その他

prjpn

prjpn エンジニアリング力が試される環境

2023年06月06日リンク

その他

coolworld

coolworld 趣味として楽しむのならいいけど、業務ならRDBにつっこむな。

2023年06月06日リンク

その他

havanap

havanap Rでよしなにやってくれなかったっけ

2023年06月06日リンク

その他

Ez-style

2023年06月06日リンク

その他

strawberryhunter

strawberryhunter サーバーなら2GBでも珍しくない。1回読むだけなら1行ずつ読む、だけど要件次第。ストレージに余裕がないとSQLiteやParquetへの変換もできないし。

未分類

2023年06月06日リンク

その他

kotaponx

kotaponx 使い慣れたsqlite3使うことが多いけど、やっぱシングルスレッドはきついんよね......

2023年06月06日リンク

その他

circled

circled 多分この手の処理をする人の給料の1日分でメモリ64GB程度は余裕で買えそうだから、普通にPCにメモリ足せば良いのでは?しかも仕事なら、この手の処理は何度もやって来ますでしょう?

2023年06月06日リンク

その他

ya--mada

ya--mada sqliteだとツライのかな?

2023年06月06日リンク

その他

kisiritooru

kisiritooru パソコンでやっているのに、おぼろげながら浮かんできたんです。人力と言う言葉が。

2023年06月06日リンク

その他

knok

knok daskかなと思ったらdaskだった

2023年06月06日リンク

その他

ytn

ytn 地獄の中に楽しみを見つけるが如き

2023年06月06日リンク

その他

perl-o-pal

perl-o-pal swapon...

2023年06月06日リンク

その他

nakag0711

nakag0711 RDB使わない場合はDask+Parquetと

2023年06月06日リンク

その他

Fluss_kawa

Fluss_kawa 逐次読み込みで基本統計量計算するアルゴリズムなかったっけ?

2023年06月06日リンク

その他

y-kawaz

y-kawaz あとで読む

2023年06月06日リンク

その他

nna774

nna774 "カラムナフォーマット"

2023年06月06日リンク

その他

ゲスト

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

[<a href="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fqiita.com%2Ffujine%2Fitems%2F830b3d30d3e4d4b36005">フレーム</a>]

プレビュー

[フレーム]

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック!

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

usersに達しました!

さんが1番目にブックマークした記事「1100万行・32GB超...」が注目されています。

気持ちをシェアしよう

ツイートする

1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

はじめにこの記事は,Kaggle Advent Calendar 2022第6日目の記事になります。本記事では、 32GB超のCS... はじめにこの記事は,Kaggle Advent Calendar 2022第6日目の記事になります。本記事では、 32GB超のCSVデータの基本統計量を、小規模マシンでも省メモリかつ高速に計算するテクニックについて解説します。 Kaggleコンペに限らず、マシンスペックが低いため、大きなデータセットを満足に処理できず困っている毎回行うファイル読み込みが遅いので、もっと高速化したい ⚡ といった悩みや課題を抱えている方の参考になれば幸いです。モチベーションデータ分析業務やKaggle等のコンペティションで初めてのデータセットを扱う場合、いきなり機械学習アルゴリズムを行うことはまず無く、最初にデータ観察を行うのが一般的です。テーブルデータであれば、各カラムの基本統計量(最小値、最大値、平均、分散、四分位数)などを計算・可視化し、データクレンジングの要否や特徴量設計の方針などを検

ブックマークしたユーザー

pmakino2025年09月28日 pmakino
u_engine2025年03月06日 u_engine
katsukiniwa2024年07月07日 katsukiniwa
techtech05212024年05月29日 techtech0521
akiyoko2024年03月02日 akiyoko
hootoo32023年07月02日 hootoo3
clavier2023年06月18日 clavier
ayaniimi2132023年06月15日 ayaniimi213
kiririmode2023年06月09日 kiririmode
midas365452023年06月08日 midas36545
m0t0m0t02023年06月07日 m0t0m0t0
a2cNSMR2023年06月07日 a2cNSMR
mgl2023年06月07日 mgl
bayaread2023年06月07日 bayaread
mixedjuicegofyugofyu2023年06月06日 mixedjuicegofyugofyu
Windymelt2023年06月06日 Windymelt
kintoki32023年06月06日 kintoki3
toshikish2023年06月06日 toshikish

気に入った記事をブックマーク

エントリーの編集

タイトルガイドライン

ブックマークしました

おすすめタグタグについて

よく使うタグすべて表示

1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

おすすめタグタグについて

よく使うタグすべて表示

はてなブックマークで関心をシェアしよう

記事へのコメント21件

リンクを埋め込む

プレビュー

関連記事

usersに達しました!

1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

ブックマークしたユーザー

ブックマークしたすべてのユーザー

同時期にブックマークされた記事

公式Twitter

はてなのサービス

よく使うタグ

よく使うタグ

はてなブックマークで
関心をシェアしよう