[フレーム]
はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

気に入った記事をブックマーク

  • 気に入った記事を保存できます
    保存した記事の一覧は、はてなブックマークで確認・編集ができます
  • 記事を読んだ感想やメモを書き残せます
  • 非公開でブックマークすることもできます
適切な情報に変更

エントリーの編集

loading...

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

タイトルガイドライン

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます
コメントを非表示にできます コメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

326users がブックマーク コメント 21

ガイドラインをご確認の上、良識あるコメントにご協力ください

0 / 0
入力したタグを追加

現在プライベートモードです 設定を変更する

おすすめタグタグについて

よく使うタグ

1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

326 users qiita.com/fujine

ガイドラインをご確認の上、良識あるコメントにご協力ください

0 / 0
入力したタグを追加

現在プライベートモードです 設定を変更する

おすすめタグタグについて

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページ

記事へのコメント21

  • 注目コメント
  • 新着コメント
Ez-style
業務で作業するならBQに突っ込めでFAとして、CSVの基本統計量を計算するだけなら grep と awk という手段が(老人会脳 / 身も蓋もないことをいえば、アタリをみたいだけならランダムサンプリングすればよくね。

その他
nakag0711
RDB使わない場合はDask+Parquetと

その他
Fluss_kawa
逐次読み込みで基本統計量計算するアルゴリズムなかったっけ?

その他
kiririmode
メモリに載らない量のデータの基本統計量の算出

その他
Windymelt
parquet形式だ。いいよね。pyarrowはdaskってやつから呼び出す感じなんだろうか。 / 自分だったらPython使わずに直接Sparkとかで処理しちゃうだろうな

その他
cartman0
逐次読み込みなかったっけ?

その他
hiromi_ayase
ファイルI/Oはストリーム処理が基本だし何が難しいんだろう・・・?と思ったらpandas限定の問題だった

その他
megadrive
kaggle

その他
prjpn
エンジニアリング力が試される環境

その他
coolworld
趣味として楽しむのならいいけど、業務ならRDBにつっこむな。

その他
havanap
Rでよしなにやってくれなかったっけ

その他
Ez-style
Ez-style 業務で作業するならBQに突っ込めでFAとして、CSVの基本統計量を計算するだけなら grep と awk という手段が(老人会脳 / 身も蓋もないことをいえば、アタリをみたいだけならランダムサンプリングすればよくね。

2023年06月06日 リンク

その他
strawberryhunter
サーバーなら2GBでも珍しくない。1回読むだけなら1行ずつ読む、だけど要件次第。ストレージに余裕がないとSQLiteやParquetへの変換もできないし。

その他
kotaponx
使い慣れたsqlite3使うことが多いけど、やっぱシングルスレッドはきついんよね......

その他
circled
多分この手の処理をする人の給料の1日分でメモリ64GB程度は余裕で買えそうだから、普通にPCにメモリ足せば良いのでは?しかも仕事なら、この手の処理は何度もやって来ますでしょう?

その他
ya--mada
sqliteだとツライのかな?

その他
kisiritooru
パソコンでやっているのに、おぼろげながら浮かんできたんです。人力と言う言葉が。

その他
knok
daskかなと思ったらdaskだった

その他
ytn
地獄の中に楽しみを見つけるが如き

その他
perl-o-pal
swapon...

その他
nakag0711
nakag0711 RDB使わない場合はDask+Parquetと

2023年06月06日 リンク

その他
Fluss_kawa
Fluss_kawa 逐次読み込みで基本統計量計算するアルゴリズムなかったっけ?

2023年06月06日 リンク

その他
y-kawaz
あとで読む

その他
nna774
"カラムナフォーマット"

その他

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

プレビュー
アプリのスクリーンショット
いまの話題をアプリでチェック!
  • バナー広告なし
  • ミュート機能あり
  • ダークモード搭載
アプリをダウンロード

関連記事

usersに達しました!

さんが1番目にブックマークした記事「1100万行・32GB超...」が注目されています。

気持ちをシェアしよう

ツイートする

1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 記事では、 32GB超のCS... はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 記事では、 32GB超のCSVデータの基統計量を、小規模マシンでも省メモリかつ高速に計算するテクニック について解説します。 Kaggleコンペに限らず、 マシンスペックが低いため、大きなデータセットを満足に処理できず困っている 毎回行うファイル読み込みが遅いので、もっと高速化したい ⚡ といった悩みや課題を抱えている方の参考になれば幸いです。 モチベーション データ分析業務やKaggle等のコンペティションで初めてのデータセットを扱う場合、いきなり機械学習アルゴリズムを行うことはまず無く、最初にデータ観察を行うのが一般的です。 テーブルデータであれば、各カラムの基統計量(最小値、最大値、平均、分散、四分位数)などを計算・可視化し、データクレンジングの要否や特徴量設計の方針などを検

ブックマークしたユーザー

  • pmakino2025年09月28日 pmakino
  • u_engine2025年03月06日 u_engine
  • katsukiniwa2024年07月07日 katsukiniwa
  • techtech05212024年05月29日 techtech0521
  • akiyoko2024年03月02日 akiyoko
  • hootoo32023年07月02日 hootoo3
  • clavier2023年06月18日 clavier
  • ayaniimi2132023年06月15日 ayaniimi213
  • kiririmode2023年06月09日 kiririmode
  • midas365452023年06月08日 midas36545
  • m0t0m0t02023年06月07日 m0t0m0t0
  • a2cNSMR2023年06月07日 a2cNSMR
  • mgl2023年06月07日 mgl
  • bayaread2023年06月07日 bayaread
  • mixedjuicegofyugofyu2023年06月06日 mixedjuicegofyugofyu
  • Windymelt2023年06月06日 Windymelt
  • kintoki32023年06月06日 kintoki3
  • toshikish2023年06月06日 toshikish
すべてのユーザーの
詳細を表示します

ブックマークしたすべてのユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

同時期にブックマークされた記事

いま人気の記事 - 企業メディア

企業メディアをもっと読む

はてなブックマーク

公式Twitter

はてなのサービス

Copyright © 2005-2025 Hatena. All Rights Reserved.
設定を変更しましたx

AltStyle によって変換されたページ (->オリジナル) /