[フレーム]
1 - 3 件 / 3件
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
初めに こちらの記事などでを紹介していきましたが、ファイルを読み込んだ後には当然、何かしらの処理を行うと思います。 GeoPandasをやるならFlatGeobufより10倍早いGeoParquetを使おう! GeoPandas(GeoDataFrame)のread/writeなら1000万レコードを10秒で読み込めるpyogrioを使って高速に行おう! 大きなデータを処理する際に、数十GB級のデータだとデータの読み込み自体を高速で完了させたとしても、空間検索に膨大な時間を要したり、そもそもデータがメモリに乗り切らず処理できないということもあるでしょう。 こんな時には分散・並列処理などを行うのが一般的ですが、GISデータでそれを行うためのパッケージが存在しています。 daskは、numpy配列やPandasDataFrameと互換性のある、並列化されたDataFrameを作成し分散処理を行
Pandas が登場してから Python はデータ分析の事実上の標準言語になりました。 しかし、データ量が数千万行を超えると途端に RAM が足りない・処理が遅い という現実にぶつかります。 クラスタ環境に逃げる選択肢もありますが、準備・コスト・学習コストを考えると "ちょっと重い" だけのデータに対してはオーバーキルです。 そこで登場するのが Dask。 以下 3 点が現場エンジニアにとって大きな魅力です。 API 類似度 90 %: 既存の Pandas/NumPy 知識をそのまま使える。 遅延評価 ×ばつ 並列化: PC のコア数を自動で使い切り、メモリフットプリントを抑制。 スケールラインが滑らか: ローカル PC → 分散クラスタへ"ほぼ同じコード"で移行可能。 今回は「大量 CSV を集計する」という 典型的に重くなる処理 を通して、Dask がどのように恩恵をもたらすかを見てみ
Scaling Pandas: Comparing Dask, Ray, Modin, Vaex, and RAPIDSHow can you process more data quicker? Python and its most popular data wrangling library, Pandas, are soaring in popularity. Compared to competitors like Java, Python and Pandas make data exploration and transformation simple. But both Python and Pandas are known to have issues around scalability and efficiency. Python loses some efficie
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く