エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
概要 Ruby の標準 CSV パーサーは柔軟で使いやすい一方、パフォーマンス面における課題があります。 今... 概要 Ruby の標準 CSV パーサーは柔軟で使いやすい一方、パフォーマンス面における課題があります。 今回、1 ファイルあたり 100 万件以上のデータを含む多数の CSV ファイルを並列かつ高速に処理する必要があり、ETL パイプラインを構築して APM でトレースしたところ、2 つの明確なボトルネックが浮かび上がってきました。 データ加工過程におけるメモリの圧迫 データの加工処理は AWS Batch で行っており、CSV ファイルを読み込んだ後に整形・加工し、OpenSearch へ書き込む構成をとっていました。 この際、大量のレコードをメモリ上に保持したまま処理するため、コンテナのメモリ使用量が著しく増加し、OOM に近い状態となるケースも見られました。 この問題に関しては、エフェメラルストレージに加工したデータを一時ファイルとして分割保存しながら処理する方式を導入することで、