エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
モチベーション 前処理大全のpythonのサンプルがpandasベースのため、データエンジニア的な大量データに... モチベーション 前処理大全のpythonのサンプルがpandasベースのため、データエンジニア的な大量データにも対応できるようにPyspark[1]による記述を試みる。(なお、not awesomeのものもあるかもしれない。。。。よりawesomeのものがあれば、コメントいただけると幸いです。) 更新履歴 2022/5/30:1章のデータ読み込みにて、.option("inferSchema",True)を付加する。付加する前は、すべてのカラムがString型となる。そのため、数値計算などではIntegerTypeへの変換『.withColumn('total_price', df_reserve.total_price.cast(IntegerType()))』などが必要となっていた。本修正に伴い、不要なcast()を削除した。 2022/6/2:inferSchemaの記事へのリンクを