エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに Pyspark(Spark MLlib)を用いた機械学習の一連の流れに関する実装を整理する。(scikit-learnは... はじめに Pyspark(Spark MLlib)を用いた機械学習の一連の流れに関する実装を整理する。(scikit-learnはよく見かけるけどPysparkはあんまり見かけない。。。。) そのため、機械学習自体の中身については触れないし、自身の能力としても触れられない。 概要 SparkのMLlibにおいて機械学習の一連のワークフローを構成する要素は次の3個になる。これらの構成要素を用いて、前処理や学習を実装する。 Transf ormers Dataframeを入力とし、1個以上のカラムを追加したDataframeを出力する。(メソッドはtransf orm()) 入出力の処理は変換処理として定義されたもの(つまりはルールベース)が行わる。 例えば 複数カラムの特徴量を1カラムのベクトル化する(VectorAssemler) 学習済みモデルのTransf ormerでテスト用データを入力と