BFGS法

この項目「BFGS法」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。(原文:en: Broyden–Fletcher–Goldfarb–Shanno algorithm)
修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。ノートページや履歴も参照してください。(2024年8月)

数理最適化において、ブロイデン・フレッチャー・ゴールドファーブ・シャンノ法(ブロイデン・フレッチャー・ゴールドファーブ・シャンノほう、英: Broyden–Fletcher–Goldfarb–Shanno algorithm)、略してBFGS法とは、無制約非線形最適化問題に対する反復的解法の一つである^[1]。関連の深いDFP法と同様、BFGS法は勾配のプレコンディショニング^{[訳語疑問点 ]}を曲率の情報を用いて行うことにより降下方向を決定する。その際、損失関数のヘッセ行列の推定値を勾配(またはその推定値)のみを用いて(一般化)割線法により漸進的に改善する^[2]。

BFGS法における曲率行列の更新には逆行列の評価を要さないため、計算複雑度 (英語版)は ${\mathcal {O}}(n^{2})$ {\displaystyle {\mathcal {O}}(n^{2})}に留まり、ニュートン法の ${\mathcal {O}}(n^{3})$ {\displaystyle {\mathcal {O}}(n^{3})}よりも高速である。L-BFGS法もよく用いられ、メモリ使用量を限定できるため、多変数(e.g. >1000)問題に対する解法に適している。BFGS-B法はシンプルなボックス拘束を扱える^[3]。

このアルゴリズムの名前は、チャールズ・ジョージ・ブロイデン (英語版)、ロジャー・フレッチャー、ドナルド・ゴールドファーブ (英語版)、デイビッド・シャンノ (英語版)に因む^[4]^[5]^[6]。

理論的根拠

[編集 ]

${\boldsymbol {x}}$ {\displaystyle {\boldsymbol {x}}}を $\mathbb {R} ^{n}$ {\displaystyle \mathbb {R} ^{n}}上のベクトル、 $f({\boldsymbol {x}})$ {\displaystyle f({\boldsymbol {x}})}を微分可能なスカラー値関数とし、 ${\boldsymbol {x}}$ {\displaystyle {\boldsymbol {x}}}の取り得る値に制限はないものとして、 $f({\boldsymbol {x}})$ {\displaystyle f({\boldsymbol {x}})}を最小化する最適化問題を考える。

BFGS法は初期推定値 ${\boldsymbol {x}}_{0}$ {\displaystyle {\boldsymbol {x}}_{0}}から始め、各ステージ毎に反復的により良い推定値へと更新していく。

ステージkにおける降下方向 (英語版) p_kはニュートン方程式に類似した次の方程式を解くことにより得られる。

B_{k}{\boldsymbol {p}}_{k}=-\nabla f({\boldsymbol {x}}_{k})

{\displaystyle B_{k}{\boldsymbol {p}}_{k}=-\nabla f({\boldsymbol {x}}_{k})}

ここでB_kはx_kにおけるヘッセ行列の推定値であり、各ステージごとにx_kにおける目的関数の勾配 $\nabla f({\boldsymbol {x}}_{k})$ {\displaystyle \nabla f({\boldsymbol {x}}_{k})}を用いて反復的に更新される。降下方向p_kを得たのち、この方向に向けて直線探索を行い、 $f({\boldsymbol {x}}_{k}+\gamma {\boldsymbol {p}}_{k})$ {\displaystyle f({\boldsymbol {x}}_{k}+\gamma {\boldsymbol {p}}_{k})}を最小とするようなスカラーγ > 0を求め、次の点x_k+1を決定する。

B_kの更新においては、以下の式であらわされる準ニュートン条件が課せられる。

B_{k+1}({\boldsymbol {x}}_{k+1}-{\boldsymbol {x}}_{k})=\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})

{\displaystyle B_{k+1}({\boldsymbol {x}}_{k+1}-{\boldsymbol {x}}_{k})=\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})}

ここで ${\boldsymbol {y}}_{k}=\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})$ {\displaystyle {\boldsymbol {y}}_{k}=\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})}および ${\boldsymbol {s}}_{k}={\boldsymbol {x}}_{k+1}-{\boldsymbol {x}}_{k}$ {\displaystyle {\boldsymbol {s}}_{k}={\boldsymbol {x}}_{k+1}-{\boldsymbol {x}}_{k}}とおくと、B_k+1は以下の正割方程式を満たす。

B_{k+1}{\boldsymbol {s}}_{k}={\boldsymbol {y}}_{k}

{\displaystyle B_{k+1}{\boldsymbol {s}}_{k}={\boldsymbol {y}}_{k}}

B_k+1が正定値行列であるためには曲率条件s_k^⊤y_k>0が満たされる必要がある。この条件は正割方程式に左からs_k^⊤をかけることにより検証できる。目的関数が強凸関数でない場合、この条件は明示的に課す必要があり、これはたとえばx_k+1を決定する際にウルフ条件を満たす点を選べばよい。

点x_k+1におけるヘッセ行列を全て計算するかわりに、ステージkにおける推定値に次のように2つの行列を足すことによりB_k+1を計算する。

B_{k+1}=B_{k}+U_{k}+V_{k}

{\displaystyle B_{k+1}=B_{k}+U_{k}+V_{k}}

U_kおよびV_kはどちらも階数1の対称行列であるが、これらの和を取ることにより階数2の対称行列を用いて更新することとなる。対称ランクワン法と比べ、BFGS法とDFP法はどちらも階数2の行列を更新に用いる点が異なる。より単純な手法である対称ランクワン法は階数1の行列を用いて更新を行うが、正定値性が保証されない。B_kの対称性と正定値性を維持するため、更新式は $B_{k+1}=B_{k}+\alpha {\boldsymbol {u}}{\boldsymbol {u}}^{\top }+\beta {\boldsymbol {v}}{\boldsymbol {v}}^{\top }$ {\displaystyle B_{k+1}=B_{k}+\alpha {\boldsymbol {u}}{\boldsymbol {u}}^{\top }+\beta {\boldsymbol {v}}{\boldsymbol {v}}^{\top }}のように選ぶ。正割条件 $B_{k+1}{\boldsymbol {s}}_{k}={\boldsymbol {y}}_{k}$ {\displaystyle B_{k+1}{\boldsymbol {s}}_{k}={\boldsymbol {y}}_{k}}を課すと、 ${\boldsymbol {u}}={\boldsymbol {y}}_{k}$ {\displaystyle {\boldsymbol {u}}={\boldsymbol {y}}_{k}}および ${\boldsymbol {v}}=B_{k}{\boldsymbol {s}}_{k}$ {\displaystyle {\boldsymbol {v}}=B_{k}{\boldsymbol {s}}_{k}}として以下を得る^[7]。

\alpha ={\frac {1}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}

{\displaystyle \alpha ={\frac {1}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}}

\beta =-{\frac {1}{{\boldsymbol {s}}_{k}^{\top }B_{k}{\boldsymbol {s}}_{k}}}

{\displaystyle \beta =-{\frac {1}{{\boldsymbol {s}}_{k}^{\top }B_{k}{\boldsymbol {s}}_{k}}}}

最後に、αおよびβを $B_{k+1}=B_{k}+\alpha {\boldsymbol {u}}{\boldsymbol {u}}^{\top }+\beta {\boldsymbol {v}}{\boldsymbol {v}}^{\top }$ {\displaystyle B_{k+1}=B_{k}+\alpha {\boldsymbol {u}}{\boldsymbol {u}}^{\top }+\beta {\boldsymbol {v}}{\boldsymbol {v}}^{\top }}に代入するとB_k+1の更新式は以下のように書ける。

B_{k+1}=B_{k}+{\frac {{\boldsymbol {y}}_{k}{\boldsymbol {y}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}-{\frac {B_{k}{\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top }B_{k}^{\top }}{{\boldsymbol {s}}_{k}^{\top }B_{k}{\boldsymbol {s}}_{k}}}

{\displaystyle B_{k+1}=B_{k}+{\frac {{\boldsymbol {y}}_{k}{\boldsymbol {y}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}-{\frac {B_{k}{\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top }B_{k}^{\top }}{{\boldsymbol {s}}_{k}^{\top }B_{k}{\boldsymbol {s}}_{k}}}}

アルゴリズム

[編集 ]

非線形関数 $f:\mathbb {R} ^{n}\to \mathbb {R}$ {\displaystyle f:\mathbb {R} ^{n}\to \mathbb {R} }を対象とした無制約最適化問題 ${\begin{aligned}{\underset {{\boldsymbol {x}}\in \mathbb {R} ^{n}}{\text{minimize}}}\quad &f({\boldsymbol {x}})\end{aligned}}$ {\displaystyle {\begin{aligned}{\underset {{\boldsymbol {x}}\in \mathbb {R} ^{n}}{\text{minimize}}}\quad &f({\boldsymbol {x}})\end{aligned}}}を考える。

初期推定解 ${\boldsymbol {x}}_{0}\in \mathbb {R} ^{n}$ {\displaystyle {\boldsymbol {x}}_{0}\in \mathbb {R} ^{n}}および初期推定ヘッセ行列 $B_{0}\in \mathbb {R} ^{n\times n}$ {\displaystyle B_{0}\in \mathbb {R} ^{n\times n}}から始め、次の各ステップを反復することによりx_kは解に収束する。

降下方向p_kを $B_{k}{\boldsymbol {p}}_{k}=-\nabla f({\boldsymbol {x}}_{k})$ {\displaystyle B_{k}{\boldsymbol {p}}_{k}=-\nabla f({\boldsymbol {x}}_{k})}を解くことにより求める。
1次元最適化(直線探索)を行い、前ステップで求めた降下方向に向う許容しうるステップサイズα_kを求める。厳密な直線探索が行われた場合、 $\alpha _{k}=\arg \min f({\boldsymbol {x}}_{k}+\alpha {\boldsymbol {p}}_{k})$ {\displaystyle \alpha _{k}=\arg \min f({\boldsymbol {x}}_{k}+\alpha {\boldsymbol {p}}_{k})} となる。実用上はα_kがウルフ条件を満たすことをもって許容する、非厳密な直線探索で十分なことが多い。
${\boldsymbol {s}}_{k}=\alpha _{k}{\boldsymbol {p}}_{k}$ {\displaystyle {\boldsymbol {s}}_{k}=\alpha _{k}{\boldsymbol {p}}_{k}}とし、 ${\boldsymbol {x}}_{k+1}={\boldsymbol {x}}_{k}+{\boldsymbol {s}}_{k}$ {\displaystyle {\boldsymbol {x}}_{k+1}={\boldsymbol {x}}_{k}+{\boldsymbol {s}}_{k}}により推定解を更新する。
${\boldsymbol {y}}_{k}={\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})}$ {\displaystyle {\boldsymbol {y}}_{k}={\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})}}を計算する。
$B_{k+1}=B_{k}+{\frac {{\boldsymbol {y}}_{k}{\boldsymbol {y}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}-{\frac {B_{k}{\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top }B_{k}^{\top }}{{\boldsymbol {s}}_{k}^{\top }B_{k}{\boldsymbol {s}}_{k}}}$ {\displaystyle B_{k+1}=B_{k}+{\frac {{\boldsymbol {y}}_{k}{\boldsymbol {y}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}-{\frac {B_{k}{\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top }B_{k}^{\top }}{{\boldsymbol {s}}_{k}^{\top }B_{k}{\boldsymbol {s}}_{k}}}}により推定ヘッセ行列を更新する。

何らかの基準値ε > 0のもと、勾配のノルムが $||\nabla f({\boldsymbol {x}}_{k})||\leq \varepsilon$ {\displaystyle ||\nabla f({\boldsymbol {x}}_{k})||\leq \varepsilon }を満たしたとき解が収束したものとみなしアルゴリズムを終了する。

$B_{0}=I$ {\displaystyle B_{0}=I}のように選んだ場合、最初のステップは最急降下法と等価となるが、以降のステップはB_kがヘッセ行列を推定することにより徐々に改善される。

このアルゴリズムのステップ1はB_kの逆行列を用いて実行されるが、この逆行列はステップ5でSherman–Morrisonの公式 (英語版) を用いることにより次のように効率的に求めることができる。

B_{k+1}^{-1}=\left(I-{\frac {{\boldsymbol {s}}_{k}{\boldsymbol {y}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}\right)B_{k}^{-1}\left(I-{\frac {{\boldsymbol {y}}_{k}{\boldsymbol {s}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}\right)+{\frac {{\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}

{\displaystyle B_{k+1}^{-1}=\left(I-{\frac {{\boldsymbol {s}}_{k}{\boldsymbol {y}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}\right)B_{k}^{-1}\left(I-{\frac {{\boldsymbol {y}}_{k}{\boldsymbol {s}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}\right)+{\frac {{\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}}

この計算は $B_{k}^{-1}$ {\displaystyle B_{k}^{-1}}が対称行列であり、 ${\boldsymbol {y}}_{k}^{\top }B_{k}^{-1}{\boldsymbol {y}}_{k}$ {\displaystyle {\boldsymbol {y}}_{k}^{\top }B_{k}^{-1}{\boldsymbol {y}}_{k}}および s_k^⊤y_kがスカラーであることを用いて次のように展開でき、一時行列を要せず実行することができる。

B_{k+1}^{-1}=B_{k}^{-1}+{\frac {({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}+{\boldsymbol {y}}_{k}^{\top }B_{k}^{-1}{\boldsymbol {y}}_{k})({\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top })}{({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k})^{2}}}-{\frac {B_{k}^{-1}{\boldsymbol {y}}_{k}{\boldsymbol {s}}_{k}^{\top }+{\boldsymbol {s}}_{k}{\boldsymbol {y}}_{k}^{\top }B_{k}^{-1}}{{\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}}}.

{\displaystyle B_{k+1}^{-1}=B_{k}^{-1}+{\frac {({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}+{\boldsymbol {y}}_{k}^{\top }B_{k}^{-1}{\boldsymbol {y}}_{k})({\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top })}{({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k})^{2}}}-{\frac {B_{k}^{-1}{\boldsymbol {y}}_{k}{\boldsymbol {s}}_{k}^{\top }+{\boldsymbol {s}}_{k}{\boldsymbol {y}}_{k}^{\top }B_{k}^{-1}}{{\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}}}.}

したがって、逆行列を求めるための計算を一切することなく、ヘッセ行列の逆行列 $H_{k}{\overset {\operatorname {def} }{=}}B_{k}^{-1}$ {\displaystyle H_{k}{\overset {\operatorname {def} }{=}}B_{k}^{-1}}そのものを推定することが可能である^[8]。

初期推定解x₀、ヘッセ行列の逆行列の推定値H₀から始め、次の各ステップを反復することによりx_kは解へと収束する。

降下方向p_kを ${\boldsymbol {p}}_{k}=-H_{k}\nabla f({\boldsymbol {x}}_{k})$ {\displaystyle {\boldsymbol {p}}_{k}=-H_{k}\nabla f({\boldsymbol {x}}_{k})}により得る。
1次元最適化(直線探索)を行い、前ステップで求めた降下方向に向う許容しうるステップサイズα_kを求める。厳密な直線探索が行われた場合、 $\alpha _{k}=\arg \min f({\boldsymbol {x}}_{k}+\alpha {\boldsymbol {p}}_{k})$ {\displaystyle \alpha _{k}=\arg \min f({\boldsymbol {x}}_{k}+\alpha {\boldsymbol {p}}_{k})} となる。実用上はα_kがウルフ条件を満たすことをもって許容する、非厳密な直線探索で十分なことが多い。
${\boldsymbol {s}}_{k}=\alpha _{k}{\boldsymbol {p}}_{k}$ {\displaystyle {\boldsymbol {s}}_{k}=\alpha _{k}{\boldsymbol {p}}_{k}}とし、 ${\boldsymbol {x}}_{k+1}={\boldsymbol {x}}_{k}+{\boldsymbol {s}}_{k}$ {\displaystyle {\boldsymbol {x}}_{k+1}={\boldsymbol {x}}_{k}+{\boldsymbol {s}}_{k}}により推定解を更新する。
${\boldsymbol {y}}_{k}={\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})}$ {\displaystyle {\boldsymbol {y}}_{k}={\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})}}を計算する。
$H_{k+1}=H_{k}+{\frac {({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}+{\boldsymbol {y}}_{k}^{\top }H_{k}{\boldsymbol {y}}_{k})({\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top })}{({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k})^{2}}}-{\frac {H_{k}{\boldsymbol {y}}_{k}{\boldsymbol {s}}_{k}^{\top }+{\boldsymbol {s}}_{k}{\boldsymbol {y}}_{k}^{\top }H_{k}}{{\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}}}$ {\displaystyle H_{k+1}=H_{k}+{\frac {({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}+{\boldsymbol {y}}_{k}^{\top }H_{k}{\boldsymbol {y}}_{k})({\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top })}{({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k})^{2}}}-{\frac {H_{k}{\boldsymbol {y}}_{k}{\boldsymbol {s}}_{k}^{\top }+{\boldsymbol {s}}_{k}{\boldsymbol {y}}_{k}^{\top }H_{k}}{{\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}}}}によりヘッセ行列の逆行列の推定値を計算する。

最尤推定やベイズ推定などの統計推定問題においては、最終的なヘッセ行列の逆行列を用いて解の信頼区間もしくは確信区間を推定することができる ^{[要出典 ]}。しかし、これらの量は正確には真のヘッセ行列により定義されるものであり、BFGS近似は真のヘッセ行列に収束しない場合がある^[9]。

発展

[編集 ]

BFGS更新公式は曲率s_k^⊤y_kが常に正であり、ゼロから離れた下界があることに強く依拠している。この条件は凸な対称関数においてウルフ条件を用いた直線探索を用いる場合は満たされるが、実際の問題(たとえば逐次二次計画法)では負やほぼゼロの曲率があらわれることがしばしば発生する。このようなことは非凸関数を対象とする場合や直線探索ではなく信頼領域アプローチをとった場合に生じるおそれがある。この場合、BFGS法は誤った値をあたえることがある。

このような場合には、減衰BFGS更新^[10]などと呼ばれる、s_kおよび/またはy_kを修正して頑健にした更新式が用いられることがある。

実装

[編集 ]

オープンソースの実装として有名なものは以下のようなものがあげられる。

ALGLIBはC++およびC#用のBFGSおよびL-BFGS法を実装する。
GNU Octaveのfsolve関数は信頼領域を用いた一種のBFGS法を用いる。
GSLはgsl_multimin_fdfminimizer_vector_bfgs2関数としてBFGSを実装している^[11]。
R言語では、、BFGS法(および矩形拘束を扱えるL-BFGS-B法)が基本関数optim()のオプションとして実装されている^[12]。
SciPyでは、scipy.optimize.fmin_bfgs関数がBFGS法を実装している^[13]。パラメータLにとても大きな数を指定することにより、なんらかのL-BFGS法を実行することもできる。
Juliaでは、Optim.jlパッケージにBFGSおよびL-BFGSが実装されている^[14]。

プロプライエタリな実装としては以下のようなものがあげられる。

大規模非線形最適化ソフトウェアArtelys KnitroはBFGS法およびL-BFGS法の両方を実装する。
MATLAB Optimization Toolboxでは、fminunc関数がBFGS法を3次直線探索と組み合わせたアルゴリズムを「中規模スケール」の問題向けに実装している。
MathematicaにはBFGS法が含まれる。
LS-DYNAもBFGS法を用いて陰解を求めている。

脚注

[編集 ]

[脚注の使い方]

^ Fletcher, Roger (1987), Practical Methods of Optimization (2nd ed.), New York: John Wiley & Sons, ISBN 978-0-471-91547-8 , https://archive.org/details/practicalmethods0000flet
^ Dennis, J. E. Jr.; Schnabel, Robert B. (1983), "Secant Methods for Unconstrained Minimization", Numerical Methods for Unconstrained Optimization and Nonlinear Equations, Englewood Cliffs, NJ: Prentice-Hall, pp. 194–215, ISBN 0-13-627216-9 , https://books.google.com/books?id=ksvJTtJCx9cC&pg=PA194
^ Byrd, Richard H.; Lu, Peihuang; Nocedal, Jorge; Zhu, Ciyou (1995), "A Limited Memory Algorithm for Bound Constrained Optimization", SIAM Journal on Scientific Computing 16 (5): 1190–1208, doi:10.1137/0916069 , http://www.ece.northwestern.edu/~nocedal/PSfiles/limited.ps.gz
^ Fletcher, R. (1970), "A New Approach to Variable Metric Algorithms", Computer Journal 13 (3): 317–322, doi:10.1093/comjnl/13.3.317
^ Goldfarb, D. (1970), "A Family of Variable Metric Updates Derived by Variational Means", Mathematics of Computation 24 (109): 23–26, doi:10.1090/S0025-5718-1970-0258249-6
^ Shanno, David F. (July 1970), "Conditioning of quasi-Newton methods for function minimization", Mathematics of Computation 24 (111): 647–656, doi:10.1090/S0025-5718-1970-0274029-X, MR 274029
^ Fletcher, Roger (1987), Practical methods of optimization (2nd ed.), New York: John Wiley & Sons, ISBN 978-0-471-91547-8 , https://archive.org/details/practicalmethods0000flet
^ Nocedal, Jorge; Wright, Stephen J. (2006), Numerical Optimization (2nd ed.), Berlin, New York: Springer-Verlag, ISBN 978-0-387-30303-1
^ Ge, Ren-pu; Powell, M. J. D. (1983). "The Convergence of Variable Metric Matrices in Unconstrained Optimization". Mathematical Programming 27 (2). doi:10.1007/BF02591941.
^ Jorge Nocedal; Stephen J. Wright (2006), Numerical Optimization
^ "GNU Scientific Library — GSL 2.6 documentation". www.gnu.org. 2020年11月22日閲覧。
^ "R: General-purpose Optimization". stat.ethz.ch. 2020年11月22日閲覧。
^ "scipy.optimize.fmin_bfgs — SciPy v1.5.4 Reference Guide". docs.scipy.org. 2020年11月22日閲覧。
^ "(L-)BFGS · Optim" (英語). julianlsolvers.github.io. 2024年8月17日閲覧。

外部リンク

[編集 ]

Source code of high-precision BFGS

数理最適化 • 最適化問題 : メソッド • ヒューリスティック

非線形(無制約)

... 関数

勾配法

収束性	信頼領域ウルフ条件
準ニュートン法	BFGS法ブロイデン法 L-BFGS法 DFP法 SR1法 BHHH法
その他の求解法	ガウス・ニュートン法最急降下法(確率的) レーベンバーグ・マーカート法共役勾配法(非線形共役勾配法) 打ち切りニュートン法ドッグレッグ法鏡像座標バルジライ・ボールウェイン法

... ヘッセ行列

最適化におけるニュートン法

The graph of a strictly concave quadratic function is shown in blue, with its unique maximum shown as a red dot. Below the graph appears the contours of the function: The level sets are nested ellipses.

最適化問題では極大・極小値をとる解を求める。

非線形(制約付き)

一般	バリア関数ペナルティ関数法
微分可能	ラグランジュの未定乗数法拡張ラグランジュ関数法逐次二次計画法逐次線形計画法逐次線形二次計画法

凸最適化

凸最小化

線形および
二次

内点法	アフィンスケーリング法カーマーカーの射影変換法メロートラの予測子修正子法
基底-交換	単体法改訂単体法十文字法レムケの相補掃き出し法
その他	カチヤンの楕円体法有効制約法列生成法ベンダーズ分解法

組合せ最適化

系列範例
(Paradigms)

グラフ理論

最小全域木	ブルーフカ法クラスカル法プリム法逆削除法
最短経路問題	ベルマン–フォード法ダイクストラ法ワーシャル–フロイド法ジョンソン法

フローネットワーク

最大流問題	ディニッツ法エドモンズ–カープ法フォード–ファルカーソン法プリフロープッシュ法
最小費用流問題	ネットワーク単体法アウトオブキルタ法

メタヒューリスティクス

カテゴリ(最適化 • アルゴリズム) • ソフトウェア (一覧)

「https://ja.wikipedia.org/w/index.php?title=BFGS法&oldid=103993904」から取得

BFGS法

理論的根拠

アルゴリズム

発展

実装

脚注

関連文献

関連項目

外部リンク