ソフトマックス関数

ソフトマックス関数（ソフトマックスかんすう、英: softmax function）や正規化指数関数（せいきかしすうかんすう、英: normalized exponential function）^[1]は、シグモイド関数を多次元に拡張した関数。多クラス分類問題において、ニューラルネットワークの出力を確率分布に変換することができるので、最後の活性化関数としてよく用いられる。

ソフトマックス関数という呼び名は人工知能の分野での呼び方であり、関数自体は1868年にルートヴィッヒ・ボルツマンが発表した^[2]統計力学のボルツマン分布に由来する。交差エントロピーとの組合せでよく用いられるが、ボルツマン分布とエントロピーの組合せの考え方も統計力学由来である。ボルツマンマシンでも用いられているが、1989年にJohn S. Bridleがsoftmaxと命名した^[3]^[4]。

定義

ソフトマックス関数は、K 個の実数からなるベクトル ${\boldsymbol {z}}$ を入力として受け取り、入力の指数に比例する K 個の確率で構成される確率分布に正規化する。つまり、ソフトマックス関数を適用することで、各成分は区間 (0, 1) に収まり、全ての成分の和が 1 になるため、「確率」として解釈できるようになる。入力値が大きいほど「確率」も大きい。

$K\geq 1$ に対し、標準（単位）ソフトマックス関数 $\sigma :\mathbb {R} ^{K}\to (0,1)^{K}$ は次のように定義される。

\sigma ({\boldsymbol {z}})_{i}={\frac {e^{z_{i}}}{\textstyle \sum \limits _{j=1}^{K}e^{z_{j}}}}\quad {\text{ for }}i=1,\dotsc ,K{\text{ and }}\mathbf {z} =(z_{1},\dotsc ,z_{K})\in \mathbb {R} ^{K}

簡単に言えば、入力ベクトルの ${\boldsymbol {z}}$ の各成分 $z_{i}$ に自然指数関数を適用し、これらすべての指数の合計で割ることによって、値を正規化する。この正規化により、出力ベクトル $\sigma ({\boldsymbol {z}})$ の成分の和が 1 になることが保障される。

シグモイド関数との関係性

K = 2 の二値分類問題において、 $z=z_{1}-z_{2}$ と置くと、標準シグモイド関数になる^[5]。z の正負で二値分類できる。

\sigma ({\boldsymbol {z}})_{1}={\frac {e^{z_{1}}}{e^{z_{1}}+e^{z_{2}}}}={\frac {e^{z_{1}}}{e^{z_{1}}+e^{z_{1}-z}}}={\frac {1}{1+e^{-z}}}=\varsigma _{1}(z)

基底がネイピア数以外の場合

e（ネイピア数）の代わりに別の基底 b > 0 を用いることもできる。 0 < b < 1 であれば、入力値が小さいほど出力される確率が高くなり、b の値を小さくすると、入力値が小さいところに集中する確率分布となる。b > 1 の場合、入力値が大きいほど出力される確率が大きくなり、b の値を大きくすると、最大の入力値が大きい位置に集中する確率分布が作成される。

実数 β を用いて $b=e^{\beta }$ ないし $b=e^{-\beta }$ と記載すると、次の表現を得る。

\sigma ({\boldsymbol {z}})_{i}={\frac {e^{\beta z_{i}}}{\textstyle \sum \limits _{j=1}^{K}e^{\beta z_{j}}}}{\text{ or }}\sigma ({\boldsymbol {z}})_{i}={\frac {e^{-\beta z_{i}}}{\textstyle \sum \limits _{j=1}^{K}e^{-\beta z_{j}}}}{\text{ for }}i=1,\dotsc ,K.

基底が固定されている分野もあれば、基底を変化させる分野もある。ニューラルネットワークの場合は、ソフトマックス関数を適用する前に線形変換することが多く、その場合はこの β 倍は無意味である。

偏微分

偏微分は、クロネッカーのデルタを使用し、商の微分法則より下記となる。^[5]

{\frac {\partial \sigma ({\boldsymbol {z}})_{j}}{\partial z_{i}}}={\frac {\partial }{\partial z_{i}}}{\frac {e^{z_{j}}}{\sum \limits _{k=1}^{K}e^{z_{k}}}}={\frac {\delta _{ij}e^{z_{j}}\left(\sum \limits _{k=1}^{K}e^{z_{k}}\right)-e^{z_{j}}e^{z_{i}}}{\left(\sum \limits _{k=1}^{K}e^{z_{k}}\right)^{2}}}=\sigma ({\boldsymbol {z}})_{j}(\delta _{ij}-\sigma ({\boldsymbol {z}})_{i})

交差エントロピーと組み合わせた場合

教師データ $p_{i}$ が0または1の多クラス分類問題で、 $q_{i}=\sigma ({\boldsymbol {z}})_{i}$ で、損失関数に交差エントロピーを使用した場合、

H({\boldsymbol {p}},{\boldsymbol {q}})=-\sum _{i}p_{i}\log q_{i}

に対して、正解がj、つまり $p_{i}=\delta _{ij}$ とすると、

H({\boldsymbol {p}},{\boldsymbol {q}})=-\log q_{j}

となり、これを $z_{i}$ で偏微分すると $q_{i}-p_{i}$ になる。つまり、ソフトマックス関数適用後の確率分布に正解の所だけ1を引いたものになる。

{\frac {\partial H}{\partial z_{i}}}=-{\frac {1}{q_{j}}}{\frac {\partial q_{j}}{\partial z_{i}}}=-{\frac {1}{\sigma ({\boldsymbol {z}})_{j}}}{\frac {\partial \sigma ({\boldsymbol {z}})_{j}}{\partial z_{i}}}=-{\frac {1}{\sigma ({\boldsymbol {z}})_{j}}}\sigma ({\boldsymbol {z}})_{j}(\delta _{ij}-\sigma ({\boldsymbol {z}})_{i})=\sigma ({\boldsymbol {z}})_{i}-\delta _{ij}=q_{i}-p_{i}

トップダウン型自動微分を使用する際は、この値をソースノードに降ろしていけば良い。

ちなみに、回帰問題で二乗和誤差 $\sum _{i}(q_{i}-p_{i})^{2}$ を $q_{i}$ で偏微分すると $2(q_{i}-p_{i})$ と、上記と似たような式になる。つまり、バックプロパゲーションとしては、回帰問題で二乗和誤差の場合は出力の誤差を使用し、分類問題でソフトマックス関数で交差エントロピーの場合は確率の誤差を使用する。

オーバーフロー対策

$z_{i}$ の値が大きい場合、単精度浮動小数点数の場合は $z_{i}=89$ であっても、exp() の計算後の結果がオーバーフローして無限大になる。そして、無限大÷無限大は NaN になる。その対策として、 $z_{i}$ は一律同じ値を引いてもソフトマックス関数を適用後の結果は変わらないことを利用して、 $z_{i}-\max \limits _{k}z_{k}$ として計算すると良い。^[6]

解釈

Arg max の滑らかな近似

「ソフトマックス softmax」という名前は誤解を招く恐れがある。この関数は最大値関数の滑らかな近似ではなく、Arg max関数（どのインデックスが最大値を持つかを表す関数）の滑らかな近似値である。実際、「softmax」という用語は、最大値の滑らかな近似である LogSumExp関数にも用いられる。これを明確にするために「softargmax」を好む人もいるが、機械学習では「softmax」という用語が一般的である。^[7]

脚注

出典

^ 『パターン認識と機械学習上』丸善出版、2012年、196頁。ISBN 4621061224。
^ Boltzmann, Ludwig (1868). “Studien über das Gleichgewicht der lebendigen Kraft zwischen bewegten materiellen Punkten [Studies on the balance of living force between moving material points]”. Wiener Berichte 58: 517–560.
^ Bridle, John S. (1990). Soulié F.F.; Hérault J. (eds.). Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships to Statistical Pattern Recognition. Neurocomputing: Algorithms, Architectures and Applications (1989). NATO ASI Series (Series F: Computer and Systems Sciences). Vol. 68. Berlin, Heidelberg: Springer. pp. 227–236. doi:10.1007/978-3-642-76153-9_28。
^ “Training Stochastic Model Recognition Algorithms as Networks can Lead to Maximum Mutual Information Estimation of Parameters”. proceedings.neurips.cc. 2024年6月4日閲覧。
^ ^a ^b “ソフトマックス関数 | 高校数学の美しい物語”. 高校数学の美しい物語. 2024年6月2日閲覧。
^ Ian Goodfellow、Yoshua Bengio、Aaron Courville『深層学習』KADOKAWA、2018年、59頁。ISBN 4048930621。
^ Ian Goodfellow、Yoshua Bengio、Aaron Courville『深層学習』KADOKAWA、2018年、134頁。ISBN 4048930621。