カーネル法　考え方 - ChunPom’s diary

カーネル法の考えを数式なしでまとめてみる。

Perspective 1：データ数個のカーネル関数の足し合わせ

　まず1つの見方としては、カーネル法は、カーネル関数を”基底”とし、学習に使用するデータ数個分のカーネル関数の線形和で、識別/回帰線を表してやろうという手法である。この際、各係数(フィッティングパラメータ)は最小二乗法などで求められる。

カーネル関数としては、良くあるのが正規分布。つまり、この場合カーネル法は混合正規分布の親戚と捉えることができる。

こうするメリットとしては、

①正規分布の混合数が多いため、複雑な非線形関数を表現できる

②フィッティングパラメータに関しては線形モデルなので、推定が簡便

がある。

ただし、①のトレードオフとして、全てのデータ点が回帰線に乗ってしまう過学習に陥りやすいことがデメリットである。

従って、正則化項を取り入れた推定により、過学習を回避する必要がある。例えば、フィッティングパラメータの二乗を正則化項とする $L_2$ ノルムを二乗誤差に加えた場合の回帰線は、カーネルリッジ回帰と呼ばれる。また、 $L_2$ ノルムをヒンジ型誤差に加えた場合の回帰線は、サポートベクター回帰(識別ならサポートベクターマシン)と呼ばれる。つまり、カーネル法に対して色々な正則化＆誤差関数を採用するかことにより、様々な機械学習手法が導かれる。

ちなみに、正則化という言葉は、行列の正則性からきている。最小二乗推定で逆行列計算が必要になるのだが、その際に逆行列を正則にするために上記の正則化項が設けられている。

Perspective 2：高次元の特徴量空間への写像

　もう1つの見方としては、カーネル法は、元のデータ空間で非線形解析を行うのではなく、データを高次元な特徴量空間へいったん写像し、そこで線形解析を行う手法である。このため、(特徴量空間においては)上記②のメリットの恩恵を受ける。

ただし、そんな都合の良い写像が簡単に見つかるわけでは無い。例えば、基本的に非線形な写像のため、脈絡のない写像を勝手に採用すると、とんでもなくかけ離れた回帰線になってしまいかねない。また、特徴量空間で求めた回帰線を、現実のデータ空間における回帰線に戻すために、逆写像変換が必要となる。

すなわち、写像を”陽”に”うまく”求めないことには、良い回帰線を求めることができないと(この時点では)考えられる。しかし、データ数が増えると、この作業は困難を極める！

そこで、カーネル法では、写像の陽な計算を一切経由せずに、特徴空間における内積をデータから直接計算する手段を与える。ある種類の特徴量空間(再生核ヒルベルト空間)では、Representer定理(表現定理)によって、実は元のデータ空間の回帰線は、特徴量空間の内積のみで表現でき、写像が陽に含まれない回帰線となることが示される。

この内積の評価に使用されるのがカーネル関数である。従って、写像が何か良くわからないままの状態なのに、その内積はあらかじめ分かってるため、直接的に回帰線を求めることができる。これをカーネルトリックと呼ぶ。

カーネルトリックにより、残る計算は内積の係数を推定する線形解析のみとなる。つまり、データ数が多くなったとしても、線形解析の計算コストが増えるだけにとどまる。

以上をまとめると、カーネル法は、元のデータを高次元空間に非線形写像し、そこで線形解析を実施することにより回帰線を求める。その際、カーネルトリックにより、計算量を大幅に削減することができる。

カーネル法の数学的基礎については、数式を交えていつか紹介したい。

以下、参考図書をあげておく。