画像処理の全体像

「コンピュータを利用して、画像や動画に何らかの処理をすること」を画像処理と言います。
画像処理を更に細かく見ていくと、分類や検出、生成などに分けることができます。
これから、それらについて見ていきたいと思います。

何が写っているかを認識したり、どんな場面かを分類したりする過程です。

画像や動画に写る物体を理解し、適切なラベルを付与する過程です。
この過程は、大きく「インスタンス認識」と「シーン認識」に分けることができます。

インスタンス認識とは、例えば、柴犬の画像が入力されたとき、犬として出力するのではなく柴犬として出力する過程です。

シーン認識とは、例えば、柴犬の画像が入力されたとき、柴犬として出力するのでなく、犬として出力する過程です。

画像が表現する包括的な状態を理解する過程です。

例えば、街を撮影した画像の時、街中として出力したり、海の画像は海辺として出力したりします。

正常時を仮定し、そこから閾値以上に逸脱しているものに対して異常と判断する過程です。

物体の位置や種類（クラス）を判断し特定したり、その特定した物体の状態を認識したりする過程です。

物体のクラス（人や車など）だけを予測するのではなく、物体が存在する領域までを推定する過程です。
物体検出は対象物体を囲む四角い領域（バウンディングボックス）を推定する課題になります。

物体検出と同じように、物体のクラスと物体の存在する領域を推定します。
セグメンテーションでは、物体をバウンディングボックスで推定するのではなく、ピクセル単位で推定を行います。

セマンティックセグメンテーションは、物体と背景との境界までを切り分けて認識するタスクです。

インスタンスセグメンテーションは、物体を1つずつ境界までを切り分けて認識するタスクです。

物体（特に人間）の状態を認識する過程です。
姿勢推定の場合、人間の骨格などの特徴点から座標データを検出し、人間の動きを可視化したりすることができる。

全く新しい画像を生成したり、既に存在する画像を高解像度化したりする過程です。

テキストなどから画像を生成する技術です。

解像度の高い画像や映像を生成する技術です。