[TOC]

1. スクリプト

1.1. 検知/追跡の描写スクリプト(自分メモ)

ディレクトリ

ds:/data0/share/deep_learning/mk_movie
サンプル動画

sample.mp4
実行方法

python mk_movie.py>det0.mp4とtrack0.mp4が出力
仕様
- 検知の場合:物体のクラスが異なれば異なる色
- 追跡の場合:IDが異なれば違う色
詳細

README.txtを参照

2. 論文

2.1. MOT16入力形式

det.txt

<frame>, <id>, <bb_left>, <bb_top>, <bb_width>,<bb_height>, <conf>, <x>, <y>, <z>

1,-1,772.68,455.43,41.871,127.61,2.1262,-1,-1,-1
1,-1,717.79,451.29,44.948,136.84,1.7969,-1,-1,-1

※bb=Bounding Box

※idは人のID(trackingしていない場合は-1) ※<conf>検知の信頼度 (確率ではない負の値もとるし,1より大きい正の

2.2. 精度比較のための形式

/Users/akirat/project/AIST/DeepSort/data/2akira

<id>, <frame>, <bb_left>, <bb_top>, <bb_right>, <bb_bottom>, <DontCate>

※原点は左上 x軸は右向き y軸は下向きが正の方向

※DontCare:追跡矩形情報を無視するか否かのフラグ(1:無視する,0:しない)(省略可)

2.3. GMMCPの出力

<frame>,<id>,<bb_left>,<bb_top>,<bb_right>,<bb_bottom>

※原点は左上 x軸は右向き y軸は下向きが正の方向

2.4. Yoloの出力フォーマット

ディレクトリ構造

2akira/
    match5-c0_f1.png
    .
    match5-c0_f9000.png
    match5-c0.avi
    match5-c1_f1.png
    .
    match5-c1_f9000.png
    match5-c1.avi
    .
    match5-c3.avi
    pred_c0_f1.txt
        <left> <top> <right> <bottom>
            ※原点は左上 x軸は右向き y軸は下向きが正の方向
            *スペース区切り
    .
    pred_c0_f9000.txt
    .
    pred_c3_f9000.txt

pred/
    pred_c0_f1.jpg
    pred_c0_f1.txt
        <bb_left> <bb_top> <bb_right> <bb_bottom> <pro>
            ※原点は左上 x軸は右向き y軸は下向きが正の方向
            *スペース区切り
            *pro=probability 0~1
    .
    pred_c0_f9000.jpg
    pred_c0_f9000.txt
    .
    pred_c1_f1.jpg
    pred_c1_f1.txt
    .
    pred_c2_f1.jpg
    pred_c2_f1.txt
    .
    pred_c3_f1.jpg
    pred_c3_f1.txt

2.5. 比較実験用ディレクトリ構造DeepSort用

--mot_dir=./MOT16/train

MOT17/test/MOT17-01-DPM

/Users/akirat/project/AIST/data/exp/
    train/
        match5-c0/
            det/det.txt
            img1/
                000001.png
                .
                009000.png
        match5-c1
        match5-c2
        match5-c3

2.6. Related Work

高速だけと精度が悪い(C++Sort)
遅いけど精度が高い(GMMCP)
C++SORTの改良(appereanceを入れた)

deep C++ Sort GitHub

の2つ及び応用先(スポーツ)のRelated Workをまとめる

3.1. 概要

動画から人や車といった物体の認識だけでなく,人が車に乗った(含まれた)なども合わせて予測する手法.最新の手法を組み合わせて事前確率を計算し考えうる物体の状(visible/occluded/contained)の列で最も確率が高いものを0-1整数計画によって定式化している.また,以下に挙げられる最新の既存研究の技術を総動員したアルゴリズムとなっている.

Objective Detection(物体の位置と車などのカテゴリを予測する)
画像から特徴量を抜き出す技術(appearance description)
画像から人の骨格の位置を抜き出す技術(human skelton estimation)
semantic segmentation(車のドア・トランクなどのパーツの位置を特定)

3.2. 所感

論文では乗用車の乗車・下車が数多く含まれた動画において,追跡精度をKSPと比較していてKSPが精度の面では惨敗している.一方で提案手法のネックと思われる計算時間や事前学習に要した時間などは論文中の記載が一切無いため(隠していると思われる)きちんとした比較はなされていない.類似研究としてIntroductionで軽く述べるのがいいのではないかと思う.

3.3. 詳細

3.3.1. 入力(I)

監視カメラの映像(1台でもOK)

3.3.2. 出力(M)

各時刻の人や車(object)の位置(location),visible state(visible/occuluded/contained),行動(action),特徴量(appearance features) ※人(ojbect)が車のドアを開けるなどがaction

3.3.3. 定式化

最適解を$M^*$とするとベイズの定理より
$\begin{matrix} M^{*} & = a r g m i n M p (M ∣ I) \propto a r g m i n M p (I ∣ M) \cdot p (M) \end{matrix}$ であるので, $M^{*} = a r g m i n M log (p (I ∣ M) \cdot p (M))$ である.

$log p (M)$ について

移動距離に対する確率 $Φ (ℓ_{t + 1}^{i}, ℓ_{t}^{i}, s_{t}^{i})$ と行動に伴うvisible state変化に関する確率 $Ψ (s_{t + 1}^{i}, s_{t}^{i}, a_{t}^{i})$ の和によって定義.

$ℓ_{t}^{i}$ :時刻 $t$ でのobject $i$ の位置(location)
$s_{t}^{i}$ :時刻 $t$ でのobject $i$ のvisible state(visible/occuluded/contained)
$a_{t}^{i}$ :時刻 $t$ でのobject $i$ の行動(action)

$Φ$ :単位時間での移動距離が閾値より大きい場合は確率を小さく設定

$Ψ$ :車のドアを閉めるときなどは人のvisible stateがvisible->containedになりやすいことなどを考慮

$log p (I ∣ M)$ について

出力(M)と映像(I)の一貫性を表し,認識率 $Υ (ℓ_{t}^{i}, ϕ_{t}^{i}, s_{t}^{i})$ と行動と映像の一貫性を表す $Γ (ℓ_{t}^{i}, ϕ_{t}^{i}, a_{t}^{i})$ の和

$ϕ_{t}^{i}$ :時刻 $t$ でのobject $i$ の特徴量

$Υ$ について:

visible stateがvisible->物体の認識率
contained->containerの認識率
occluded->trackletアルゴリズムを適応して認識率を定義(背景差分などを利用する方法)

$\Gamma$について:

objectが人間->人間がドアを空けた時(action毎)の関節の位置を正規分布に従うと過程して確率に変換
objectが車->ドアが空けられたとき(action毎)の画像特徴量の平均値とのユークリッド距離を確率に変換

3.3.4. アルゴリズム

各物体(object)ごとに各時刻に対しvisible/occluded/containedの層のノードを用意し,定式化の値が大きくなるようにobjectのvisible stateの遷移を求める(0-1整数計画) イメージはFigure5

3.4. 評価指標(MODP,MODA,MOTP,MOTA)

参考URL,fragment

3.4.1. Term

False Negative:undetected ground truth data
False Positive: detected boxes that do not overlay any ground truth area

3.4.2. Ovarlap Ratio

$G_{i}^{(t)}$ :i^th ground truth object t^th frame
$D_{i}^{(t)}$ :detected object for $G_{i}^{(t)}$
$N_{G}^{t}$ : the number of ground truth objects in the i^th frame

$Overlap Ration (i, t) = \frac{| G_{i}^{(t)} \cap D_{i}^{(t)} |}{| G_{i}^{(t)} \cup D_{i}^{(t)} |}$

3.4.3. Non-binary Decision Threholding

$(Non-binary) Thresholded Overlap Ration (i, t) = \frac{T_{N B}}{| G_{i}^{(t)} \cup D_{i}^{(t)} |}$ where, $T_{N B} = ⎧ ⎪ ⎪ ⎨ ⎪ ⎪ ⎩ \begin{matrix} | G_{i}^{(t)} \cup D_{i}^{(t)} |, if \frac{| G_{i}^{(t)} \cap D_{i}^{(t)} |}{| G_{i}^{(t)} \cup D_{i}^{(t)} |} \geq THRESHOLD | G_{i}^{(t)} \cap D_{i}^{(t)} |, o t h e r w i s e \end{matrix}$

3.4.4. Binary Decision Threholding

$(Binary) Thresholded Overlap Ration (i, t) = \frac{T_{B}}{| G_{i}^{(t)} \cup D_{i}^{(t)} |}$ where, $T_{B} = ⎧ ⎪ ⎨ ⎪ ⎩ \begin{matrix} | G_{i}^{(t)} \cup D_{i}^{(t)} |, if \frac{| G_{i}^{(t)} \cap D_{i}^{(t)} |}{| G_{i}^{(t)} \cup D_{i}^{(t)} |} \geq THRESHOLD 0, o t h e r w i s e \end{matrix}$

3.4.5. Multiple Object Detection Precision(MODP)

$N_{m a p p e d}^{t}$ : the number of mapped object sets in frame $t$

$M O D P (t) = \frac{1}{N_{m a p p e d}^{t}} N_{m a p p e d}^{t} \sum i = 1 (Thresholded) Ovarlap Ration (i, t)$ If $N_{m a p p e d}^{t} = 0$ , then MODP is forced to a zero value.

$N-MODP = \frac{\sum_{t = 1}^{N_{f r a m e s}} M O D P (t)}{N_{f r a m e s}}$

3.4.6. Multiple Object Detection Accuracy(MODA)

$m_{t}$ : the number of misses
$f p_{t}$ : the number of false positives
$c_{m}$ and $c_{f}$ are the cost functions for the missed detects and false alarm penelties.
$N_{G}^{t}$ : the number of ground truth objects in the i^th frame.

$M O D A (t) = 1 - \frac{c_{m} (m_{t}) + c_{f} (f p_{t})}{N_{G}^{t}}$

$N - M O D A = 1 - \frac{\sum_{i = 1}^{N_{f r a m e s}} (c_{m} (m_{i}) + c_{f} (f p_{i}))}{\sum_{i = 1}^{N_{f r a m e s}} N_{G}^{i}}$

3.4.7. Multiple Object Tracking Precision(MOTP)

$N_{m a p p e d}$ : mapped objects over the entire track as opposed to just the frame
$N_{m a p p e d}^{t}$ : the number of mapped objects in the i^th frame

$M O T P = \frac{\sum_{i = 1}^{N_{m a p p e d}} \sum_{t = 1}^{N_{f r a m e s}} \frac{| G_{i}^{(t)} \cap D_{i}^{(t)} |}{| G_{i}^{(t)} \cup D_{i}^{(t)} |}}{\sum_{t = 1}^{N_{f r a m e s}} N_{m a p p e d}^{t}}$

3.4.8. Multiple Object Tracking Accuracy(MOTA)

$m$ : the number of missed tracks
$f p$ : the total number of false alarm tracks
$i d_{s w i t c h e s}$ : the total number of ID switches made by the system output for any given reference ID

$M O T A = 1 - \frac{\sum_{i = 1}^{N_{f r a m e s}} (c_{m} (m_{i}) + c_{f} (f p_{i}) + l o g_{e} (i d_{s w i t c h e s}))}{\sum_{t = 1}^{N_{f r a m e s}} N_{G}^{t}}$

Last modified by akirat1993 2019-08-10 18:30:32

Created by akirat1993 2019-05-26 02:56:51

物体追跡

1. スクリプト

1.1. 検知/追跡の描写スクリプト(自分メモ)

2. 論文

2.1. MOT16入力形式

2.2. 精度比較のための形式

2.3. GMMCPの出力

2.4. Yoloの出力フォーマット

2.5. 比較実験用ディレクトリ構造DeepSort用

2.6. Related Work

3. 関連研究

3.1. 概要

3.2. 所感

3.3. 詳細

3.3.1. 入力(I)

3.3.2. 出力(M)

3.3.3. 定式化

3.3.4. アルゴリズム

3.4. 評価指標(MODP,MODA,MOTP,MOTA)

3.4.1. Term

3.4.2. Ovarlap Ratio

3.4.3. Non-binary Decision Threholding

3.4.4. Binary Decision Threholding

3.4.5. Multiple Object Detection Precision(MODP)

3.4.6. Multiple Object Detection Accuracy(MODA)

3.4.7. Multiple Object Tracking Precision(MOTP)

3.4.8. Multiple Object Tracking Accuracy(MOTA)

results matching ""

No results matching ""

1. スクリプト

1.1. 検知/追跡の描写スクリプト(自分メモ)

2. 論文

2.1. MOT16入力形式

2.2. 精度比較のための形式

2.3. GMMCPの出力

2.4. Yoloの出力フォーマット

2.5. 比較実験用ディレクトリ構造DeepSort用

2.6. Related Work

3. 関連研究

3.1. 概要

3.2. 所感

3.3. 詳細

3.3.1. 入力(I​)

3.3.2. 出力(M)

3.3.3. 定式化

3.3.4. アルゴリズム

3.4. 評価指標(MODP,MODA,MOTP,MOTA)

3.4.1. Term

3.4.2. Ovarlap Ratio

3.4.3. Non-binary Decision Threholding

3.4.4. Binary Decision Threholding

3.4.5. Multiple Object Detection Precision(MODP)

3.4.6. Multiple Object Detection Accuracy(MODA)

3.4.7. Multiple Object Tracking Precision(MOTP)

3.4.8. Multiple Object Tracking Accuracy(MOTA)

results matching ""

No results matching ""

3.3.1. 入力(I)