https://cvpr.thecvf.com/virtual/2025/poster/35174
CVPR Poster Focusing on Tracks for Online Multi-Object Tracking
Abstract: Multi-object tracking (MOT) is a critical task in computer vision, requiring the accurate identification and continuous tracking of multiple objects across video frames. However, current state-of-the-art methods mainly rely on a global optimizati
cvpr.thecvf.com
Motivation.
이전의 MOT(Multi-object Tracking)에는 Hungarian matching algorithm을 이용해서 tracklet의 track들과 detection의 결과를 matching 했습니다. hungarian matching algorithm은 전역(global) 비용 최소화를 목표로 matching을 수행하며, 이는 두 집합이 아에 독립인 경우를 가정합니다. 하지만 local의 관점에서는 틀릴 수도 있습니다.
https://gazelle-and-cs.tistory.com/29
할당 문제 & 헝가리안 알고리즘 (Assignment Problem & Hungarian Algorithm)
이번 포스팅에서는 assignment problem과 Hungarian algorithm에 대해서 알아보겠습니다. 먼저 assignment problem이 어떤 것인지에 대해서 살펴보고, 이를 해결하는 방법을 알아보도록 하겠습니다. 인터넷을 찾
gazelle-and-cs.tistory.com
즉, track set과 object set 전체의 관점에서 matching cost를 줄이는 것과 track 하나 하나의 관점에서의 최적의 matching은 다르다는 것입니다. 다시 말해, 전체의 비용을 줄이기 위해 일부의 희생이 있을 수 있으며, hungarian matching algorithm은 그런 알고리즘이라는 것입니다. 따라서 해당 논문에서는 local의 관점에서, 즉, track 하나 하나의 관점에서 matching을 수행합니다. 아래의 예시는 전역 최적화(hungarian)와 지역 최적화(local)의 관점에서 tracking결과를 나타냅니다:

hungarian matching 알고리즘을 이용하면 object가 겹쳤을 때, tracking하고 있던 object가 바뀌는 경우가 발생할 수 있습니다. 이는 전체의 관점에서 비용이 낮기만 하면 상관없기 때문입니다. 하지만 TPA(논문에서 제안하는 matching 알고리즘)에서는 track 하나 하나의 관점에서 매칭이 되기 때문에 기존에 tracking이 되고 있던 object가 순간 겹쳐도 이에 강건하게 tracking을 할 수 있습니다. 자세한 알고리즘은 아래에서 다루겠습니다.
한편, 기존의 tracking 방법론들은 object에 대한 confidence가 높으면 일단 tracking하기 때문에, 거울에 비친 object와 같이 objectness는 높지만 실제 object는 없는 경우나 이미 tracking이 되고 있어서 추가적으로 track을 생성할 필요가 없지만 objectness가 높다는 이유 만으로 track이 생성되는 경우 spurious tracks(가짜 track)가 많이 생성됩니다. 이는 관리하는 tracklet의 개수를 늘리기 때문에 계산 효율성의 측면에서 문제가 됩니다. 이를 해결하고자 논문의 저자는 tracking의 결과를 이용해서 spurious tracks의 개수를 줄임(TAI)으로써 추가적인 계산 비용을 줄일 수 있었습니다.
Method.
Track-Perspective-Based Association (TPA).
기존의 전역 최적화를 목표로 하던 헝가리안 알고리즘과 달리 지역 최적화의 관점에서 매칭을 수행하는 알고리즘입니다. 기존의 방식들은 detection의 결과를 이용해서 track과의 매칭을 수행했기 때문에(detection의 결과가 좋은 object만을 선별하여 track과 매칭), high confidence results들만 track matching의 대상이 되었습니다.
하지만 이는 일시적으로 다른 물체에 가려지는 occulusion에 의해 confidence가 떨어지는 object가 있다는 점을 고려하지 않았습니다. 기존의 방식대로라면 폐색으로 인해 가려진 object는 confidence가 낮아지기 때문에 track과의 매칭에서 우선순위가 뒤로 밀리게 되며, 이후 폐색이 풀렸을 때 (위 그림에서 ID가 swiching되는 경우과 같이) 이상한 track과 매칭이 되는경우가 발생한다.
따라서 TPA에서는 low-confidence object와 NMS로 인해 delete된 object까지 matching 알고리즘의 대상이 됩니다.
3) NMS (Non-Maximum Suppression) & Anchor box
## 서론 앞서 [1) General process of object detection](https://wikidocs.net/152376) 에서 언급했듯, 대다수의 objec…
wikidocs.net
이때 low-confidence와 NMS로 인해 사라질 예정이었던 object(del)들은 cost penality를 갖습니다. 이를 고려하여 cost function을 만들면 다음과 같습니다:

c(T, d)는 track T와 object d 사이의 거리이며, 이는 IoU, cosine, confidence 등의 요소로 구성됩니다. 한편 taw_p와 taw_q는 각각 low-confidence object와 NMS deleted object에 부여되는 distance penality입니다.
이를 이용하여 TPA를 수행하는데 자세한 알고리즘은 다음과 같습니다:
(1) 우선 하나의 Track의 관점에서 distance가 최소인 object d를 선택합니다. 그 후 Object의 관점에서 distance가 최소인 track t를 선택합니다. 이때 서로 선택했다면 matching.
(2) 이렇게 모든 track(object)에 대해 (1)을 수행하고 남은 track들과 object들을 이용해 다시 (1)을 수행합니다.
(3) 미리 정의된 distance threshold 보다 작은 matching이 나오지 않으면 해당 알고리즘을 종료합니다.
low-confidence와 delected object까지 matching 알고리즘의 후보로 넣었기 때문에 기존의 방법에 비해 폐색에 강건한 모델이 될 수 있습니다. 또한 전역 최적화의 관점이 아닌 track과 object의 관점에서 서로 최선의 선택을 수행함으로서 local 최적화를 수행합니다.
Track-Aware Initialization (TAI).
기존의 tracking 알고리즘들은 object confidence가 높다면 일단 track을 새롭게 생성했습니다. 하지만 이는 spurious track을 생성할 수 있기 때문에, TPA의 결과 track의 위치와 가까운 경우 새롭게 track을 생성하지 않는다는 제약을 만들어줍니다.
즉, TPA를 통해 매칭이 되지 않은 object에 대해 high-confidence object가 새롭게 나타나서 track을 새롭게 생성하려고 하지만, 그 위치가 TPA를 통해 이미 matching된 track과 IoU score가 일정 threshold보다 크다면 새롭게 track을 생성하지 않는것입니다(tracking에서의 NMS같은 느낌):

Results.


표 1. 은 제안한 모델이 다른 모델들에 비해 tracking성능이 더 좋음을 보여줍니다.

표 3. 은 DanceTrack이라는 dataset에서 제안된 모델이 SOTA를 달성함을 보여줍니다. 다른 데이터 셋과 달리 춤 영상을 tracking하는 경우에는 동선에 의해 IDs가 변경되는, 즉 폐색에 의해 tracking하던 object가 변경되는 경우가 많은데, TPA로 인해 이런 경우에 강건함을 증명합니다.

표 8. 은 Hungarian 알고리즘과 TPA의 계산 비용을 비교한 표입니다. TPA는 hungarian 알고리즘에 비해 후보가 되는 object의 개수가 많이 때문에 계산 비용이 비싸지만, 그렇게 비싸지 않음을 나타냅니다.