이것은 2024년 MID SLONE에 제출한 논문으로 축구경기중 카메라에 포착되지 않은 선수들을 보간하는 논문입니다. 이번 블로그에서는 위 논문에 대해서 자세히 설명하고자 합니다.
- 이 논문은 2024년에 발표된 논문으로 다양한 기술들을 설명하고 있습니다. 그러나, 그 기술들에 대해서 자세히 설명하지 않으니 궁금한 것들에 대해서는 따로 공부하는 것을 추천한다.
- AI : GNN(Graph Neural Networks), SAA(Spatiotemporal Axial Attention), Temporal Attention, Spatial Attention, Self-Attention, Diffuion Diffuion
Abstract
- 축구에서 tracking-data는 25년이 되었고, tracking-data를 활용하여 다양한 분석을 할 수 있었다. tracking-data는 초당 10개의 frame으로 선수의 위치를 추적하는데, 초창기에는 경기장에 설치된 카메라 or human에 의해서 수행되었다. 그리고 이를 활용하여 다양한 축구 데이터 분석을 수행할 수 있었다.
- 2008년 computer vision에 발전에 힘입어 자동으로 선수과 공의 위치를 추적할 수 있었고, 이에 실시간으로 데이터 분석도 가능해졌다. 그러나, 이러한 tracking-data를 제한된 가용성으로 인해 광범위한 활용에 제약이 있다. 자신의 팀만 사용할 수 있거나, 공유를 한다해도 리그 내에서의 분석만 가능하게 하여 국제적인 분석과 비교를 어렵게 만듭니다.
* (b)가 카메라를 통해 자동으로 선수과 공의 위치좌표를 추출한 후에 시각화한 그림이다. -
broadcast tracking system의 발전으로 인해 이러한 제한을 극복할 수 있었다. 그러나, 방송에서 얻은 데이터는 주요 카메라에서 벗어난 선수, 근접 슛 촬영 , 화질, 선수가 선수를 가리는 장면등 여러 원인으로 인해 불완정합니다. 본 연구에서는 이러한 문제를 해결하기 위해 Diffusion Model를 활용해서 카메라에 포착되지 않는 선수들을 보간하고자합니다.
* (a)과 (d)가 방송을 통해 선수과 공의 좌표를 추출한 후에 시각화한 그림이다.
Figure1- (a) : 방송에서 포착된 장면
- (b) : 실제 경기장의 카메라를 통해 자동으로 위치를 추적한 In-Venue tracking-data
- (c) : on-the-ball 이벤트만 기록한 event-data
- event-data로 분석은 가능하지만, off-the-ball은 놓치므로 정확한 분석이 불가능함.
- (d) : 방송에서 포착된 장면을 통해 선수들의 위치좌표를 추적한 Broadcast tracking-data
- (e) : 방송 주요 카메라에 포착되지 않은 다른 선수들을 보간한 Imputed tracking-data
- 본 연구에서는 diffusion를 통해서 보간하고자 한다.
Model Architecture
- 본 논문에서는 tracking-data를 보간하는 방식은 크게 3가지로 나눈다. 우리는 3가지 방식이 실제로 어떻게 구현되는지 알아볼 예정이다.
- Encoding Broadcast Tracking Data
- Encoding Broadcast Event Data
-
generatvie AI model
1. Encoding Broadcast Tracking Data
- tracking-data를 encoding하는 방법은 크게 temporal-attention과 spatial-attention를 활용한다.
- broadcast tracking-data를 encode하는 것은 겹치는 agents의 위치를 추론하는데 강한 signals를 형성한다.
- tracking-data를 encoding하는 주요 과제는 (1) modeling each agent’s past behaviors과 (2) representing interagent spatial dynamics가 있다. 특히, agents가 오랫동안 겹치기 때문에 어렵다. 따라서 한번에 여러 시간동안의 tracking-data를 encoding해야한다.
SAA attention
</p>
- Temporal Attention과 Spatioal Attention를 연속적으로 처리함 -> SAA(Spatiotemporal axial attention)
- Temporal Attention : 각 agent의 과거 위치 간의 self-attention를 계산하여 temporal context를 추출한다. -> 겹치는 agent문제 해결
- Spatial Attention : 특정 시점에 모든 agent의 위치 사이의 self-attention를 계산하여 spatial context를 추출한다. -> permutation문제 해결
2. Enhancing Broadcast Tracking with Event Data
- tracking-data의 한계 : 공을 지속적으로 추적하는데 어려움 & 짧은 시간동안 방송 추적 제공하지 않음
- 이러한 기간은 상대적으로 짧지만(<10초) 추가적인 context없이 agent를 합성하는 것은 매우 어렵다.
- tracking-data과 event-data를 통합하여 이러한 문제를 해결하고자 한다. -> multi-modal, consisting of multiple spatiotemporal input modes
how we fuse where event data and broadcast tracking-data- event-data도 spatiotemporal modality로 활용할 수 있음.
- Temporal Attention : the chronological ordering of each player’s events
- Spatial Attention : representing each specific player
3. Generating Photorealistic Tracking Data via Diffusion
- broadcast tracking-data과 event-data를 결합하면, agent의 위치를 보다 정확하게 예측할 수 있지만 반드시 realistic human motion를 예측하지는 못한다.
- noise과 heavy occlusions문제로 인해 여전히 위치 정보가 불확실하다. 이는 종종 trajectory가 부드럽지 않고 순간이동하는 것처럼 보인다.
- 이러한 비현실적인 motion를 해결하기 위해 diffusion을 활용한다.
how we fuse where event data and broadcast tracking-data- Diffusion과정에 대해서 수식이 존재하지 않아서 정확한 알고리즘은 알 수가 없고, 영상과 논문을 통해 추측해봤다.
- human motion이 남을 때까지 noise를 계속 추가한다.
- noise sample에서 denoise를 통해 realistic tracking-data를 추출한다.
- denoise단계에서 play encoding정보를 전달한다.
- Diffusion? SoccerDiffusion? LatentDiffusion? 정확한 구조를 알 수 없다.
Unlocking Downstream Analysis with Imputed Data
- 정확하게 imputation를 수행했는지 평가하고자한다.
- Downstream sporting analysis : xReceiver(Expected Recevier)
-
xReceiver의 출력이 In-venue tracking-data의 출력과 일치하려면, imputed tracking-data는 trajectory space의 복잡한 특징을 생성해야한다.
1. xReceiver Dataset & Model
- 패스 전 5~0.2초까지의 tracking-data를 활용하고, in-play상황에서 tracking-data가 완전히 존재하는 패스만 검사한다.
- Feature : agent location, agent’s type(goalkeeper, ball or outfield player), attacking -> evnet-data에서 사용할 feature
- Model : SAA -> linear projection -> softmax
2. xReceiver Quantitative Results
- train : in-venue tracking-data & raw broadcast tracking-data
- imputed-data의 경우 in-venue tracking-data에서 학습된 xReceiver model를 활용한다. 이는 in-venue tracking-data를 대체할 수 있는지 분석하는데 도움을 준다.
- 정량적 결과(개인적으로 평가 대상이 아쉬움)
- xReceiver의 상위 k명중 얼마나 하나로 평가
- in-venue xReceiver의 출력과 얼마나 유사한지 Intersection over Union(IoU)로 평가
3. xReceiver Qualitative Results
- imputed tracking-data는 in-venue tracking-data과 매우 유사하면 실제 receiver인 28번을 높은 확률의 receiver로 간주한다.
Qualitative evaluation