VAT Benchmark

多场景主动视觉跟踪数据集(弃用中文网页)

问题与需求

针对问题

现有方法:PVT任务假设目标在预设镜头内,相机保持静止。

现实任务:目标具有高动态特性。主动控制相机以提升视觉准确率是主要挑战。

VAT任务:VAT任务同时建模视觉跟踪和控制,应用场景更加广泛。

强化学习解决VAT任务

现有方法:直接串联VT模型和控制模型进行VAT(siamask+PID)。

现有局限:
1. VT模型的延迟带来控制输入的滞后,甚至导致控制器发散。
2. 控制模型对参数特别敏感,需要对每个场景微调参数

RL优点:可以用MDP将视觉和控制同时建模,用单模型解决。

仿真环境:RL现实环境试错和数据采集太昂贵,需建构仿真环境。

复杂多样的仿真环境

真实性:建模真实环境的多样性,丢弃真实场景不可获取的变量。

多样性:多场景,多种tracker和target,多传感器。

不可获取的变量:target相对于tracker的位置,速度,加速度。

Benchmark

24种场景

24种追踪对象

丰富感知信息

复杂场景设计

真实的交通管理

真实的动力学仿真

  • 01

    CityStreet

  • Village

    02

  • Lake

    03

  • Downtown

    04

  • Farmland

    05

  • Desert

    06

  • MOTORBIKE

  • SCOOTER

  • TRAILER

  • TRUCK

  • BUS

  • TESLAModel3

  • LINKOLNMKZ

  • RANGEROVER

  • BENZSprinter

  • TOYOTAPrius

  • BMWX5

  • CITROENCZero

  • PEDESTRIAN

  • SHRIMP

  • CREATE

  • SOJOURNER

  • MANTIS

  • BB_8

  • AIBOERS7

  • BIOLOIDDOG

  • FIREBIRD6

  • SCOUT

  • GHOSTDOG2

  • HOAP2