问题与需求
针对问题
现有方法:PVT任务假设目标在预设镜头内,相机保持静止。
现实任务:目标具有高动态特性。主动控制相机以提升视觉准确率是主要挑战。
VAT任务:VAT任务同时建模视觉跟踪和控制,应用场景更加广泛。

强化学习解决VAT任务
现有方法:直接串联VT模型和控制模型进行VAT(siamask+PID)。
现有局限:
1. VT模型的延迟带来控制输入的滞后,甚至导致控制器发散。
2. 控制模型对参数特别敏感,需要对每个场景微调参数
RL优点:可以用MDP将视觉和控制同时建模,用单模型解决。
仿真环境:RL现实环境试错和数据采集太昂贵,需建构仿真环境。
复杂多样的仿真环境
真实性:建模真实环境的多样性,丢弃真实场景不可获取的变量。
多样性:多场景,多种tracker和target,多传感器。
不可获取的变量:target相对于tracker的位置,速度,加速度。

Benchmark
24种场景
24种追踪对象
丰富感知信息
复杂场景设计
真实的交通管理
真实的动力学仿真
01
CityStreet
Village
02
Lake
03
Downtown
04
Farmland
05
Desert
06
MOTORBIKE
SCOOTER
TRAILER
TRUCK
BUS
TESLAModel3
LINKOLNMKZ
RANGEROVER
BENZSprinter
TOYOTAPrius
BMWX5
CITROENCZero
PEDESTRIAN
SHRIMP
CREATE
SOJOURNER
MANTIS
BB_8
AIBOERS7
BIOLOIDDOG
FIREBIRD6
SCOUT
GHOSTDOG2
HOAP2