此資料集記錄了無人機藉由強化學習模型TD3在Gazebo虛擬環境中進行導航與避障的經驗池(Experience Replay Buffer)。
虛擬環境示意圖如下:
此經驗池共有655935筆資料,資料格式為 {s , a , r , s', done},變數分別為: s (無人機狀態) 由雷達資訊(已normalize),速度資訊以及目標點相對於無人機的極座標組成,共366維。a (無人機動作)由 x, y, z 線性速度,以及 z 方向的角速度組成,共4維。r (獎勵值) 由目標距離的變化和避障表現構成的非線性函數,1維。s' (下一刻無人機狀態)366維。done(到達目標點與否) 1 維。