此資料集記錄了無人機藉由強化學習模型TD3在Gazebo虛擬環境中進行導航與避障的經驗池(Experience Replay Buffer),新增了使用NWFPO算法來在action受到限制的環境也可以避免訓練時gradient為0的狀況產生,並且新增3 rooms 場景。
虛擬環境示意圖如下:https://imgur.com/Bm8GnwD
- 此經驗池共有10000筆資料,資料格式為 {s , a , r , s', done},變數分別為: s (無人機狀態) 由雷達資訊(已normalize),速度資訊以及目標點相對於無人機的極座標組成,共366維。a (無人機動作)由 x, y, z 線性速度,以及 z 方向的角速度組成,共4維。r (獎勵值) 由目標距離的變化和避障表現構成的非線性函數,1維。s' (下一刻無人機狀態)366維。done(到達目標點與否) 1 維。