此模型記錄了無人機藉由強化學習模型TD3在Gazebo虛擬環境中進行導航與避障,並利用NFWPO算法解決DRL常見的零梯度問題。
Actor-network架構如圖所示:
https://imgur.com/a/JANUYzF
輸入:
- The lidar ranges(將0−360 degree解析度1度的原始360筆狀態資料降維至0−360 degree解析度36度共10筆,再輸入)
- The target position(極座標)2維。
- The velocity of UAV measured by IMU (Linear velocity along x, y, and z-axis and angular velocity along z-axis)4維。
- 10+2+4共16維
網路架構:
包括3層全連接層(dense),每層由256個hidden layers組成。
輸出:
Action, velocity command (Linear velocity along x, y, and z-axis and angular velocity along z-axis)4維。
Critic-network架構如圖所示:
https://imgur.com/a/75zORS0
輸入部份:
包含the lidar ranges(10D), the target position(2D), the velocity of UAV(4D), the velocity command(4D)。共20維。
網路架構:
包括3層全連接層(dense),每層由256個hidden layers組成。
輸出:
輸出estimated action-value作為critic-loss。