mlpack-3.1.0/doxygen/n__step__q__learning__worker_8hpp_source.html

 #ifndef MLPACK_METHODS_RL_WORKER_N_STEP_Q_LEARNING_WORKER_HPP
 #define MLPACK_METHODS_RL_WORKER_N_STEP_Q_LEARNING_WORKER_HPP

 #include <mlpack/methods/reinforcement_learning/training_config.hpp>

 namespace mlpack {
 namespace rl {

 template <
   typename EnvironmentType,
   typename NetworkType,
   typename UpdaterType,
   typename PolicyType
 >
 class NStepQLearningWorker
 {
  public:
   using StateType = typename EnvironmentType::State;
   using ActionType = typename EnvironmentType::Action;
   using TransitionType = std::tuple<StateType, ActionType, double, StateType>;

   NStepQLearningWorker(
       const UpdaterType& updater,
       const EnvironmentType& environment,
       const TrainingConfig& config,
       bool deterministic):
       updater(updater),
       environment(environment),
       config(config),
       deterministic(deterministic),
       pending(config.UpdateInterval())
   { Reset(); }

   void Initialize(NetworkType& learningNetwork)
   {
     updater.Initialize(learningNetwork.Parameters().n_rows,
         learningNetwork.Parameters().n_cols);
     // Build local network.
     network = learningNetwork;
   }

   bool Step(NetworkType& learningNetwork,
             NetworkType& targetNetwork,
             size_t& totalSteps,
             PolicyType& policy,
             double& totalReward)
   {
     // Interact with the environment.
     arma::colvec actionValue;
     network.Predict(state.Encode(), actionValue);
     ActionType action = policy.Sample(actionValue, deterministic);
     StateType nextState;
     double reward = environment.Sample(state, action, nextState);
     bool terminal = environment.IsTerminal(nextState);

     episodeReturn += reward;
     steps++;

     terminal = terminal || steps >= config.StepLimit();
     if (deterministic)
     {
       if (terminal)
       {
         totalReward = episodeReturn;
         Reset();
         // Sync with latest learning network.
         network = learningNetwork;
         return true;
       }
       state = nextState;
       return false;
     }

     #pragma omp atomic
     totalSteps++;

     pending[pendingIndex] = std::make_tuple(state, action, reward, nextState);
     pendingIndex++;

     if (terminal || pendingIndex >= config.UpdateInterval())
     {
       // Initialize the gradient storage.
       arma::mat totalGradients(learningNetwork.Parameters().n_rows,
           learningNetwork.Parameters().n_cols, arma::fill::zeros);

       // Bootstrap from the value of next state.
       arma::colvec actionValue;
       double target = 0;
       if (!terminal)
       {
         #pragma omp critical
         { targetNetwork.Predict(nextState.Encode(), actionValue); };
         target = actionValue.max();
       }

       // Update in reverse order.
       for (int i = pending.size() - 1; i >= 0; --i)
       {
         TransitionType &transition = pending[i];
         target = config.Discount() * target + std::get<2>(transition);

         // Compute the training target for current state.
         network.Forward(std::get<0>(transition).Encode(), actionValue);
         actionValue[std::get<1>(transition)] = target;

         // Compute gradient.
         arma::mat gradients;
         network.Backward(actionValue, gradients);

         // Accumulate gradients.
         totalGradients += gradients;
       }

       // Clamp the accumulated gradients.
       totalGradients.transform(
           [&](double gradient)
           { return std::min(std::max(gradient, -config.GradientLimit()),
           config.GradientLimit()); });

       // Perform async update of the global network.
       updater.Update(learningNetwork.Parameters(),
           config.StepSize(), totalGradients);

       // Sync the local network with the global network.
       network = learningNetwork;

       pendingIndex = 0;
     }

     // Update global target network.
     if (totalSteps % config.TargetNetworkSyncInterval() == 0)
     {
       #pragma omp critical
       { targetNetwork = learningNetwork; }
     }

     policy.Anneal();

     if (terminal)
     {
       totalReward = episodeReturn;
       Reset();
       return true;
     }
     state = nextState;
     return false;
   }

  private:
   void Reset()
   {
     steps = 0;
     episodeReturn = 0;
     pendingIndex = 0;
     state = environment.InitialSample();
   }

   UpdaterType updater;

   EnvironmentType environment;

   TrainingConfig config;

   bool deterministic;

   size_t steps;

   double episodeReturn;

   std::vector<TransitionType> pending;

   size_t pendingIndex;

   NetworkType network;

   StateType state;
 };

 } // namespace rl
 } // namespace mlpack

 #endif
mlpack::rl::NStepQLearningWorker::TransitionType
std::tuple< StateType, ActionType, double, StateType > TransitionType
Definition: n_step_q_learning_worker.hpp:40

mlpack::rl::NStepQLearningWorker::NStepQLearningWorker
NStepQLearningWorker(const UpdaterType &updater, const EnvironmentType &environment, const TrainingConfig &config, bool deterministic)
Construct N-step Q-Learning worker with the given parameters and environment.
Definition: n_step_q_learning_worker.hpp:51

mlpack
.hpp
Definition: add_to_po.hpp:21

mlpack::rl::NStepQLearningWorker::Initialize
void Initialize(NetworkType &learningNetwork)
Initialize the worker.
Definition: n_step_q_learning_worker.hpp:67

mlpack::rl::TrainingConfig::StepLimit
size_t StepLimit() const
Get the maximum steps of each episode.
Definition: training_config.hpp:69

mlpack::rl::TrainingConfig::TargetNetworkSyncInterval
size_t TargetNetworkSyncInterval() const
Get the interval for syncing target network.
Definition: training_config.hpp:63

mlpack::rl::TrainingConfig
Definition: training_config.hpp:19

mlpack::rl::NStepQLearningWorker::Step
bool Step(NetworkType &learningNetwork, NetworkType &targetNetwork, size_t &totalSteps, PolicyType &policy, double &totalReward)
The agent will execute one step.
Definition: n_step_q_learning_worker.hpp:86

mlpack::rl::TrainingConfig::UpdateInterval
size_t UpdateInterval() const
Get the update interval.
Definition: training_config.hpp:58

mlpack::rl::TrainingConfig::Discount
double Discount() const
Get the discount rate for future reward.
Definition: training_config.hpp:87

training_config.hpp

mlpack::rl::NStepQLearningWorker::StateType
typename EnvironmentType::State StateType
Definition: n_step_q_learning_worker.hpp:38

mlpack::rl::NStepQLearningWorker::ActionType
typename EnvironmentType::Action ActionType
Definition: n_step_q_learning_worker.hpp:39

mlpack::rl::TrainingConfig::GradientLimit
double GradientLimit() const
Get the limit of update gradient.
Definition: training_config.hpp:92

mlpack::rl::TrainingConfig::StepSize
double StepSize() const
Get the step size of the optimizer.
Definition: training_config.hpp:82