mlpack-git/doxygen/reward__clipping_8hpp_source.html

 #ifndef MLPACK_METHODS_RL_ENVIRONMENT_REWARD_CLIPPING_HPP
 #define MLPACK_METHODS_RL_ENVIRONMENT_REWARD_CLIPPING_HPP

 #include <mlpack/prereqs.hpp>

 namespace mlpack {
 namespace rl {

 template <typename EnvironmentType>
 class RewardClipping
 {
  public:
   using State = typename EnvironmentType::State;

   using Action = typename EnvironmentType::Action;

   RewardClipping(EnvironmentType& environment,
                  const double minReward = -1.0,
                  const double maxReward = 1.0) :
     environment(environment),
     minReward(minReward),
     maxReward(maxReward)
   {
     // Nothing to do here
   }

   State InitialSample()
   {
     return environment.InitialSample();
   }

   bool IsTerminal(const State& state) const
   {
     return environment.IsTerminal(state);
   }

   double Sample(const State& state,
                 const Action& action,
                 State& nextState)
   {
     // Get original unclipped reward from base environment.
     double unclippedReward =  environment.Sample(state, action, nextState);
     // Clip rewards according to the min and max limit and return.
     return std::min(std::max(unclippedReward, minReward), maxReward);
   }

   double Sample(const State& state, const Action& action)
   {
     State nextState;
     return Sample(state, action, nextState);
   }

   EnvironmentType& Environment() const { return environment; }
   EnvironmentType& Environment() { return environment; }

   double MinReward() const { return minReward; }
   double& MinReward() { return minReward; }

   double MaxReward() const { return maxReward; }
   double& MaxReward() { return maxReward; }

  private:
   EnvironmentType environment;

   double minReward;

   double maxReward;
 };

 } // namespace rl
 } // namespace mlpack

 #endif
mlpack::rl::RewardClipping::MaxReward
double MaxReward() const
Get the maximum reward value.
Definition: reward_clipping.hpp:122

mlpack
strip_type.hpp
Definition: add_to_po.hpp:21

mlpack::rl::RewardClipping::Environment
EnvironmentType & Environment()
Modify the environment.
Definition: reward_clipping.hpp:114

mlpack::rl::RewardClipping::RewardClipping
RewardClipping(EnvironmentType &environment, const double minReward=-1.0, const double maxReward=1.0)
Constructor for creating a RewardClipping instance.
Definition: reward_clipping.hpp:46

prereqs.hpp
The core includes that mlpack expects; standard C++ includes and Armadillo.

mlpack::rl::RewardClipping::Sample
double Sample(const State &state, const Action &action, State &nextState)
Dynamics of Environment.
Definition: reward_clipping.hpp:87

mlpack::rl::RewardClipping::InitialSample
State InitialSample()
The InitialSample method is called by the environment to initialize the starting state.
Definition: reward_clipping.hpp:61

mlpack::rl::RewardClipping::State
typename EnvironmentType::State State
Convenient typedef for state.
Definition: reward_clipping.hpp:33

mlpack::rl::RewardClipping::Action
typename EnvironmentType::Action Action
Convenient typedef for action.
Definition: reward_clipping.hpp:36

mlpack::rl::RewardClipping::MaxReward
double & MaxReward()
Modify the maximum reward value.
Definition: reward_clipping.hpp:124

mlpack::rl::RewardClipping::MinReward
double & MinReward()
Modify the minimum reward value.
Definition: reward_clipping.hpp:119

mlpack::rl::RewardClipping::MinReward
double MinReward() const
Get the minimum reward value.
Definition: reward_clipping.hpp:117

mlpack::rl::RewardClipping
Interface for clipping the reward to some value between the specified maximum and minimum value (Clip...
Definition: reward_clipping.hpp:29

mlpack::rl::RewardClipping::Sample
double Sample(const State &state, const Action &action)
Dynamics of Environment.
Definition: reward_clipping.hpp:105

mlpack::rl::RewardClipping::IsTerminal
bool IsTerminal(const State &state) const
Checks whether given state is a terminal state.
Definition: reward_clipping.hpp:73

mlpack::rl::RewardClipping::Environment
EnvironmentType & Environment() const
Get the environment.
Definition: reward_clipping.hpp:112