mlpack-3.0.2/doxygen/greedy__policy_8hpp_source.html

 #ifndef MLPACK_METHODS_RL_POLICY_GREEDY_POLICY_HPP
 #define MLPACK_METHODS_RL_POLICY_GREEDY_POLICY_HPP

 #include <mlpack/prereqs.hpp>

 namespace mlpack {
 namespace rl {

 template <typename EnvironmentType>
 class GreedyPolicy
 {
  public:
   using ActionType = typename EnvironmentType::Action;

   GreedyPolicy(const double initialEpsilon,
                const size_t annealInterval,
                const double minEpsilon) :
       epsilon(initialEpsilon),
       minEpsilon(minEpsilon),
       delta((initialEpsilon - minEpsilon) / annealInterval)
   { /* Nothing to do here. */ }

   ActionType Sample(const arma::colvec& actionValue, bool deterministic = false)
   {
     double exploration = math::Random();

     // Select the action randomly.
     if (!deterministic && exploration < epsilon)
       return static_cast<ActionType>(math::RandInt(ActionType::size));

     // Select the action greedily.
     return static_cast<ActionType>(
         arma::as_scalar(arma::find(actionValue == actionValue.max(), 1)));
   }

   void Anneal()
   {
     epsilon -= delta;
     epsilon = std::max(minEpsilon, epsilon);
   }

   const double& Epsilon() const { return epsilon; }

  private:
   double epsilon;

   double minEpsilon;

   double delta;
 };

 } // namespace rl
 } // namespace mlpack

 #endif
mlpack::rl::GreedyPolicy::ActionType
typename EnvironmentType::Action ActionType
Convenient typedef for action.
Definition: greedy_policy.hpp:34

mlpack
.hpp
Definition: add_to_po.hpp:21

mlpack::rl::GreedyPolicy
Implementation for epsilon greedy policy.
Definition: greedy_policy.hpp:30

prereqs.hpp
The core includes that mlpack expects; standard C++ includes and Armadillo.

mlpack::rl::GreedyPolicy::Anneal
void Anneal()
Exploration probability will anneal at each step.
Definition: greedy_policy.hpp:76

mlpack::rl::GreedyPolicy::Epsilon
const double & Epsilon() const
Definition: greedy_policy.hpp:85

mlpack::math::Random
double Random()
Generates a uniform random number between 0 and 1.
Definition: random.hpp:71

mlpack::rl::GreedyPolicy::GreedyPolicy
GreedyPolicy(const double initialEpsilon, const size_t annealInterval, const double minEpsilon)
Constructor for epsilon greedy policy class.
Definition: greedy_policy.hpp:45

mlpack::math::RandInt
int RandInt(const int hiExclusive)
Generates a uniform random integer.
Definition: random.hpp:87

mlpack::rl::GreedyPolicy::Sample
ActionType Sample(const arma::colvec &actionValue, bool deterministic=false)
Sample an action based on given action values.
Definition: greedy_policy.hpp:60