vita/api/holdout__validation_8cc_source.html

#include "kernel/gp/src/holdout_validation.h"

#include "kernel/random.h"


namespace vita

{


holdout_validation::holdout_validation(src_problem &prob)

  : training_(prob.data(dataset_t::training)),

    validation_(prob.data(dataset_t::validation)),

    env_(prob.env)

{

  // Here `env_.validation_percentage.has_value()` could be `false`. Validation

  // strategy is set before parameters are tuned.


  Ensures(validation_.empty());

}


void holdout_validation::init(unsigned run)

{

  Expects(env_.validation_percentage.has_value());

  Expects(*env_.validation_percentage < 100);

  Expects(!training_.empty());


  if (*env_.validation_percentage == 0)

  {

    vitaWARNING << "Holdout with 0% validation is unusual";

  }


  if (run > 0)  // datasets are set up only one time (at run `0`)

    return;


  assert(validation_.empty());


  const auto perc(*env_.validation_percentage);

  const auto available(training_.size());

  const auto skip(std::max<decltype(available)>(

                    available * (100 - perc) / 100, 1));

  assert(skip <= available);


  // Reservoir sampling via Fisher-Yates shuffling algorithm.

  for (std::size_t i(available - 1); i >= skip; --i)

  {

    auto curr(std::next(training_.begin(), i));

    auto rand(std::next(training_.begin(), random::sup(i + 1)));


    std::iter_swap(curr, rand);

  }


  const auto from(std::next(training_.begin(), skip));

  std::copy(from, training_.end(), std::back_inserter(validation_));

  training_.erase(from, training_.end());


  Ensures(!training_.empty());

  Ensures(training_.size() == skip);

  Ensures(training_.size() + validation_.size() == available);

}


}  // namespace vita

vita::dataframe::erase
iterator erase(iterator, iterator)
Removes specified elements from the dataframe.
Definition: dataframe.cc:772

vita::dataframe::size
std::size_t size() const
Definition: dataframe.cc:291

vita::dataframe::begin
iterator begin()
Definition: dataframe.cc:235

vita::dataframe::empty
bool empty() const
Definition: dataframe.cc:299

vita::dataframe::end
iterator end()
Definition: dataframe.cc:251

vita::environment::validation_percentage
facultative< unsigned > validation_percentage
How much data should be reserved for the validation set? validation_percentage is the fraction of the...
Definition: environment.h:217

vita::holdout_validation::init
void init(unsigned) override
During the first run examples are randomly partitioned into two sets according to a given percentage.
Definition: holdout_validation.cc:41

vita::holdout_validation::holdout_validation
holdout_validation(src_problem &)
Sets up a hold-out validator.
Definition: holdout_validation.cc:24

vita::src_problem
Provides a GP-specific interface to the generic problem class.
Definition: gp/src/problem.h:44

holdout_validation.h

vita
The main namespace for the project.

vita::dataset_t
dataset_t
Data/simulations are categorised in three sets:
Definition: gp/src/problem.h:35

vita::run
value_t run(const T &ind)
A handy short-cut for one-time execution of an individual.
Definition: core_interpreter.h:87

random.h