da/d36/SlurmBackend_8h_source.html

 #pragma once


 #include "Backend.h"


 #include <benchmax/logging.h>

 #include <benchmax/utils/execute.h>


 #include "slurm/SlurmSettings.h"

 #include "slurm/SlurmUtilities.h"


 #include <filesystem>

 #include <future>

 #include <mutex>

 #include <regex>

 #include <thread>


 #include "../utils/parsing.h"

 namespace benchmax {


 /**

  * Backend for the Slurm workload manager.

  *

  * The execution model is as follows:

  * We create multiple jobs that each consists of multiple array jobs that each execute one slice of the task list.

  * One array job executes Settings::slice_size entries of the task list.

  * One job consists of Settings::array_size array jobs.

  * We start as many jobs as necessary.

  */

 class SlurmBackend: public Backend {

 private:

     /// A job consists of a tool, an input file, a base dir and results.

     using JobData = std::tuple<

         const Tool*,

         std::filesystem::path,

         BenchmarkResult

     >;


     /// Mutex for submission delay.

     std::mutex mSubmissionMutex;

     /// Mutex for slurmjobs file

     std::mutex mSlurmjobMutex;


     /// Parse the content of an output file.

     void parse_result_file(const Jobs& jobs, const std::filesystem::path& file, std::map<size_t, JobData>& results) {

         BENCHMAX_LOG_DEBUG("benchmax.slurm", "Processing file " << file);

         std::ifstream in(file);

         std::string content((std::istreambuf_iterator<char>(in)), std::istreambuf_iterator<char>());

         auto extension = file.extension();


         if (extension == ".out") {

             std::regex filere("Executing (.+)\\n# START ([0-9]+) #([^#]*)# END \\2 #(?:([^#]*)# END DATA \\2 #)?");

             auto reBegin = std::sregex_iterator(content.begin(), content.end(), filere);

             auto reEnd = std::sregex_iterator();

             for (auto i = reBegin; i != reEnd; ++i) {

                 std::size_t id = std::stoull((*i)[2]) - 1;

                 if (results.find(id) == results.end()) results.emplace(id, JobData {jobs.tools().begin()->get(), "", BenchmarkResult() });


                 bool toolFound = false;

                 std::string cmdline = (*i)[1];

                 for (const auto& tool : jobs.tools()) {

                     auto t = tool->parseCommandline(cmdline);

                     if (t) {

                         std::get<0>(results[id]) = tool.get();

                         std::get<1>(results[id]) = std::filesystem::path(*t);

                         toolFound = true;

                         break;

                     }

                 }

                 if (!toolFound) {

                     BENCHMAX_LOG_WARN("benchmax.slurm", "Could not find tool for " << cmdline);

                 }


                 auto& res = std::get<2>(results[id]);

                 res.stdout = (*i)[3];

                 res.exitCode = std::stoi(slurm::parse_result_info((*i)[4], "exitcode"));

                 res.time = std::chrono::milliseconds(std::stoi(slurm::parse_result_info((*i)[4], "time")));

                 BENCHMAX_LOG_DEBUG("benchmax.slurm", "Got " << res << " for task " << id << " from stdout");

             }

         } else if (extension == ".err") {

             std::regex filere("# START ([0-9]+) #([^#]*)# END \\1 #(?:([^#]*)# END DATA \\1 #)?");

             auto reBegin = std::sregex_iterator(content.begin(), content.end(), filere);

             auto reEnd = std::sregex_iterator();

             for (auto i = reBegin; i != reEnd; ++i) {

                 std::size_t id = std::stoull((*i)[1]) - 1;

                 if (results.find(id) == results.end()) results.emplace(id, JobData {jobs.tools().begin()->get(), "", BenchmarkResult() });


                 auto& res = std::get<2>(results[id]);

                 res.stderr = (*i)[2];

                 res.peak_memory_kbytes = parse_peak_memory(res.stderr);

                 BENCHMAX_LOG_DEBUG("benchmax.slurm", "Got " << res << " for task " << id << " from stderr");

             }

         } else {

             BENCHMAX_LOG_WARN("benchmax.slurm", "Trying to parse output file with unexpected extension " << extension);

         }

     }


     std::pair<std::size_t,std::size_t> get_job_range(std::size_t n, std::size_t numJobs) const {

         std::size_t job_size = settings_slurm().array_size * settings_slurm().slice_size;

         return std::make_pair(

             job_size * n,

             std::min(job_size * (n + 1), numJobs)

         );

     }


     void store_job_id(int jobid) {

         mSlurmjobMutex.lock();

         std::ofstream out(settings_slurm().tmp_dir + "/slurmjobs", std::ios_base::app);

         out << jobid << std::endl;

         out.close();

         mSlurmjobMutex.unlock();

     }


     std::vector<int> load_job_ids() {

         std::vector<int> res;

         std::ifstream in(settings_slurm().tmp_dir + "/slurmjobs");

         if (!in) {

             return res;

         }

         int jobid;

         while(in >> jobid) {

             res.push_back(jobid);

         }

         in.close();

         return res;

     }


     void remove_job_ids() {

         if( std::remove( (settings_slurm().tmp_dir + "/slurmjobs").c_str() ) != 0 ){

             BENCHMAX_LOG_WARN("benchmax.slurm", settings_slurm().tmp_dir + "/slurmjobs file could not be deleted");

         }

     }


     void run_job_async(std::size_t n, const std::vector<JobData>& results, bool wait_for_termination) {

         slurm::clear_directory(settings_slurm().tmp_dir);


         std::string jobsfilename = settings_slurm().tmp_dir + "/jobs-" + std::to_string(settings_core().start_time) + "-" + std::to_string(n+1) + ".jobs";

         auto job_range = get_job_range(n, results.size());

         slurm::generate_jobs_file(jobsfilename, job_range, results);


         auto submitfile = slurm::generate_submit_file_chunked({

             std::to_string(settings_core().start_time) + "-" + std::to_string(n),

             jobsfilename,

             settings_slurm().tmp_dir,

             settings_benchmarks().limit_time,

             settings_benchmarks().grace_time,

             settings_benchmarks().limit_memory,

             settings_slurm().array_size,

             settings_slurm().slice_size,

             job_range

         });


         BENCHMAX_LOG_INFO("benchmax.slurm", "Delaying for " << settings_slurm().submission_delay);

         {

             std::lock_guard<std::mutex> guard(mSubmissionMutex);

             std::this_thread::sleep_for(settings_slurm().submission_delay);

         }

         BENCHMAX_LOG_INFO("benchmax.slurm", "Submitting job now.");


         std::stringstream cmd;

         cmd << "sbatch";

         if (wait_for_termination) cmd << " --wait";

         cmd << " --array=1-" << std::to_string(settings_slurm().array_size);

         cmd << " " << settings_slurm().sbatch_options;

         cmd << " " + submitfile;

         BENCHMAX_LOG_DEBUG("benchmax.slurm", "Command: " << cmd.str());

         std::string output;

         call_program(cmd.str(), output, true);

         int jobid = slurm::parse_job_id(output);

         if (wait_for_termination) {

             BENCHMAX_LOG_INFO("benchmax.slurm", "Job terminated.");

         } else {

             store_job_id(jobid);

             BENCHMAX_LOG_INFO("benchmax.slurm", "Job " << jobid << " was scheduled.");

         }

     }


     bool collect_results(const Jobs& jobs, bool check_finished) override {

         if (check_finished) {

             BENCHMAX_LOG_INFO("benchmax.slurm", "Check if job finished.");

             auto jobids = load_job_ids();

             if (jobids.size() == 0) {

                 BENCHMAX_LOG_ERROR("benchmax.slurm", "Jobids could not be determined!");

                 return false;

             }

             for (int jobid : jobids) {

                 if (!slurm::is_job_finished(jobid)) {

                     BENCHMAX_LOG_WARN("benchmax.slurm", "Job " << jobid << " is not finished yet.");

                     return false;

                 }

             }

         }


         BENCHMAX_LOG_INFO("benchmax.slurm", "Collecting results.");

         std::map<size_t, JobData> results;

         auto files = slurm::collect_result_files(settings_slurm().tmp_dir);

         for (const auto& f: files) {

             parse_result_file(jobs, f, results);

         }

         BENCHMAX_LOG_DEBUG("benchmax.slurm", "Parsed results.");

         for (auto& [rid, r]: results) {

             addResult(std::get<0>(r), std::get<1>(r), std::move(std::get<2>(r)));

         }

         if (settings_slurm().archive_log_file != "") {

             slurm::archive_log_files({

                 settings_slurm().archive_log_file + "-" + std::to_string(settings_core().start_time) + ".tgz",

                 settings_slurm().tmp_dir

             });

         }

         slurm::remove_log_files(files, !settings_slurm().keep_logs);


         if (check_finished) {

             remove_job_ids();

         }


         return true;

     }

 public:

     bool suspendable() const {

         return true;

     }

     /// Run all tools on all benchmarks using Slurm.

     void run(const Jobs& jobs, bool wait_for_termination) {

         if (load_job_ids().size() > 0) {

             BENCHMAX_LOG_ERROR("benchmax.slurm", "Benchmax is still running in the specified tmp_dir! If this is not the case, please delete " + settings_slurm().tmp_dir + "/slurmjobs");

             return;

         }


         std::vector<JobData> results;

         for (const auto& [tool, file]: jobs.randomized()) {

             results.emplace_back(JobData { tool, file, BenchmarkResult() });

         }

         BENCHMAX_LOG_DEBUG("benchmax.slurm", "Gathered " << results.size() << " jobs");


         std::vector<std::future<void>> tasks;

         std::size_t count = results.size() / (settings_slurm().array_size * settings_slurm().slice_size);

         if (results.size() % (settings_slurm().array_size * settings_slurm().slice_size) > 0) count += 1;

         for (std::size_t i = 0; i < count; ++i) {

             tasks.emplace_back(std::async(std::launch::async,

                 [i,&results,wait_for_termination,this](){

                     return run_job_async(i, results, wait_for_termination);

                 }

             ));

         }

         for (auto& f: tasks) {

             f.wait();

         }

         if (wait_for_termination) {

             BENCHMAX_LOG_DEBUG("benchmax.slurm", "All jobs terminated.");

         } else {

             BENCHMAX_LOG_DEBUG("benchmax.slurm", "All jobs scheduled.");

         }

     }

 };


 }

SlurmSettings.h

SlurmUtilities.h

logging.h

BENCHMAX_LOG_DEBUG
#define BENCHMAX_LOG_DEBUG(channel, msg)
Log debug messages.
Definition: logging.h:55

BENCHMAX_LOG_WARN
#define BENCHMAX_LOG_WARN(channel, msg)
Log warnings.
Definition: logging.h:51

BENCHMAX_LOG_INFO
#define BENCHMAX_LOG_INFO(channel, msg)
Log informational messages.
Definition: logging.h:53

BENCHMAX_LOG_ERROR
#define BENCHMAX_LOG_ERROR(channel, msg)
Log errors.
Definition: logging.h:49

benchmax::Backend
Base class for all backends.
Definition: Backend.h:23

benchmax::Backend::addResult
void addResult(const Tool *tool, const fs::path &file, BenchmarkResult &&result)
Add a result.
Definition: Backend.h:97

benchmax::Jobs
Represents a set of jobs, constructed as the cartesian product of a set of tools and a set of benchma...
Definition: Jobs.h:70

benchmax::Jobs::tools
const auto & tools() const
Returns the set of tools.
Definition: Jobs.h:88

benchmax::Jobs::randomized
auto randomized() const
Returns all jobs in a pseudo-randomized order.
Definition: Jobs.h:109

benchmax::SlurmBackend
Backend for the Slurm workload manager.
Definition: SlurmBackend.h:29

benchmax::SlurmBackend::collect_results
bool collect_results(const Jobs &jobs, bool check_finished) override
Definition: SlurmBackend.h:177

benchmax::SlurmBackend::suspendable
bool suspendable() const
Definition: SlurmBackend.h:218

benchmax::SlurmBackend::remove_job_ids
void remove_job_ids()
Definition: SlurmBackend.h:127

benchmax::SlurmBackend::store_job_id
void store_job_id(int jobid)
Definition: SlurmBackend.h:105

benchmax::SlurmBackend::get_job_range
std::pair< std::size_t, std::size_t > get_job_range(std::size_t n, std::size_t numJobs) const
Definition: SlurmBackend.h:97

benchmax::SlurmBackend::run
void run(const Jobs &jobs, bool wait_for_termination)
Run all tools on all benchmarks using Slurm.
Definition: SlurmBackend.h:222

benchmax::SlurmBackend::load_job_ids
std::vector< int > load_job_ids()
Definition: SlurmBackend.h:113

benchmax::SlurmBackend::mSubmissionMutex
std::mutex mSubmissionMutex
Mutex for submission delay.
Definition: SlurmBackend.h:39

benchmax::SlurmBackend::run_job_async
void run_job_async(std::size_t n, const std::vector< JobData > &results, bool wait_for_termination)
Definition: SlurmBackend.h:133

benchmax::SlurmBackend::mSlurmjobMutex
std::mutex mSlurmjobMutex
Mutex for slurmjobs file.
Definition: SlurmBackend.h:41

benchmax::SlurmBackend::JobData
std::tuple< const Tool *, std::filesystem::path, BenchmarkResult > JobData
A job consists of a tool, an input file, a base dir and results.
Definition: SlurmBackend.h:36

benchmax::SlurmBackend::parse_result_file
void parse_result_file(const Jobs &jobs, const std::filesystem::path &file, std::map< size_t, JobData > &results)
Parse the content of an output file.
Definition: SlurmBackend.h:44

benchmax::Tool
Base class for any tool.
Definition: Tool.h:38

execute.h

Minisat::remove
static void remove(V &ts, const T &t)
Definition: Alg.h:36

benchmax::slurm::clear_directory
void clear_directory(const fs::path &basedir)
Clear log files from directory.
Definition: SlurmUtilities.cpp:193

benchmax::slurm::remove_log_files
void remove_log_files(const std::vector< fs::path > &files, bool remove)
Remove the given list of files.
Definition: SlurmUtilities.cpp:182

benchmax::slurm::archive_log_files
void archive_log_files(const ArchiveProperties &p)
Put all log files into an archive.
Definition: SlurmUtilities.cpp:11

benchmax::slurm::generate_submit_file_chunked
std::string generate_submit_file_chunked(const ChunkedSubmitfileProperties &p)
Definition: SlurmUtilities.cpp:101

benchmax::slurm::generate_jobs_file
void generate_jobs_file(const std::string &filename, std::pair< std::size_t, std::size_t > range, const Jobs &jobs)
Definition: SlurmUtilities.h:86

benchmax::slurm::parse_job_id
int parse_job_id(const std::string &output)
Parses the job id from the output of sbatch.
Definition: SlurmUtilities.cpp:158

benchmax::slurm::collect_result_files
std::vector< fs::path > collect_result_files(const fs::path &basedir)
Collects all result files in the given base directory for this job id.
Definition: SlurmUtilities.cpp:27

benchmax::slurm::parse_result_info
std::string parse_result_info(const std::string &content, const std::string &name)
Parse a single result information from the output.
Definition: SlurmUtilities.cpp:170

benchmax::slurm::is_job_finished
bool is_job_finished(int jobid)
Checks if the given job is finished.
Definition: SlurmUtilities.cpp:213

benchmax
Definition: Backend.h:14

benchmax::call_program
int call_program(const std::string &commandline, std::string &stdout, bool print_to_stdout=false)
Runs an external program from some command line and records the output to stdout.
Definition: execute.h:18

benchmax::settings_core
const auto & settings_core()
Retrieved core settings.
Definition: Settings.h:81

benchmax::settings_slurm
const auto & settings_slurm()
Return the Slurm settings.
Definition: SlurmSettings.h:32

benchmax::settings_benchmarks
const auto & settings_benchmarks()
Return the benchmark settings.
Definition: benchmarks.h:41

benchmax::parse_peak_memory
std::size_t parse_peak_memory(const std::string &output)
Definition: parsing.h:4

smtrat::cad::sample_compare::get
auto get(const It &it, level)
Definition: SampleComparator.h:23

Backend.h

benchmax::BenchmarkResult
Results for a single benchmark run.
Definition: BenchmarkResult.h:20