16. April 2013 11:30
Die empirische Analyse statistischer Algorithmen benötigt zumeist zeitintensive Experimente, welche optimalerweise auf High-Performance-Computing-Clustern durchgeführt werden. Dazu wurden zwei R Pakete, welche die Arbeit auf in Batch Computing Umgebungen deutlich erleichtern, entwickelt.
Das Paket BatchJobs stellt die grundlegenden Objekte und Prozeduren zur Kontrolle eines Batch Clusters aus R heraus bereit. Die Arbeitsweise ist dabei an die aus funktionallen Programmiersprachen bekannten Funktionen Map, Reduce und Filter angelehnt. Der aktuelle Zustand der Berechnungen ist persistent in einer Datenbank gespeichert. Zusätzlich ist es bequem möglich mit Teilmengen von Jobs zu arbeiten.
Das zweite Paket, BatchExperiments, erweitert BatchJobs um eine Abstraktion des immer noch sehr allgemeinen Szenarios beliebige Algorithmen auf Probleminstanzen anzuwenden. Statistische Versuchspläne können mit Algorithmen- und Problem-Parametern verbunden werden um so Jobs der Art "Wende Algorithms A auf Probleminstanz P an" zu definieren. Eine systematische Untersuchung des Einflusses von Parametern ist auf diese Weise besonders einfach.
Mehr Informationen, Quelltexte, Installationsanleitungen und mehr findet sich auf der Projektseite.