Corona OpenData bei Rainer Gerhards

Seit Beginn der Pandemie entwickeln wir Lösungen zur Bewertung der Corona-Lage und sammeln hierzu auch viele Daten. Diese Daten wurden bisher hauptsächlich von uns verwendet. In letzter Zeit erreichen uns aber auch immer wieder Anfragen von anderen Initiativen. Gerne stellen wir unserer Daten allen Initiativen zur Verfügung.

OpenData bei rainer-gerhards.de (Grafik: Rainer Gerhards)

Datensätze

Hier finden Sie alle von uns veröffentlichten Datensätze. Wir haben ausserdem noch ein paar Exporte mehr, von denen wir aber nicht einmal wissen, ob sie genutzt werden. Daher sind sie hier nicht mit aufgeführt. Wenn was fehlt: einfach fragen, vielleicht haben wir es ja auch.

NPGEO Datensatz

Der Basis-Datensatz zu Corona-Infektionen in Kommunen, Ländern und dem Bund. Abrufbar via ARCGIS und RKI github in Rohdatenform.

  • Tägliche Infektionen, Geheilte und Verstorbene via BERICHTSdatum, alle Landkreise, ohne Summen für Bund und Länder: mit Metainformationen, nur CSV
  • Tägliche Infektionen, Geheilte und Verstorbene via BERICHTSdatum, nur Gesamt-Deutschland: mit Metainformationen

RKI Sequenzen (DESH)

Die Primärquelle des RKI ist auf github, lizenziert unter CCC-BY 4.0 International.

Die Downloads sind in der Regel versioniert. Anhängen von „?version=nn“ ergibt einen spezifischen Info-Stand. Beispielsweise wurde Hauptvarianten version=2 um BA4 und BA5 ergänzt.

Sequenzierungsgründe (SEQ_REASON):

  • N – repräsentative Stichprobe
  • X – Anlass unbekannt
  • A – Verdachtsfall aufgrund von Varianten-PCR
  • Y – sonstige Verdachtsfälle

Einige Datenanalysten verwenden X analog zu N und vergrößern die Stichprobe durch Betrachtung von XN. Ich persönlich bin da etwas skeptisch, da X zwar auch weitgehend zufällig aussieht, aber man dies nicht sicher sagen kann. Ich würde einen gewissen Bias erwarten. Außerdem würde ich hoffen, dass N repräsentativer auch im Hinblick auf den Variantenanteil ist.

Nutzung und Lizenz

Bitte laden Sie die Datensätze nicht übermäßig oft herunter! Wir empfehlen stündliches Polling, Abstände unter 15 Minuten sind sehr schlecht. Bei übermäßiger Nutzung behalten wir uns Gegenmaßnahmen vor. Viele Datensätze werden einmal täglich aktualisiert. Sie sollte daher nach erfolgreichem Download erst am darauf folgenden Tag wieder angefragt werden. Alternativ überlegen wir übrigens, auch Daten via github zur Verfügung zu stellen.

Unsere Datensätze sind, sofern nichts anderes angegeben ist, lizenziert unter der Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International. Beachten Sie auch die Pflicht zur Nennung der Rohdatenquelle, meist RKI.

Wir freuen uns insbesondere über eine Link zu dieser Seite hier, damit auch andere Interessierte unsere Datenquelle finden können. Auf Twitter ist auch eine Referenz zu @RainerGerhards gerne gesehen.

Gewährleistung

Alle Daten werden gewissenhaft von uns erfasst und verarbeitet. Als ehrenamtliches Projekt können wir aber nicht permanent Kontrollen vornehmen. Haben Sie daher bitte Verständnis dafür, dass wir keinerlei Gewähr für Korrektheit, Vollständigkeit und Verfügbarkeit der Daten übernehmen. Wer unsere Daten verwendet, nutze bitte ein eigenes Kontrollsystem. Bei potentiellen Problemen freuen wir uns aber natürlich über einen Hinweis!