Seit Beginn der Pandemie entwickeln wir Lösungen zur Bewertung der Corona-Lage und sammeln hierzu auch viele Daten. Diese Daten wurden bisher hauptsächlich von uns verwendet. In letzter Zeit erreichen uns aber auch immer wieder Anfragen von anderen Initiativen. Gerne stellen wir unserer Daten allen Initiativen zur Verfügung.

Datensätze
Hier finden Sie alle von uns veröffentlichten Datensätze. Wir haben ausserdem noch ein paar Exporte mehr, von denen wir aber nicht einmal wissen, ob sie genutzt werden. Daher sind sie hier nicht mit aufgeführt. Wenn was fehlt: einfach fragen, vielleicht haben wir es ja auch.
NPGEO Datensatz
Der Basis-Datensatz zu Corona-Infektionen in Kommunen, Ländern und dem Bund. Abrufbar via ARCGIS und RKI github in Rohdatenform.
- Tägliche Infektionen, Geheilte und Verstorbene via BERICHTSdatum, alle Landkreise, ohne Summen für Bund und Länder: mit Metainformationen, nur CSV
- Tägliche Infektionen, Geheilte und Verstorbene via BERICHTSdatum, nur Gesamt-Deutschland: mit Metainformationen
RKI Sequenzen (DESH)
Die Primärquelle des RKI ist auf github, lizenziert unter CCC-BY 4.0 International.
- Hauptvarianten, Tagesdaten, repräsentative Stichprobe
- Hauptvarianten, errechnete Prozentsätze (auf 7-Tage Mittel), repräsentative Stichprobe
- Alle Sequenzierungsgründe und alle Varianten als Tagesdaten. Achtung: Hauptvarianten sind nicht mit Untervarianten konsolidiert (also „BA.5“ ist nur „BA.5“, nicht z.B. „BA.5.1“).
Die Downloads sind in der Regel versioniert. Anhängen von „?version=nn“ ergibt einen spezifischen Info-Stand. Beispielsweise wurde Hauptvarianten version=2 um BA4 und BA5 ergänzt.
Sequenzierungsgründe (SEQ_REASON):
- N – repräsentative Stichprobe
- X – Anlass unbekannt
- A – Verdachtsfall aufgrund von Varianten-PCR
- Y – sonstige Verdachtsfälle
Einige Datenanalysten verwenden X analog zu N und vergrößern die Stichprobe durch Betrachtung von XN. Ich persönlich bin da etwas skeptisch, da X zwar auch weitgehend zufällig aussieht, aber man dies nicht sicher sagen kann. Ich würde einen gewissen Bias erwarten. Außerdem würde ich hoffen, dass N repräsentativer auch im Hinblick auf den Variantenanteil ist.
Nutzung und Lizenz
Bitte laden Sie die Datensätze nicht übermäßig oft herunter! Wir empfehlen stündliches Polling, Abstände unter 15 Minuten sind sehr schlecht. Bei übermäßiger Nutzung behalten wir uns Gegenmaßnahmen vor. Viele Datensätze werden einmal täglich aktualisiert. Sie sollte daher nach erfolgreichem Download erst am darauf folgenden Tag wieder angefragt werden. Alternativ überlegen wir übrigens, auch Daten via github zur Verfügung zu stellen.
Unsere Datensätze sind, sofern nichts anderes angegeben ist, lizenziert unter der Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International. Beachten Sie auch die Pflicht zur Nennung der Rohdatenquelle, meist RKI.
Wir freuen uns insbesondere über eine Link zu dieser Seite hier, damit auch andere Interessierte unsere Datenquelle finden können. Auf Twitter ist auch eine Referenz zu @RainerGerhards gerne gesehen.
Gewährleistung
Alle Daten werden gewissenhaft von uns erfasst und verarbeitet. Als ehrenamtliches Projekt können wir aber nicht permanent Kontrollen vornehmen. Haben Sie daher bitte Verständnis dafür, dass wir keinerlei Gewähr für Korrektheit, Vollständigkeit und Verfügbarkeit der Daten übernehmen. Wer unsere Daten verwendet, nutze bitte ein eigenes Kontrollsystem. Bei potentiellen Problemen freuen wir uns aber natürlich über einen Hinweis!