Wir bieten umfangreiche grafische Auswertungen zu den vom RKI veröffentlichten Corona Sequenzdaten an. In diesem Artikel erläutern wir im Detail die verwendeten Berechnungen.

Ein Beispiel für von uns angebotene Visualisierungen der Corona-Varianten in Deutschland. (Grafik: Rainer Gerhards, Daten: RKI)

Vorbemerkungen

  • Für Varianten-Berechnungen verwenden wir ausschließlich bereits durch das RKI klassifizierte (zugeordnete) Variantendaten (Datei „Entwicklungslinien“).
  • Nicht zugeordnete Sequenzen gehen auch nicht als „Sonstige“ ein. Auswertungen zu diesen Sequenzen finden sich aber im Bereich „Aktualität“, da sie unserer Meinung nach nur eine Aussage in Bezug auf eben die Aktualität besitzen.
  • Zeitreihen werden in der Regel anhand von DATE_DRAW (Datum der Probenentnahme) gebildet. Wird bei einer Berechnung davon abgewichen, erfolgt ein expliziter Hinweis in der Beschreibung.
  • Wir betrachten nicht alle Varianten, sondern nur solche, die für uns von Interesse sind. Dabei wird nach PANGO Klassifikation vorgegangen. Hauptvarianten umfassen alle Untervarianten. Untervarianten werden zusätzlich ggf. separat ausgewiesen (sind dann aber auch in den jeweiligen Hauptvarianten enthalten).
  • Nicht von uns betrachtete Varianten werden als „Andere“ ausgewiesen.
  • Bei prozentualen Berechnungen kann durch Rundungsdifferenzen eine sehr geringe Abweichung von 100% entstehen.
  • Bei Fallzahlen-Berechnungen kann ebenfalls eine geringe Differenz entstehen. Im Regelfall runden wir ab [floor() Funktion].
  • Es wird grundsätzlich der aktuellste verfügbare Datensatz (github) des RKI verwendet. Daher ändern sich Werte und ggf. auch Klassifikationen von Tag zu Tag, und auch an „vergangenen“ Tagen. Unserer Überzeugung nach bietet nur der aktuelle Datenstand des RKI die bestmögliche Lageeinschätzung (da eben Varianten-Klassifikation auch verzögert an neue Erkenntnisse angepasst wird, das ist ein wesentlicher Unterschied zu Inzidenzen, die im wesentlichen stabil bleiben und nur um Nachmeldungen ergänzt werden).
  • Für spezielle historischen Auswertungen verfügen wir darüber hinaus über historische Teil-Daten aller Tage, an denen die Datei „Entwicklungslinien“ existierte.
  • Aus rein praktischen Erwägungen (möglichst wenige Umrechnungen bei Plot und Textgenerierung) rechnen wir mit Prozentwerten (0..100) anstelle von Faktoren (0..1).

Berechnung der Variantenanteile

  1. Wir ermitteln das höchste DATE_DRAW in den vom RKI gemeldeten Sequenzen (unabhängig von SEQ_REASON). Dieses Datum wird fortan als Endddatum für alle weiteren Berechnungen genutzt, insb. um fehlende Tage zu erkennen und dafür 0-Meldungen einzufügen.
  2. Für jedes SEQ_REASON
    1. und jede von uns betrachtete Variante
      1. errechnen wir für alle Tage t die Tagessumme s_t der entsprechend klassifizierten Sequenzen (Tage ohne Meldungen werden als 0-Meldung ergänzt),
      2. anschließend berechnen wir das gleitende arithmetische Mittel s_t7 über alle Tagessummen: für jeden Tag t wird die Summe von t sowie der 6 vorherigen Tageswerte gebildet und durch 7 dividiert,
      3. anschließend berechnen wir für jeden Tag t den täglichen prozentualen Anteil p_t7 der entsprechenden Variante. Dazu wird das sieben-Tages mittel der aller Sequenzen der jeweiligen SEQ_REASON s_g7 verwendet: p_t7 = 100(s_t7/s_g7)

Die so errechneten Daten werden KEINER weiteren Korrektur unterzogen. Es handelt sich also um rein beobachtete Werte. Es sei nochmals ausdrücklich darauf hingewiesen, dass nicht vom RKI klassifizierte Sequenzen nicht in die Berechnung der prozentualen Anteile eingehen (uns ist bekannt, dass das bei manchen anderen Analysen der Fall ist).

Hochrechnung der absoluten Fallzahlen

Berechnungsbasis sind

  • die prozentualen Anteile p_t7 der Sequenzen, hier ausschließlich die der repräsentativen Stichprobe (SEQ_REASON=’N‘)
  • die täglichen 7-Tage Fallzahlen der Neuinfektionen r_t7 laut RKI, hier ausschließlich nach Meldedatum, das dies DATE_DRAW entspricht (Anmerkung: evtl. gibt es einen leichten Versatz, das ist aus den Dokumentationen nicht eindeutig zu klären – das Meldedatum ist aber auf jeden Fall zeitlich dem DATE_DRAW am ähnlichsten).

Die Hochrechnung der absoluten Fallzahlen f_t7 ist nun simpel: f_t7 = r_t7 / 100 * p_t7.

Anmerkung: Die Hochrechnung der absoluten Varianten-Fallzahl anhand der täglichen Neuinfektionen ist lediglich nach Meldedatum sinnvoll. Die Berechnung anhand des Eingangsdatums RKI ist wenig sinnvoll, da in der Regel Sequenzen mehrerer Tage zusammentreffen und darüber hinaus die exakten Referenzdaten nicht hinreichend klar zuzuordnen sind. Auch Berechnungsversuche zeigten die Ungeeignetheit dieser Methode.

Berechnung der R-Werte der Varianten

Zunächst sei angemerkt das der hier errechnete „R-Wert“ kein R_0 oder R(t) im epidemiologischen Sinne ist. Das hat zwei Gründe.

  • die Verzögerungen und Verzerrungen der Datenerfassung in Deutschland ermöglichen das nicht, da es keine validen Daten im Zeitfenster einer Generationszeit gibt,
  • wir nehmen, im Gegensatz zum RKI, kein Nowcasting und verwenden obendrein auch nicht das Erkrankungsdatum, da dies sich nicht dem Sequenz-Datensatz zufügen lässt.

Übrigens ist auch der vom RKI genannten „R-Wert“ bereits seit langem kein echter epidemiologischer „R-Wert“ mehr. Dennoch sind die vom RKI genannten R-Werte aufgrund deutlich aufwändiger Berechnungen und besserer (unpublizierter) Datenlage exakter. Unsere Näherung ist jedoch für die Trend-Erkennung ausreichend.

Kurz gesagt: der „R-Wert“ ist kein richtiger „R-Wert“, sondern in Wirklichkeit ein Wachstumsfaktor, der das Wachstum von Neuinfektionen in einem bestimmten Zeitraum vergleicht. Wir verwenden hier die „üblichen“ Zeiträume, die auch das RKI traditionell verwendet.

Besonderheiten bei der Varianten R Berechnung

Wir verwenden ausschließlich Sequenzen der repräsentativen Stichprobe (SEQ_REASON=’N‘) als Datengrundlage. Andere Anlässe würden eine Bias einstreuen und unserer Meinung nach das Ergebnis statistisch inkorrekt machen.

Bis zum 20. März 2022 haben wir die R-Werte direkt auf der absoluten Zahl der Sequenzen der jeweiligen Variante errechnet (s_t7). Dabei haben wir aber außer acht gelassen, dass die Größe der Stichprobe variieren kann. Nimmt absolute Größe der Stichprobe zu so steigt der R-Wert künstlich, nimmt sie ab, so sinkt er. Bei Veränderung der Stichprobengröße kommt es also zu systematische Verzerrungen des R-Werte. Aufgefallen ist das im März 2022, in einer Zeit wo die Stichprobengröße offensichtlich deutlich fluktuierte. Dank hier auch ganz besonders an Twitter User @TaP_Theorie für beharrliches Nachfragen, das erheblich zur raschen Erkennung das Problems beigetragen hat.

Das Problem lässt sich recht einfach lösen, indem man nicht die absolute Zahl der Sequenzen betrachtet, sondern den Sequenzanteil p_t7. Daraus kann man dann anhand der oben beschriebenen Methode die von der entsprechenden Variante verursachten Neuinfektionen f_t7 hochrechnen und damit Wert dann das Wachstum abschätzen.

Methode

Die hochgerechneten Fallzahlen der Neuinfektionen werden in einem 4-Tage Fenster verglichen und aus dem Wachstumsfaktor das geometrische Mittel gebildet, das wir dann als R-Wert verwenden. Im Detail:

  1. Für jede Variante und jeden Tag berechnen wir r_t
    1. w = f_t7(t) / f_t7(t-4) * f_t7(t-1) / f_t7(t-5) * f_t7(t-2) / f_t7(t-6) * f_t7(t-3) / f_t7(t-7)
      (salopp gesagt: wir Teilen jeden Tageswert durch den Wert von vor 4 Tagen und multiplizieren diese Ergebnisse)
    2. r_t := w^(0.25) (wir bilden das geometrische Mittel von w
  2. ist der Prozentanteil der jeweiligen Varianten am jeweiligen Tag kleiner 0,1, dann setzen wir R=1. Damit reduzieren wir starke Ausschläge nur anhand von einer zu geringen Stichprobe. (Hinweis: nachgelagerte Langzeit-Grafiken interpretieren R=1 als „nicht mehr relevant“)
  3. Zusätzlich wird auch der Tageszuwachs errechnet: f_t7(t) / f_t7(t-4)

Andere Berechnungen, Anmerkungen

Diese Seite hier wird noch ausgebaut, insb. bei Bedarf. Bei Fragen, Unklarheiten und sonstigen Anmerkungen sprechen Sie uns einfach an. Wir freuen uns auch über Hinweise auf mögliche Probleme mit der dargestellten Berechnung.

Weitere Informationen rund um Covid-19 (Corona, SARS-CoV-2), auch im Main-Tauber Kreis, gibt es auf der Übersichtsseite zu Coronavirus in Großrinderfeld und Main-Tauber Kreis.
Bitte folgen Sie mir auf Facebook oder Twitter, um aktuelle Updates zu erhalten. Oder abonnieren Sie die Neuigkeiten mittels Telegram-Messenger.
Informationen zu Omikron in Deutschland finden Sie hier.