COVID-19 en Puerto Rico, análisis 2020-10-16

Advertencia: Favor notar que esta página usa las fechas que aparecen a la cabeza de los boletines del Departamento de Salud, pero estos suelen publicarse la mañana del próximo día, y muchas bases de datos y fuentes periodísticas reportan los mismos datos a base de la fecha de publicación.

Tendencia de casos nuevos por fecha de evento (promedios 7 días)

¿Qué es esto?

La tendencia de los casos nuevos por prueba viral diagnóstica y las muertes, vista por medio de:

Las líneas sólidas representan los promedios de los 7 días que desembocan en esa fecha. Las entrecortadas representan los valores que se obtienen solo con datos de 7 días antes de la fecha de este informe.

Advertencia

Caídas súbitas al final de cada línea lo más probable no son reales, si no que más bien son artefactos de los rezagos—i.e., no han se han incorporado datos para esas fechas. Las líneas entrecortadas, que muestran cómo se veía la curva solo con datos recibidos hace una semana, de hecho tienden a ilustrar esto.

Oficial vs. Bioportal

Se trazan dos curvas de casos, una (en azul) usando los casos confirmados y probables tal se reportan en el boletín diario oficial del Departmento de Salud de Puerto Rico, y la otra (en gris) a partir de datos descargados de Bioportal, el sistema de reporte de datos de pruebas del Departmento de Salud de Puerto Rico.

Hay que entender que:

Por eso recomiendo usar la curva oficial como la más autoritativa, y la de Biorpotal como un indicador temprano de la dirección de la oficial en los próximos días.

Casos descartados

Esta curva muestra el volumen de casos que:

Como prueba de seguimiento cuento toda esta que se realice a la misma persona dentro de un periodo de 90 días luego que esta tuviera una prueba molecular positiva. La idea de descartar estas de esta curva es que las pruebas de seguimiento no ayudan a descartar potenciales casos nuevos.

Vale también apuntar que al momento no cuento negativos en prueba de antígenos como caso descartado, debido a la sensibilidad mucho menor de estas y la consecuente práctica común de confirmar negativos por antígeno con molecular.

Tendencia de hospitalizaciones

¿Qué es esto?

Promedio de 7 días de cuántos pacientes han estado hospitalizados por COVID-19. Datos del API del COVID Tracking Project, que a su vez son capturas diarias de páginas del Departamento de Salud de Puerto Rico.

Cambio entre boletín actual y anterior

¿Qué es esto?

Una gráfica que muestra, para los dos boletines más recientes, los resultados de tomar los números de sus gráficas como esta:

Fuente: Departamento de Salud de Puerto Rico

...y restarle sus contrapartes del boletín anterior:

Fuente: Departamento de Salud de Puerto Rico

Esto nos da un desglose aproximado, para el nuevo boletín, de a qué fecha se le atribuyeron los casos nuevos que reporta este.

Hay que notar que frecuentemente se ven fechas que salen números negativos. La información que brinda el Departamento de Salud de Puerto Rico no deja claro qué motiva esto en cada caso; algunas posibilidades podrían ser:

La existencia de números negativos también complica la interpretación de este modo: las fechas que dan positivos no sabemos si hubo resta de casos. Una fecha que diga que un boletín la subió por siete casos bien pudiera ser que se registraron 8 casos nuevos y se restó uno.

Cambios entre boletines recientes

¿Qué es esto?

El mismo análisis que la gráfica anterior, pero para los 14 boletines más recientes, cosa que require hacer los númeritos bien chiquititos.

Rezago de datos de cada boletín

¿Qué es esto?

Un estimado, para los boletines más recientes, de cuánto tiempo atrás en promedio se tomaron las muestras que añade y las muertes que reporta.

Este estimado se elabora a partir de los datos arriba de los cambios entre boletines consecutivos. Por el asunto de los números negativos en esos datos, no se puede esperar que estos rezagos estimados sean los valores exactos que calcularíamos si tuvieramos mejor datos.

Revisiones

Tendencia de rezago de datos

¿Qué es esto?

Un estimado de rezagos similar al anterior, pero en vez de evaluar los casos de cada boletín aparte, se agrupan en ventanas rodantes de siete días. O sea, la cifra que se reporta para cada fecha de boletín abarca no solo los casos nuevos reportados en ese boletín, sino también los seis días anteriores.

El ancho de ventana se fijó en siete días para eliminar los ciclos semanales que son evidentes en los datos de fuente, como se aprecia fácil en esta gráfica del boletín:

Fuente: Departamento de Salud de Puerto Rico

Las fechas como el 18, 19, 25 y 26 de abril, que reportan bien pocos casos, es que son fines de semana.

Vale añadir que de los ocho puntos que muestran estas líneas, solo el primero y el último son estadísticamente independientes. Por ejemplo la cifra más reciente y la anterior son calculadas a partir de ventanas de siete días que coinciden en seis de estos.

Revisiones

Rezago de casos por renglones

¿Qué es esto?

Una gráfica de dos paneles que muestra promedios de siete días de casos confirmados nuevos, por fecha de boletín (¡no de muestra!), divididos en renglones de rezago (tiempo entre toma de muestra e incorporación en el conteo). El panel superior muestra los volúmenes absolutos; el panel inferior es los mismos datos, pero en porcentajes.

La forma de la curva superior se parece una gráfica de casos nuevos por fecha que se incorporan al conteo, pero alerta, no cuenta muchas restas de casos al conteo (porque las restas dañan los estimados de rezagos, hacen que den negativo). Por esto la curva es en realidad más alta que los números verdaderos de casos confirmados.

Pruebas per cápita (promedio 7 días)

¿Qué es esto?

Cuántas pruebas diarias (promedio de 7 días) se realizaron por millar de población, tanto por fecha de toma de muestra como fecha de "reporte" (reportedDate, que se entiende la fecha en que el laboratorio obtuvo el resultado). Las líneas sólidas son con datos hasta la fecha de este boletín; las líneas entrecortadas son con datos solo hasta siete días antes de dicha fecha. Se presenta una gráfica de Our World in Data para comparación.

Advertencia

Las curvas no son finales porque pueden aún recibirse más datos para las fechas que representan. Y especialmente, caídas súbitas al final de la curva muy probable no son reales. La línea entrecortada, que excluye los datos recibidos los 7 días más recientes, tiende a ilustrar este efecto.

Comparación internacional

Esta gráfica de Our World in Data puede ayudar a poner estas cifras en contexto internacional:

Revisiones

Positividad sencilla (promedio 7 días)

¿Qué es esto?

Tasas de positividad por fecha de toma de muestra, según datos del API de Bioportal del Departamento de Salud de Puerto Rico y del boletín diario de casos. Las líneas sólidas son con datos recibidos hasta la fecha de boletín de este dashboard. Las líneas entrecortadas excluyen los datos recibidos durante las 7 fechas de boletín más recientes, a fin de ilustrar cómo los datos recibidos recientes revisan fechas más viejas.

Se calcula aquí la tasa de positividad de dos maneras distintas:

  1. Número de pruebas positivas dividido entre número total de pruebas;
  2. Número de casos confirmados únicos (tomado de los informes regulares de Salud) dividido entre número total de pruebas PCR.

La segunda de estas muchos entienden (con poca razón a mi entender) que es una división un poco de "chinas con botellas" (i.e., cantidades que en realidad no deberían compararse), pero he optado por incluirla porque muchas colecciones de datos en EEUU (e.g., Johns Hopkins) e internacionales (e.g., Our World In Data) calculan así o parecido para muchos locales. Lo cual quiere decir que a la hora de comparar el dato de Puerto Rico con el de otro país hay que tener cuidado cuál definición se habla. Más generalmente, no existe ningún consenso sobre cómo calcular positividad, así que mucho cuidado con comparar las cifras que ofrecen fuentes distintas.

Pruebas de antígenos

Se calcula aquí también una tasa de positividad de pruebas de antígenos, aparte de las de moleculares. Hay que entender que la positividad de antígenos no puede compararse ingenuamente con la de moleculares. Las pruebas moleculares son más sensibles y tienen una ventana de detección más amplia, por lo tanto la expectativa de antemano es que:

positividad moleculares > positividad antígenos

Y encima de esto las moleculares vs. las de antígenos se administran a grupos de la población sesgados de manera distinta, que dificulta aún más la comparación.

Datos incompletos

Otra advertencia es que el cálculo dado aquí para Puerto Rico hace uso de datos por fecha de toma de muestra, y no de registro de resultados como hacen muchas colecciones de datos o informes. Esto da números que reflejan la realidad más cercanamente, pero acarrea dos desventajas:

  1. Las cifras dadas para cualquier fecha no son finales, porque mañana pueden recibirse nuevos resultados de muestras tomadas en esas mismas fechas, y que llevarán a que se revisen los valores aquí calculados;
  2. Un caso especial muy importante de esto es que caídas o subidas repentinas al final de la curva no son fiables, porque para las fechas más recientes se espera que se los datos estén menos completos.

Las líneas entrecortadas, cuyo cálculo excluye los datos recibidos en los 7 días más recientes, tienden a ilustrar estos efectos.

Comparación internacional

Esta gráfica de Our World in Data puede ayudar a poner estas cifras en contexto internacional:

Revisiones

Casos confirmados vs. descartados (EXPERIMENTAL)

¿Qué es esto?

Lo que el autor de esta página entiende es una mejor manera de medir la tan mentada "positividad de pruebas" a partir de los datos disponibles del Departamento de Salud de Puerto Rico. El concepto consiste en distinguir entre pruebas de:

La idea es monitorear la razón de casos descartados a casos confirmados pero solo contando pruebas de evaluación inicial, porque las de seguimiento no aportan al propósito que se cita comunmente para las tasas de positividad: evaluar si el volumen de pruebas se queda corto para detectar contagios nuevos. Como las pruebas de seguimiento no contribuyen a confirmar o descartar nuevos casos, incluirlas en el cálculo de tasas de positividad es (entiendo yo) un defecto común en los métodos más usuales para calcular positividad.

Este autor favorecería expresar este concepto como la razón de casos descartados a confirmados, e.g., 95 casos descartados por cada 5 confirmados, pero como el "porcentaje de positividad" anda tan difundido, me he conformado por así expresarlo, mediante la fórmula:

positividad = confirmados / (confirmados + descartados)

...que en el ejemplo dado sería 5 / (5 + 95) = 5%. La unidad del numerador y el denominador se entiende que es episodios evaluados para confirmar o descartar si hay infección de COVID-19.

El valor para cada fecha en el eje horizontal es un promedio a partir de las muestras tomadas en los 7 días que desembocan en esa fecha.

Criterio para prueba inicial vs. seguimiento

Catalogamos una prueba (negativa o positiva) como seguimiento si el mismo paciente (según el campo patientId en Bioportal) ha tenido una prueba positiva en los 90 días anteriores. Este criterio lo adoptamos a partir de la definición interina de casos de COVID-19 del 5 de agosto del 2020 del Consejo de Epidemiólogos Estatales y Territoriales, que recomienda:

Una prueba positiva repetida para ARN de SARS-CoV-2 usando una prueba de detección de amplificación molecular dentro de tres meses del reporte inicial no debe ser enumerada como caso nuevo para propósitos de vigilancia.

ADVERTENCIA: Este estimado usa el campo patientId de Bioportal para adjudicar si un par de pruebas se le hicieron al mismo paciente, y hay motivo para creer que este campo frecuentemente falla en lograr ese cometido y muestre IDs distintos en muchos casos que en verdad es la misma persona. El efecto de esto sería subestimar qué cantidad de pruebas son de seguimiento.

Bioportal vs. oficial

Para el numerador de casos confirmados existen en los datos de Salud dos cifras discrepantes que se pueden usar, y hemos optado por visualizar ambas:

La segunda de estas es la cifra oficial, pero también la más baja. No tengo información firme que explique esta discrepancia pero mi conjetura provisional es que la cifra oficial disfruta de análisis más cuidadoso para identificar pacientes duplicados que lo que se expone en el campo de patientId en Bioportal.

¿De qué sirve esto?

Vale muy bien preguntar de qué sirve tener esta metodología idiosincrática y provincial de positividad si nadie más la usa y por tanto los número que da no se pueden comparar con los que calculan otros.

A esto contesto primero que todos los métodos de medir positividad parecen sufrir del problema que no existe una vara de referencia contra la cual comparar sus cifras. Por más que se repite a voces que la positividad no debería pasar de 3%, o 5%, o 8%, no he encontrado aún un marco teórico que justifique cómo fijar tales umbrales. Y contesto segundo que la inclusión de las pruebas de seguimiento en los cálculos podría en ciertas situaciones confundir la tendencia de las curvas, e.g., pintar una caída en casos ÷ pruebas que se debiera más bien a un aumento en el volumen de pruebas de seguimiento, y por tanto que se modera o desaparece tras aplicarse una corrección como la que se hace aquí.

Es pertinente entonces notar que el método de esta gráfica arroja tasas que caen entre medio de los más comunes de positivas ÷ pruebas (que tiende a dar más altas) y casos ÷ pruebas (que tiende a más bajas).

Pruebas vs. casos (acumulado)

¿Qué es esto?

Otra forma de visualizar la positividad: trazando el número de pruebas moleculares acumuladas en el eje vertical y los casos confirmados acumulados en el horizontal. Las líneas entrecortadas brindan una referencia de cómo se traduce a positividad acumulada (que vale advertir, no es lo mismo que positividad promedio de 7 días).

Curvas que se mueven hacia arriba son buenas; curvas que se mueven a la derecha son malas. Giros súbitos justo al final de la curva no son fiables porque probablemente representan fechas para las cuales solo hay datos parciales.

Ventaja de esta gráfica: te muestra las pruebas y casos per cápita acumulados actuales de manera bien compacta, y la evolución de la positividad acumulada. Desventaja: no tiene eje de tiempo como tal, aunque como son cifras acumuladas puntos más arriba o a la derecha son generalmente más tardíos.

Comparaciones internacionales

Estas gráficas de Our World in Data puede ayudar a poner estas cifras en contexto internacional:

Pruebas añadidas a Bioportal

¿Qué es esto?

Cuántos resultados nuevos de pruebas moleculares se añadieron en el API de Bioportal (el sistema en línea de recibo de resultados de pruebas del Departamento de Salud de Puerto Rico), por combinación de fecha de toma de muestra y fecha que Bioportal reporta recepción del resultado de la prueba.

El API de Bioportal de Salud que usa esta página presenta tres campos de fecha/tiempo para cada récord de prueba individual:

collectedDate
Fecha de colección de muestra de prueba.
reportedDate
Se entiende a partir de conversaciones con fuentes que es la fecha en que el laboratorio advino en conocimiento del resultado de la prueba.
resultCreatedAt
Tiempo que el sistema computarizado graba como la fecha y hora que se recibió el resultado de la prueba.

Aún con todo esto, muchos récords de pruebas moleculares sin embargo muestran un collectedDate más tardío que su reportedDate, y en este caso se ha optado en imputarles que se recogieron 3 días antes que el reportedDate, a partir de un análisis de la tardanza promedio en toda la base de datos.

Revisiones

Historial de pruebas en Bioportal

¿Qué es esto?

El mismo análisis que la gráfica anterior, pero en forma de historial para muchas fechas recientes. Se puede apuntar a cada celda de la gráfica para que aparezca un indicador con los valores de esta en tamaño legible.

Revisiones

Rezagos de resultados de pruebas moleculares

¿Qué es esto?

Promedios de siete días de rezagos estimados entre toma de muestra y aparición de récord del resultado en Bioportal, agrupando los resultados por la fecha en que se recibieron. El panel superior muestra los volúmenes absolutos; el panel inferior es los mismos datos, pero en porcentajes.

Revisiones

Indicadores propuestos del Fideicomiso de Salud Pública

Fuente: Fideicomiso de Salud Pública de Puerto Rico

¿Qué es esto?

Mi mejor interpretación de cómo se está respecto a la tabla de indicadores de nivel de alerta que el Fideicomiso de Salud Pública de Puerto Rico propuso cerca del 13 de septiembre del 2020.

La propuesta (de la que solo he visto una diapositiva de una presentación) no define con toda claridad los indicadores, ni indica cómo manejar el difícil tema del rezago de datos. Así que me he visto obligado a imponer ciertos supuestos y cálculos alternos:

Excluyo los 7 días (de muestras) más recientes
Uso datos por fecha de toma de muestra, pero excluyo de la gráfica las 7 fechas más recientes para reducir el efecto de datos incompletos. Este procedimiento es semejante, por ejemplo, al que usa el "Plan para una economía más segura" del estado de California para monitorear los datos de los condados y ordenar cierres cuando exceden ciertos umbrales, con una diferencia: California etiqueta con la fecha 7 días después de los datos (e.g., el cálculo con datos de 11/sep a 17/sep lo etiquetarían 24/sep), y yo etiqueto con las fechas de los datos mismos. Aún así es de preocuparse que con el retraso de datos que impera en Puerto Rico se amerite excluir más de 7 días.
Tasa de casos positivos en 14 días (× 100,000 personas)
No dice si son solo casos confirmados o suma de confirmados y probables. He optado por solo casos confirmados. Usan el término "casos activos" también aquí sin explicar; interpreto que quieren decir que usan una suma rodante de 14 días consecutivos como estimado crudo de los casos activos.
% de Positividad
La tabla no indica qué numerador y denominador se usa ni la ventana de fechas. Por eso he optado por dar dos cálculos distintos de positividad: (1) casos confirmados sobre total de pruebas PCR; y (2) pruebas PCR positivas sobre total de pruebas PCR. Como para la tasa de casos positivos proponen ventanas de 14 días, hago lo mismo en el cálculo de la positividad.

Advertencia

El Fideicomiso de Salud Pública a esta fecha (12 de octubre del 2020) no ha sabido explicar bien sus indicadores propuestos. Pero no obstante esto, personajes de este y de otras organizaciones se pronuncian con cierta frecuencia sobre por dónde anda el nivel corriente, y sus aseveraciones rutinariamente no cuadran con la tabla de niveles que ha compartido el Fideicomiso y reproduzco arriba. Mi gráfica la proveo no como endoso de los indicadores propuestos, más bien como herramienta para fiscalizar lo que entiendo ha sido un abuso de este concepto.

Tendencias por día de semana

¿Qué es esto?

Casos de los 21 boletines anteriores al actual, reportados con no más de 14 días de rezago respecto a cada boletín, agrupados por la combinación de:

La intensidad del color de cada cuadro refleja cuántos casos se registraron para esa combinación. Los histogramas marginales muestran los datos agrupados por un sólo eje.

ADVERTENCIAS:

Casos por edad (per cápita, 7 días)

¿Qué es esto?

Casos confirmados y probables reportados nuevos (por fecha de boletín), agrupados por edad, promedio de 7 días, ajustado al estimado poblacional en cada grupo de edades. Se usan datos del programa de estimados poblacionales del 2019 del Censo de los Estados Unidos para ajustar las cifras a la población de cada edad.

Mapas municipales de casos recientes

¿Qué es esto?

Casos confirmados y probables nuevos reportados por municipio, visto de cuatro formas:

  1. Número de casos nuevos registrados en el boletín más reciente;
  2. Número de casos nuevos registrados en los siete boletines más recientes;
  3. Crecida del número de casos nuevos registrados en el boletín más reciente, respecto a los casos registrados en los siete anteriores a este;
  4. Crecida del número de casos nuevos registrados en los siete boletines más recientes, respecto a los casos registrados en los siete anteriores a estos.

La primera ayuda identificar dónde son los casos reportados en el nuevo boletín; las demás a identificar municipios que pudieran haber experimentado brotes recientemente.

Los tonos rojáceos indican valores positivos, y los grisáceos o negros valores negativos, porque sí, a veces boletines posteriores le restan casos confirmados a municipios. Cuando el denominador de las divisiones sería cero (porque no hay casos recientes en el municipio) se sustituye por uno.

Nótese que esto es por fecha de boletín, no de muestra, y que por lo tanto esta gráfica nos dice cuándo se detectaron los casos, no cuándo sucedieron.

Historial de casos por municipio (fecha de boletín)

Historial de números de casos confirmados y probables nuevos para cada municipio en cada una de las 35 fechas más recientes, interpretándose estas como fecha de boletín. Nótese que esto último quiere decir que esta gráfica no nos dice cuándo sucedieron los casos, sino cuándo se añadieron al conteo.

Esto es una gráfica de horizonte, que hay que leer un poco al respecto para intepretar. Aquí se ha optado por:

Descuadre de encabezado de boletín

¿Qué es esto?

Cotejos de cifras reportadas en la primera página de cada boletín. Se compara:

Descuadres constatados en los datos de fuente

2020-12-16
Los casos sospechosos en la portada y las notas al calce no cuadren con el boletín anterior. El total reportado hoy es 47,546, pero la suma solo alcanza a 47,545. Una nota al calce le resta un caso "reclasificado" a los confirmados sin más explicación; conjeturo que este caso pasó a sospechoso y no lo desglosaron entre estos.
2020-12-11
La tabla de los casos probables por fecha de muestra la corrigieron después de cuatro días que estuvo mal, pero hoy la portada y las notas al calce descuadran por dos (2) casos probables.
2020-12-09
Otro boletín desastroso. La portada y las gráficas dicen 57,096 casos confirmados y 44,667 sospechosos, pero los números de casos adicionales en la portada y las notas al calce, aplicados a los totales acumulados hasta el boletín anterior, dan 57,102 y 44,670 respectivamente. Además de eso se da el tercer día consecutivo que la tabla de casos probables está mal (ver el análisis de cuadre de gráficas abajo).
2020-11-29
Este boletín es un desastre. Dice en la portada que se sumaron 732 casos confirmados adicionales recientes, se sumaron otros 5 más viejos y se restaron 23 duplicados. Esto aplicado al total anterior de 50,197 casos confirmados daría 50,911, pero el bendito boletín dice 50,988, igual que la gráfica. Y los casos sospechosos tienen un descuadre de 3.
2020-11-25 (confirmados)
El boletín dice en la portada que se sumaron 392 casos confirmados adicionales, y la nota al calce #2 que se sumaron 118 casos confirmados por muestras anteriores al 10 de noviembre. Aplicando esto a los 47,345 acumulados hasta el boletín anterior (24/nov) daría 47,345 + 392 + 118 = 47,855, pero el boletín nuevo (25/nov) dice en su portada que son 47,854 casos confirmados. La gráfica de casos confirmados por fecha de muestra también dice 47,854.
2020-11-25 (sospechosos)
El boletín dice en la portada que se sumaron 211 casos sospechosos adicionales, y la nota al calce #2 que se restaron 65 casos confirmados por muestras anteriores al 10 de noviembre, se restó 1 por muestra de antígeno anterior al 10 de noviembre, y se sumó uno por muestra del 8/nov. Aplicando esto a los 39,266 acumulados hasta el boletín anterior (24/nov) daría 39,266 + 211 - 61 - 1 + 1 = 39,416, pero el boletín nuevo (25/nov) dice en su portada que son 39,409 casos confirmados. La gráfica de casos confirmados por fecha de muestra también dice 39,409.
2020-11-21 (confirmados)
El boletín dice en la portada que se sumaron 957 casos confirmados adicionales, y la nota al calce #2 que se sumaron 11 casos confirmados por muestras anteriores al 6 de noviembre. Aplicando esto a los 45,268 acumulados hasta el boletín anterior (20/nov) daría 45,268 + 957 + 11 = 46,236, pero el boletín nuevo (21/nov) dice en su portada que son 46,235 casos confirmados. La gráfica de casos confirmados por fecha de muestra también dice 46,235.
2020-11-18 (probables)
El boletín dice en la portada que se sumaron 153 casos probables adicionales por antígeno, y la nota al calce #4 que se restaron 5 que pasaron a confirmados por prueba molecular posterior. Aplicando esto a los 879 acumulados hasta el boletín anterior (17/nov) daría 879 + 153 - 5 = 1,027, pero el boletín nuevo (18/nov) dice en su portada que son 1,028 casos probables. La gráfica de casos probables por fecha de muestra también dice 1,028.
2020-11-13 (confirmados)
La nota al calce #1 dice que los casos confirmados adicionales para esta fecha comienzan por muestras del 29 de octubre del 2020, y la gráfica en la nota dice que se suma un caso por muestra de esa fecha. Pero la nota al calce #2 dice también que se ajusta el total acumulado sumando un caso al 29 de octubre. Esto parece ser un error y se refleja como descuadre de un caso en los totales.
2020-04-23
La cifra de 849 casos únicos acumulados por prueba molecular hasta el 22 de abril se obtuvo de esta gráfica publicada por el Instituto de Estadísticas de Puerto Rico. De este boletín del 23 de abril se obtuvieron las cifras de 3 casos únicos nuevos y 871 casos únicos acumulados por pruebas moleculares. En conjunto dan un descuadre de 19 casos confirmados. Nótese sin embargo que estos datos antedatan el boletín regular más temprano disponible en las páginas del Departamento de Salud, fechado 25 de abril y con datos hasta el 24.

Cualquier otra fecha que no dé cero en esta gráfica hay que cotejar que se hayan copiado correctamente los datos.

Descuadre de boletín y gráficas

¿Qué es esto?

Comparación entre los totales de casos acumulados reportados en la primera página de cada boletín y las sumas de los datos por fecha de muestra en las gráficas de este mismo boletín. Esto es un cotejo de calidad de datos.

Descuadres constatados en los datos de fuente

2020-12-09
La tabla de casos probables publicada hoy tiene el mismo tipo de error que las del 7 y 8 de diciembre, así que se aplica la misma corrección para hacerla cuadrar: quitar el caso que la tabla de datos recoge para el 24/jul pero que en la gráfica no aparece.
2020-12-08
La tabla de casos probables publicada hoy tiene el mismo tipo de error que la del 7 y, semejantemente, la suma de los casos diarios después de corregir las fechas da 2,289 que no cuadra la de casos acumulados que reportan la misma tabla, la portada del informe y la gráfica: 2,288. Luego (11/dic) aplicamos la corrección que logra el cuadre: la tabla de datos tiene un caso para el 24/jul que la gráfica eliminó.
2020-12-07
La tabla de casos probables publicada hoy está mal. La columna de acumulada dice 2,074 para el 5 de diciembre, pero los valores de la columna de frecuencia suman a 2,075. Además, comparando los valores de cada fecha con los del boletín anterior, se aprecia que hay una especie de error "off by one" entre las fechas y los valores, en que a todas las hileras del 28/may al 25/nov tienen el valor que en verdad debería corresponderle a la fecha de la hilera próxima, y la del 26/oct (última en la primera columna de la tabla) tiene el valor que debería tener la del 28 de mayo. Esta corrección se le aplicó a los datos que copiamos, pero aún así quedó el descuadre de un caso, que el 11 de diciembre logré diagnosticar: la gráfica borra un caso que las anteriores reportaban para el 2020-07-24, pero la tabla de datos aún recoge. Borrar este arregla el descuadre.
2020-11-29
La gráfica dice 50,988 casos confirmados, pero por más que intente no logro copiar números que cuadren, porque (a) la Parte I no tienen números, (b) las notas al calce que desglosan cambios no dicen bien las fechas que se restaron duplicados, (c) los totales de estas notas al calce no cuadran con los 50,988 casos de todos modos, y (d) la gráfica Parte II de casos confirmados es una imagen ráster y sus números muchos no son legibles. Así que lo llamo una victoria que mis datos copiados a manos sumen a 50,989, solo uno más que este desastre de informe.
2020-07-02, 2020-07-04, 2020-07-06 y 2020-07-12
En estas gráficas de muertes se omitió la barra una muerte del 17 de marzo, registrada en muchísimas otras gráficas anteriores. Sin embargo las mismas gráficas las cuentan hacia el total de muertes acumuladas; es decir, las gráficas mismas exhibe el descuadre.
2020-09-28
En estas gráficas de muertes se omitió la barra una muerte del 28 de septiembre, que sí se detalla en la nota al calce 5 al principio del informe. Sin embargo la misma gráfica la cuentan hacia el total de 654 muertes acumuladas; es decir, la gráfica misma exhibe el descuadre.

Cualquier otra fecha que no dé cero en esta gráfica hay que cotejar que se hayan copiado correctamente los datos.

Revisiones

3 de diciembre del 2020

Para el boletín con datos hasta el 30 de noviembre el Departamento de Salud de Puerto Rico rehizo sus gráficas de casos por fecha de muestra, tal que comenzaron a omitir las etiquetas con el valor numérico de cada barra. Tras quejas de periodistas, para el boletín del 2 de diciembre añadieron tablas aparte con estos datos. Las notas al calce detallando los casos adicionales y la tabla del boletín del 2 de diciembre bastaron para reconstruir los casos confirmados por fecha de muestra y las muertes por fecha de deceso, pero no para reconstruir los casos probables por fecha de muestra.

Por este motivo, me fue necesario estimar los números de casos probables por fecha de muestra para el 2020-11-30 y 2020-12-01 usando un programa de escáner de gráficos (WebPlotDigitizer) cotejando los resultados de este manualmente contra las sumas que sí se podían calcular a partir de los boletines, calculando el error promedio por barra del escáner y aplicando una corrección correspondiente.

Con todo el cuidado que tomé, entiendo que no se puede reconstruir con mayor precisión los valores de casos probables por fecha de muestra para los boletines del 2020-11-30 y 2020-12-01, pero algún pequeño error puede haberse colado.

Revisión 14 de noviembre del 2020

Desde esta fecha se adoptó el API /api/administration/reports/orders/basic de Bioportal, que provee un campo resultCreatedAt que dice precisamente cuándo se recibió en Bioportal el resultado de cada prueba. Anterior a esto, como detallan las notas sobre revisiones anteriores, no existía campo que dijera esta información de manera fiable y nos veíamos forzados a estimar esta fecha a partir de la fecha y hora de las descargas diarias que realizo yo.

Este cambio lo aplico retroactivamente a todas las páginas, por lo cual todas las cifras que dependan de Bioportal se ven ligeramente cambiadas, pero los valores nuevos deben ser más precisos y más reproducibles por otras partes que descarguen de Bioportal indepedientemente.

Revisión 30 de agosto del 2020

Desde esta fecha esta página adoptó un nuevo, mejorado método de reproducibilidad de datos y adjudicación de fecha de datos a Bioportal. El método consiste de:

  1. Registrar la fecha y hora (en UTC) de cada descarga que hacemos del API de Bioportal, en un campo downloadedAt que le añadimos a cada récord;
  2. Hacer "check-in" de cada tal archivo (en formato CSV) al repositorio de Github;
  3. Generar un campo de bulletin_date sintético a partir de (a) convertir el valor de downloadedAt a horario de Puerto Rico, (b) truncarle los campos de hora para quedarnos solo con la fecha, y (c) restarle un día;
  4. Usar este campo bulletin_date para calcular los cambios de dato de día a día.

La desventaja de este método es que cuáles récords terminan adjudicándose a cúal bulletin_date resulta ser un artefactor de cuándo el autor de esta página realiza su descarga matutina de Bioportal.

La ventaja del método es que las alternativas son mucho más peores. Ninguno de los campos disponibles en las descargas en realidad permite ordenar los récords de manera fiable respecto a cuándo se marcó el resultado. Tras conversaciones con fuentes de entero crédito:

Revisión 8 de agosto del 2020

Antes de esta fecha se usaba el campo createdAt como la fecha de reporte de los resultados de pruebas descargados del API de Bioportal, porque el autor de este análisis inicialmente juzgó poco fiable el campo reportedDate dado a que para muchísimas pruebas exhibe valores más tempranos tanto que collectedDate que como createdAt. En "arroz y habichuelas":

Análisis más a fondo ha llevado al autor a revisar este supuesto y asignarle más fiabilidad al campo reportedDate que al createdAt, aunque aún queda claro por qué este segundo sería tan poco fiable. Por eso se ha cambiado a usar reportedDate como el campo de fecha de datos.

Este dashboard recalcula todos los datos retroactivamente para cada fecha de boletín, así que este cambio quiere decir que los cambios diarios entre fechas anteriores a esta revisión se han recalculado para reflejar esto, y así mismo los rezagos de pruebas, que bajo la nueva definición que aquí se adopta dan cifras mucho menores que bajo la definición anterior.

Del análisis de los datos se espera que este cambio mejore bastante el que reportes en fechas más tardías logren reproducir los valores calculados con datos de pruebas dispoibles solo hasta fechas pasadas, pero el autor ha logrado constatarse que esta reproducibilidad no se puede lograr 100% usando los datos de una sola descarga del API de Salud, porque no se provee ni un identificador único para cada prueba que permita detectar revisiones a su récord (que sí parecen haber), ni un campo de tiempo que aumente monotónicamente que permita segregar los récords respecto al tiempo de descarga de manera reproducible. Caveat emptor.

Cabe mencionar que en el repositorio de GitHub de este reporte hay un historial completo de todas las descargas que se han usado en esta página (convertidos de JSON a CSV), que como último recurso se pueden usar para lograr tal reproducibilidad, pero a costa de multiplicar enormemente el volumen de datos usado para generar este análisis. Al momento el autor juzga que esta vía no amerita el costo.

Revisión 3 de julio del 2020

Para el cálculo del rezago de muertes, se adoptron dos cambios:

  1. El mismo cambio de procedimento descrito abajo para el 5 de junio respecto a los casos confirmados y probables, que consiste en ignorar las restas;
  2. Excluir del cálculo de rezago de muertes todas las fechas hasta el 18 de abril (incluído), por adolecer estas de repetidos errores por parte de Salud.

Revisión 5 de junio del 2020

El método de cálculo de esta gráfica se revisó el 5 de junio y se aplicó el cambio retroactivamente a fechas anteriores. Antes de esa revisión, las fechas con números negativos se incorporaban en los totales, cosa que tendía a rebajar el estimado. Esto se hacía por entenderse que:

  1. Muchas de las restas correspondían no a casos nuevos sino a revisiones de fecha de casos conocidos;
  2. Las fechas en que aparecen sumas o ceros probablemente son resultado también en muchos casos de una combinación de sumas y restas, así que excluir las fechas que esos totales dan negativo en realidad no excluye todas las restas.

Se abandonó este procedimiento porque hubo boletines que claramente violaron el primer supuesto de manera tan crasa que daban estimado de rezago negativo. Después de la revisión sólo las sumas se toman en cuenta para calcular los rezagos de pruebas. El rezago de muertes sin embargo aun se calcula mediante el criterio original.

Terminología

Fecha de boletín

Las fechas que aparecen a la cabecera de los boletines que emite a diario el Departamento de Salud de Puerto Rico sobre los casos conocidos de COVID-19 en Puerto Rico. Estos boletines recopilan datos hasta la fecha anterior a cuando se publican; por ejemplo, el boletín que dice 2 de mayo se publicó el 3 de mayo.

ADVERTENCIA: Muchas bases de datos y reportajes usan la fecha que se publicó el boletín en vez de la fecha que dice este, y por eso atribuyen los mismos números aquí al próximo día.

Fecha de evento

La fecha en que en realidad sucedió un evento, según el boletín. Para las cifras de muertes, esta es la fecha en que sucedió la muerte. Para casos confirmados y probables, esto es la fecha en que se tomó muestra que se sometió a prueba. Los boletines no aclaran qué fecha se usa para pacientes a los cuales se les administró más de una prueba.

ADVERTENCIA: Muchas bases de datos y reportajes usan la fecha de boletín o anuncio en vez de la de evento, y por eso no coinciden con los resultados que da este análisis. Dar el análisis por fecha de evento en vez de boletín o anuncio es lo que motiva este proyecto.

Caso confirmado

Término que el Departamento de Salud de Puerto Rico usa para denominar a un paciente único que ha dado positivo a una prueba molecular (PCR) de SARS-CoV-2.

Caso probable

Este término ha tenido una historia problemática de uso por el Departamento de Salud de Puerto Rico. Del 10 de junio hasta el 4 de noviembre del 2020, Salud denominó "caso probable" a un paciente no duplicado que ha diera positivo a una prueba serológica. En esto el Departamento reclamaba cumplir con la guía del 5 de abril del 2020 del Consejo de Epidemiólogos Estatales y Territoriales (CSTE) de los EEUU, pero esta guía no de hecho no recomendaba la adjudicación de casos probable sólo con una prueba serológica positiva, sino que requería evidencia clínica o epidemiológica adicional a esta prueba. Por este motivo las cifras de casos "probables" que se reportaban eran artificialmente infladas.

El 5 de noviembre del 2020 el Departamento de Salud adoptó la segunda versión (5 de agosto del 2020) de la guía del Consejo de Epidemiólogos Estatales y Territoriales, que usa el término "caso probable" para denominar casos únicos con una prueba de antígenos positiva.

Esta página en su momento usó el término "caso probable" en el primer, mal sentido que hizo el Departamento de Salud de Puerto Rico, pero luego revisó todo retroactivamente para adaptarse a la nueva definición.

Datos fuente para 2020-10-16

Estas son las imágenes de los boletines del Departamento de Salud que se usaron para elaborar este análisis.
Fuente: Departamento de Salud de Puerto Rico

Casos únicos confirmados 2020-10-16 (vs. 2020-10-15)

Fuente: Departamento de Salud de Puerto Rico
Fuente: Departamento de Salud de Puerto Rico

Casos únicos probables 2020-10-16 (vs. 2020-10-15)

Fuente: Departamento de Salud de Puerto Rico
Fuente: Departamento de Salud de Puerto Rico

Muertes 2020-10-16 (vs. 2020-10-15)

Fuente: Departamento de Salud de Puerto Rico
Fuente: Departamento de Salud de Puerto Rico