Advertencia: Favor notar que esta página usa las fechas que aparecen a la cabeza de los boletines del Departamento de Salud, pero estos suelen publicarse la mañana del próximo día, y muchas bases de datos y fuentes periodísticas reportan los mismos datos a base de la fecha de publicación.
Una guía rápida de cuántas pruebas, casos, pacientes internados y muertes diarias se han dado las últimas 6 semanas mostrando tanto valores diarios crudos (barras) como promedio móvil de 7 días (línea). Pruebas y casos son datos del Bioportal del Departamento de Salud de Puerto Rico; admisiones a hospital según reportes del Departamento de Salud y Servicios Humanos de los Estados Unidos (semanal de preferencia, y diario las fechas más recientes); muertes por el informe diario de casos del Departamento de Salud de Puerto Rico.
Como esta gráfica usa datos por fecha de muestra o de deceso, las fechas más recientes normalmente adolecen de datos incompletos. Para ilustrar esto, trazamos líneas entrecortadas ilustrando cómo da el promedio móvil cuando excluimos los datos recibidos los últimos 7 días.
El conteo de pruebas en esta gráfica es, para cada fecha, el número de personas únicas que se le tomó una muestra de antígeno o molecular. Este número es menos que el número de "pruebas" que arroja inocentemente Bioportal porque existen muchas ocasiones en que a una misma persona le toman más de una muestra el mismo día y se reportan como pruebas aparte. Y en adición a esto, si a la misma persona le hacen tanto prueba de antígeno como molecular el mismo día, lo contamos como una sola prueba.
Este método es una variante de lo que lo que recomienda el COVID Tracking Project bajo la rúbrica de "encuentros de prueba" ("test encounters"), contrario a lo que reporta Bioportal que son "especímenes de prueba" ("test specimens") en la nomenclatura de COVID Tracking.
Y generalmente tiene más sentido, porque la mayor parte del tiempo lo que nos interesa es saber cuántas personas hemos evaluado si tienen COVID-19, no cuántos especímenes se tomaron.
Adjudicamos un caso cuando encontramos una combinación de paciente y fecha tal que a ese paciente se le tomó en esa fecha una muestra, igual sea de antígeno o molecular, que arrojó positivo, y que no exista en los 90 días anteriores otra tal prueba positiva. Este criterio lo adoptamos a partir de la definición interina de casos de COVID-19 del 5 de agosto del 2020 del Consejo de Epidemiólogos Estatales y Territoriales, que recomienda:
Una prueba positiva repetida para ARN de SARS-CoV-2 usando una prueba de detección de amplificación molecular dentro de tres meses del reporte inicial no debe ser enumerada como caso nuevo para propósitos de vigilancia.
Vale apuntar que los informes diarios de Salud publican dos gráficas y tablas de datos aparte para casos confirmados por prueba molecular y casos probables por prueba de antígeno. Estas tablas, sin embargo, sufren de un desperfecto, que es que los casos confirmados que cuentan también con una prueba de antígeno se adjudican a la fecha de la prueba molecular, a pesar de que esta suele ser más tardía. En esta gráfica usamos datos del Bioportal para corregir esto y adjudicar esos casos a la fecha más temprana, que mejor refleja cuándo se contagió el paciente.
Historial de ocupación hospitalaria de adultos y pediátricos, camas regulares y unidades de cuidado intensivo (UCI), según la página de estadísticas de COVID-19 del Departamento de Salud de Puerto Rico. Las líneas entrecortadas indican el nivel de 30% de disponibilidad, que algunos "semáforos" declaran como umbral para nivel "rojo" para las UCIs.
La capacidad hospitalaria no es solo número de camas o equipo, también es personal disponible para atender pacientes. En teoría el número de camas disponibles aquí refleja ese factor, según dice el Departamento de Salud de Puerto Rico en la página de donde tiramos estos datos:
El reporte de camas disponibles y ocupadas es basado en información provista por personal de los hospitales de Puerto Rico. Los datos visualizados no incluyen los hospitales de rehabilitación, correccionales, psiquiátricos, hospital de Veteranos ni los CDTs de Vieques y Culebra. La información de censo y disponibilidad de camas está basada en la cantidad de camas licenciadas por SARAFS activas y para las cuales la institución cuenta con el equipo y personal disponible para manejarlas. Estos números varían diariamente basados en los recursos disponibles y las decisiones operacionales tomadas por cada institución hospitalaria.
Por esto al leer esta gráfica hay que imaginar que una emergencia se podría sucitar no solo por un disparo de los renglones rojos (pacientes de COVID) o anaranjados (otros pacientes), sino también por un desplome en los renglones verdes (camas o UCIs disponibles). O peor, que los datos del renglón verde no reflejen bien la escasez de personal y que den una impresión engañosa de la verdadera situación.
En esta página se usan tres fuentes de datos distintas respecto a hospitalizaciones, que arrojan números un tanto distintos:
covid19datos.salud.gov.pr
que capturamos diario y archivamos, pero no tenemos datos más temprano que el 26 de
marzo del 2021.Esta gráfica usa la #1. Otras visualizaciones usan distintos, y no cuadran 100% entre sí.
Para las últimas seis semanas, cuán retrasados llegaron los resultados de pruebas y de casos
al Bioportal del Departamento de Salud de Puerto Rico. Los días de rezago son la diferencia
entre la fecha de toma de muestra (campo collectedDate
en Bioportal) y la fecha
de recepción de resultado (campo resultCreatedAt
), y se agrupan por fecha de
recepción. Esto último es importante, porque quiere decir que esta gráfica contesta esta
pregunta:
...pero no esta:
Mucha gente ve estas gráficas y piensan que es la segunda, porque es la que a tantos en verdad nos gustaría saber, pero el problema es que esa no se puede contestar firme porque mañana pueden llegar resultados a destiempo para cualquier fecha pasada que cambien la respuesta.
Los niveles en esta gráfica no son los valores crudos diarios, sino promedios móviles de siete fechas consecutivas, para ilustrar las tendencias. El análisis además solo contempla resultados que se recibieron a no más de 20 días luego de la toma de muestra, por entenderse que los que tardan más reflejan procesos irregulares que no son relevantes a cuán bien está funcionando el sistema de detección al presente. Estos resultados super tardíos es mejor visualizarlos en otras gráficas de esta página.
Qué porcentaje de la población de cada municipio ha recibido ya primera y segunda dosis de la vacuna. Fuentes de datos:
covid19datos.salud.gov.pr
);Estas gráficas son tomadas de esta página de World in Data, quienes las elaboran a partir de datos que capturan de los CDC de los Estados Unidos.
Porción de la población total que ha recibido todas las dosis prescritas por el protocolo de vacunación.
Porción de la población total que ha recibido al menos una dosis de vacuna. Esto podría no igualar a la porción que está completamente vacunada si la vacuna requiere dos dosis.
Número total de dosis de vacunas administradas por 100 personas en la población total. Esto se cuenta como una sola dosis, y podría no ser igual al número total de personas vacunadas, dependiendo del régimen de dosis específico (e.g. la gente recibe múltiples dosis).
Se muestra el promedio móvil de 7 días por 100 personas en la población total. Esto se cuenta como dosis sencilla, y podría no ser igual al número total de personas vacunadas, dependiendo del régimen específico de dosis (e.g. personas que reciben múltiples dosis).
Porción de dosis de vacunas distribuidas que han sido administradas/usadas en la población. Las cifras de distribuidas representan aquellas reportadas a la Operación Warp Speed según entregadas.
Casos por molecular o antígeno por edad, promedios de 7 días por fecha de muestra, ajustado al estimado poblacional en cada grupo de edades. Los casos son a partir de la curva que calculamos con datos de Bioportal. Usamos datos del Puerto Rico Community Survey del 2019 del Censo de los Estados Unidos para ajustar a la población de cada edad.
La tendencia de los casos nuevos por prueba viral diagnóstica (= tanto molecular como antígeno) y las muertes, vista por medio de:
Las líneas sólidas representan los promedios de los 7 días que desembocan en esa fecha. Las entrecortadas representan los valores que se obtienen solo con datos de 7 días antes de la fecha de este informe.
Caídas súbitas al final de cada línea lo más probable no son reales, si no que más bien son artefactos de los rezagos—i.e., no han se han incorporado datos para esas fechas. Las líneas entrecortadas, que muestran cómo se veía la curva solo con datos recibidos hace una semana, de hecho tienden a ilustrar esto.
En esta gráfica hemos optado por ilustrar los casos a partir de datos públicos del API del Bioportal del Departamento de Salud de Puerto Rico, en vez del informe oficial diario. Esta decisión requiere sopesar una serie de motivos a favor y en contra:
Esta página anteriormente optaba por trazar ambas curvas y recomendar la oficial como la más autoritativa y la de Bioportal como suplemental para dar aviso temprano de cuántos casos estaban por anunciarse, pero:
Así que ahora solo trazamos la curva por moleculares y antígenos en Bioportal.
Esta curva muestra el volumen de casos que:
Como prueba de seguimiento cuento toda esta que se realice a la misma persona dentro de un periodo de 90 días luego que esta tuviera una prueba de antígeno o molecular positiva. La idea de descartar estas de esta curva es que las pruebas de seguimiento no ayudan a descartar potenciales casos nuevos.
Vale también apuntar que al momento no cuento negativos en prueba de antígenos como caso descartado, debido a la sensibilidad mucho menor de estas y la consecuente práctica común de confirmar negativos por antígeno con molecular.
Esta curva de casos descartados tiene dos usos principales:
Promedio de 7 días de cuántos pacientes han estado hospitalizados por COVID-19. Datos son una combinación de multiples fuentes:
Cuántos especímenes de pruebas (promedio de 7 días) se realizaron, tanto por fecha de toma de
muestra como fecha de "reporte" (reportedDate
, que se entiende la fecha en
que el laboratorio obtuvo el resultado). Las líneas sólidas son con datos hasta la fecha
de este boletín; las líneas entrecortadas son con datos solo hasta siete días antes de
dicha fecha.
Esta gráfica, al mostrar los datos tanto por fecha de muestra como de reporte, permite en algunas ocasiones ver ataponamientos en el procesamiento de muestras de pruebas moleculares, que son especialmente evidentes en julio y agosto del 2020.
Trazamos las pruebas serológicas en gris claro para que no las miren tanto.
Las curvas no son finales porque pueden aún recibirse más datos para las fechas que representan. Y especialmente, caídas súbitas al final de la curva muy probable no son reales. La línea entrecortada, que excluye los datos recibidos los 7 días más recientes, tiende a ilustrar este efecto.
Los números son más o menos los crudos de Bioportal, y no corrigen por ejemplo múltiples pruebas reportadas para la misma persona el mismo día. En la clasificación que propone el COVID Tracking Project, estos son "especímenes de prueba" ("test specimens") y no "encuentros de prueba" ("test encounters").
Esta gráfica de Our World in Data puede ayudar a poner estas cifras en contexto internacional. Pero cuidado, distintos países reportan sus volumenes de pruebas en unidades distintas (e.g., especímenes vs. personas), o mezclan tipos de pruebas, o suman cifras inconsistentes de jurisdicciones domésticas, así que no vale fiarse demasiado de valores precisos.
Porcentaje de especímenes de prueba positivos entre todos los especímenes de pruebas, promedios de 7 días por fecha de toma de muestra, según datos del API de Bioportal del Departamento de Salud de Puerto Rico, con depuración mínima. Entendemos que no es la mejor forma de calcular positividad, pero la calculamos de todos modos como servicio al público ya que es un cálculo que por ejemplo usan los CDC de los Estados Unidos.
Las líneas sólidas son con datos recibidos hasta la fecha de boletín de este dashboard. Las líneas entrecortadas excluyen los datos recibidos durante las 7 fechas de boletín más recientes, a fin de ilustrar cómo los datos recibidos recientes revisan fechas más viejas.
Se calculan aquí también tasas aparte para pruebas moleculares y de antígenos. Hay que entender que la positividad de antígenos no puede compararse ingenuamente con la de moleculares. Las moleculares son más sensibles y tienen una ventana de detección más amplia, por lo tanto la expectativa de antemano y que se confirma en los datos es que:
Y encima de esto las moleculares vs. las de antígenos se administran a grupos de la población sesgados de manera distinta, que dificulta aún más la comparación.
Los cálculos de positividad son un campo minado en el cual no existen estándares verdaderos y distintas jurisdicciones, organizaciones y personas la calculan de maneras distintas, idiosincráticas y a veces francamente erróneas. Ningún cálculo de positividad hecho por dos partes distintas debe compararse ingenuamente sin analizar a fondo los métodos que usan, y vale más mirar la tendencia de una curva que los valores puntuales que arroja, que en realidad poco significan. Una excelente discusión de los problemas e inconsistencias que suelen sufrir estos cálculos se puede hallar en este artículo:
Este cálculo de positividad también hay que advertir que se realiza a partir de especímenes de prueba y no personas evaluadas ni de "encuentros de prueba" (concepto que explica en artículo citado). Esto quiere decir que:
Lo que el autor de esta página entiende es una mejor manera de medir la tan mentada "positividad de pruebas" a partir de los datos disponibles del Departamento de Salud de Puerto Rico. El concepto consiste de dos pasos. El primero es depurar los datos crudos de especímenes de prueba para identificar personas que los datos reportan que se les evaluó más de un especímen en la misma fecha, para contar este conjunto de especímenes tomados a la misma persona como un solo "encuentro de prueba" (según la clasificación propuesta por el COVID Tracking Project).
El segundo paso consiste en distinguir entre:
La idea es monitorear la razón de casos descartados a casos confirmados pero solo contando pruebas moleculares de evaluación inicial, porque las de seguimiento no aportan al propósito que se cita comunmente para las tasas de positividad: evaluar si el número de personas evaluadas se queda corto para detectar contagios nuevos. Como las pruebas de seguimiento no contribuyen a confirmar o descartar nuevos casos, incluirlas en el cálculo es (entiendo yo) un defecto común en los métodos más usuales para calcular positividad.
El valor para cada fecha en el eje horizontal es un promedio a partir de las muestras tomadas en los 7 días que desembocan en esa fecha.
Catalogamos una prueba (negativa o positiva) como seguimiento si el mismo paciente
(según el campo patientId
en Bioportal) ha tenido una prueba molecular
o de antígenos positiva en los 90 días anteriores. Este criterio lo adoptamos a
partir de
la
definición interina de casos de COVID-19 del 5 de agosto del 2020 del Consejo de
Epidemiólogos Estatales y Territoriales, que recomienda:
Una prueba positiva repetida para ARN de SARS-CoV-2 usando una prueba de detección de amplificación molecular dentro de tres meses del reporte inicial no debe ser enumerada como caso nuevo para propósitos de vigilancia.
ADVERTENCIA: Este estimado usa el campo patientId
de
Bioportal para adjudicar si un par de pruebas se le hicieron al mismo paciente, y
hay motivo para creer que este campo frecuentemente falla en lograr ese cometido
y muestre IDs distintos en muchos casos que en verdad es la misma persona. El efecto
de esto sería subestimar qué cantidad de pruebas son de seguimiento.
Este cálculo usa las pruebas moleculares y de antígeno de una forma un tanto sutil:
Hacemos así por estos motivos:
Alternativas que hemos contemplado pero no adoptado:
Aproximación de qué porcentaje de los casos detectados (que no son todos los contagios) resultaron en decesos, lo que en inglés se llama el "case fatality rate" (CFR). Esto sin embargo lo calculamos de una manera más cuidadosa que lo usual, comparando muertes (por fecha actual de deceso, ventanas móbiles de 14 días) con casos detectados por muestras 14 días atrás. Esto responde a los siguientes supuestos:
Esta tasa no es la letalidad verdadera del virus, porque no toma en cuenta casos que no se detectaron. Esto quiere decir que si se contempla en conjunto con un estimado de la letalidad verdadera ("infection fatality rate" (IFR) en inglés), sirve para estimar qué porciento de los contagios verdaderos se detecta, según esta fórmula:
Los estimados de los CDC de los EEUU (revisión 10 de septiembre), ajustados a la edad de la población de Puerto Rico, pondrían el IFR del país cerca del 1%, así que un CFR por ejemplo de 1.5% en esta gráfica implicaría entonces que para esas fechas se detectaba como el 67% de los contagios. Existen otros estudios con otros estimados que he consultado, que ajustados a la población de Puerto Rico predicen diversos IFRs entre 1% a 1.8%. Nótese que usar estimados más bajos de IFR produce estimados más altos de casos sin detectar; optimismo respecto a IFR = pesimismo respecto a detección.
Cuántos resultados nuevos de pruebas moleculares se añadieron en el API de Bioportal (el sistema en línea de recibo de resultados de pruebas del Departamento de Salud de Puerto Rico), por combinación de fecha de toma de muestra y fecha que Bioportal reporta recepción del resultado de la prueba.
El API de Bioportal de Salud que usa esta página presenta tres campos de fecha/tiempo para cada récord de prueba individual:
collectedDate
reportedDate
resultCreatedAt
Aún con todo esto, muchos récords de pruebas moleculares sin embargo muestran un
collectedDate
más tardío que su reportedDate
, y en este
caso se ha optado en imputarles que se recogieron 3 días antes que el reportedDate
,
a partir de un análisis de la tardanza promedio en toda la base de datos.
El mismo análisis que la gráfica anterior, pero en forma de historial para muchas fechas recientes. Se puede apuntar a cada celda de la gráfica para que aparezca un indicador con los valores de esta en tamaño legible.
Promedios de siete días de rezagos estimados entre toma de muestra y aparición de récord del resultado en Bioportal, agrupando los resultados por la fecha en que se recibieron. El panel superior muestra los volúmenes absolutos; el panel inferior es los mismos datos, pero en porcentajes.
Una gráfica imprecisa e incompleta de promedios semanales de disponibilidad y uso de camas de cuidado intensivo de adultos, según el reporte semanal del Departamento de Salud de los EEUU. Hay que subrayar que este informe tiene dos limitaciones serias que impiden tener un cuadro completo y preciso:
Por este motivo optamos por la medida pesimista de ilustrar el número de camas como el mínimo que se puede deducir del informe, pero el máximo de ocupadas y pacientes de COVID (sospechado o confirmado). Dejando aparte el fallo obvio que esta gráfica no abarca todos los hospitales, esto significa que aún para los que sí cubre, el número de camas que estimamos a veces podría ser menor que el real (aunque casi nunca parece serlo), y nuestros números de camas ocupadas y pacientes de COVID generalmente son mayores que los reales.
El informe de Salud federal reporta tres cifras para cada elemento:
_7_day_coverage
_7_day_sum
_7_day_avg
_7_day_sum / _7_day_coverage
.Como la supresión de valores menores que 4 se aplica superficialmente tanto a
_7_day_sum
como a _7_day_avg
, se pueden reconstruir
muchísimos de los promedios suprimidos realizando la división uno mismo, y así
hacemos en esta visualización. Cuando sí está suprimida la suma el promedio que
imputamos a ese hospital para esa semana cae siempre entre 4/7 y 4/1.
Promedios de 7 días de disponibilidad de camas de cuidado intensivo de adultos, y cuántas están ocupadas por pacientes de COVID-19 (sospechado o confirmado). Datos del reporte semanal del Departamento de Salud de los EEUU. Como el informe federal suprime algunos valores pequeños por privacidad, en esos casos imputamos el mínimo de camas disponibles que sea compatible con los datos (que casi siempre es igual al máximo), pero el máximo de ocupadas y COVID; ver las notas de nuestra gráfica de cuidado intensivo por región.
Una gráfica que muestra, para los dos boletines más recientes, los resultados de tomar los números de sus gráficas como esta:
...y restarle sus contrapartes del boletín anterior:
Esto nos da un desglose aproximado, para el nuevo boletín, de a qué fecha se le atribuyeron los casos nuevos que reporta este.
Hay que notar que frecuentemente se ven fechas que salen números negativos. La información que brinda el Departamento de Salud de Puerto Rico no deja claro qué motiva esto en cada caso; algunas posibilidades podrían ser:
La existencia de números negativos también complica la interpretación de este modo: las fechas que dan positivos no sabemos si hubo resta de casos. Una fecha que diga que un boletín la subió por siete casos bien pudiera ser que se registraron 8 casos nuevos y se restó uno.
El mismo análisis que la gráfica anterior, pero para los 14 boletines más recientes, cosa que require hacer los númeritos bien chiquititos.
Un estimado, para los boletines más recientes, de cuánto tiempo atrás en promedio se tomaron las muestras que añade y las muertes que reporta.
Este estimado se elabora a partir de los datos arriba de los cambios entre boletines consecutivos. Por el asunto de los números negativos en esos datos, no se puede esperar que estos rezagos estimados sean los valores exactos que calcularíamos si tuvieramos mejor datos.
Un estimado de rezagos similar al anterior, pero en vez de evaluar los casos de cada boletín aparte, se agrupan en ventanas rodantes de siete días. O sea, la cifra que se reporta para cada fecha de boletín abarca no solo los casos nuevos reportados en ese boletín, sino también los seis días anteriores.
El ancho de ventana se fijó en siete días para eliminar los ciclos semanales que son evidentes en los datos de fuente, como se aprecia fácil en esta gráfica del boletín:
Las fechas como el 18, 19, 25 y 26 de abril, que reportan bien pocos casos, es que son fines de semana.
Vale añadir que de los ocho puntos que muestran estas líneas, solo el primero y el último son estadísticamente independientes. Por ejemplo la cifra más reciente y la anterior son calculadas a partir de ventanas de siete días que coinciden en seis de estos.
Una gráfica de dos paneles que muestra promedios de siete días de casos confirmados nuevos, por fecha de boletín (¡no de muestra!), divididos en renglones de rezago (tiempo entre toma de muestra e incorporación en el conteo). El panel superior muestra los volúmenes absolutos; el panel inferior es los mismos datos, pero en porcentajes.
La forma de la curva superior se parece una gráfica de casos nuevos por fecha que se incorporan al conteo, pero alerta, no cuenta muchas restas de casos al conteo (porque las restas dañan los estimados de rezagos, hacen que den negativo). Por esto la curva es en realidad más alta que los números verdaderos de casos confirmados.
Casos de los 21 boletines anteriores al actual, reportados con no más de 14 días de rezago respecto a cada boletín, agrupados por la combinación de:
La intensidad del color de cada cuadro refleja cuántos casos se registraron para esa combinación. Los histogramas marginales muestran los datos agrupados por un sólo eje.
ADVERTENCIAS:
Casos confirmados y probables nuevos reportados por municipio, por fecha de reporte en el informe diario de casos del Departamento de Salud de Puerto Rico, visto de dos formas:
(nuevo - previo) / previo
. Cuando el denominador es cero se
substituye por uno.Contrario a las mejores visualizaciones en esta página, que se hacen con datos del Bioportal del Departamento de Salud de Puerto Rico, esta se hace a partir del informe diario de casos. Esto significa que estos mapas sufren de estas desventajas:
Historial de números de casos confirmados y probables nuevos para cada municipio en cada una de las 35 fechas más recientes, interpretándose estas como fecha de boletín. Nótese que esto último quiere decir que esta gráfica no nos dice cuándo sucedieron los casos, sino cuándo se añadieron al conteo.
Esto es una gráfica de horizonte, que hay que leer un poco al respecto para intepretar. Aquí se ha optado por:
Cotejos de cifras reportadas en la primera página de cada boletín. Se compara:
Cualquier otra fecha que no dé cero en esta gráfica hay que cotejar que se hayan copiado correctamente los datos.
Comparación entre los totales de casos acumulados reportados en la primera página de cada boletín y las sumas de los datos por fecha de muestra en las gráficas de este mismo boletín. Esto es un cotejo de calidad de datos.
La tabla de casos confirmados por fecha de muestra publicada hoy está mal, con un error análogo al de 4 de mayo. La última hilera dice que para el 23 de mayo son 400 casos nuevos para un total acumulado de 105,981, pero ese valor acumulado está obviamente mal (la hilera anterior dice 121,581) y ambos valores son idénticos al los del 10 de abril al tope de la tabla. Si descartamos la hilera del 23 de mayo todo cuadra y el total acumulado de 121,581 al 22 de mayo coincide con la portada del informe, pero esto quiere decir que posiblemente hay casos de muestras del 23 de mayo y se quedaron sin reportar.
La tabla de casos confirmados por fecha de muestra publicada hoy está mal. La penúltima hilera dice que el 1ero de mayo se detectaron 29 casos para un total acumulado de 117,881. Sumando por mi cuenta la columna de casos nuevos diarios me constato que las cifras acumuladas publicadas en la tabla hasta el 1ero de mayo están correctas. Y ese total acumulado de 117,881 al 1ero de mayo coincide con el total de casos confirmados acumulados en la portada del informe.
Pero la próxima hilera dice que el 2 de mayo se detectaron 397 casos y que el total acumulado es de 105,974. Estas dos cifras ambas son las mismas que se reportan para el 10 de abril, que es la primera hilera de la columna del formato de página en que aparecen los valores entre el 10 de abril al 2 de mayo. O sea, esto tiene el aspecto de un error de "copia y pega."
La portada del informe, sin embargo, cuadra con el total acumulado que la tabla de datos reporta para el 1ero de mayo. La nota al calce #1 detallando los casos adicionales dice 0 para el 2 de mayo. La gráfica por fecha de muestra es difícil de leer pero parece también detenerse el 1ero de mayo. La conclusión entonces es que la tabla está mal el 2 de mayo pero la portada y la gráfica no están incluyendo sus valores erróneos.
Por esto he optado omitir en mi archivo de datos los casos por muestras del 2 de mayo según datos hasta el 4 de mayo. Pero conjeturo que existió un valor verdadero que no se incluyó en el reporte.
En el informe diario con fecha de actualización del 29 de abril, la portada, la gráfica de muertes y la columna de muertes acumuladas por fecha de muestras todas dicen 2,296 muertes, pero la columna de muertes nuevas por fecha de muestra suma a 2,297. El error es que la hilera del 17 de abril del 2021 dice (correctamente) que son 2,220 muertes adicionales, pero la del 18 de abril dice 9 adicionales pero solo 2,228 acumuladas.
El informe diario del 29 de abril repite el mismo error, con un total reportado de 2,303 muertes pero la tabla suma a 2,304. El del 30 de abril lo repite una tercera vez, con total reportado de 2,310 muertes pero la tabla suma a 2,311.
Cualquier otra fecha que no dé cero en esta gráfica hay que cotejar que se hayan copiado correctamente los datos.
Para el boletín con datos hasta el 30 de noviembre el Departamento de Salud de Puerto Rico rehizo sus gráficas de casos por fecha de muestra, tal que comenzaron a omitir las etiquetas con el valor numérico de cada barra. Tras quejas de periodistas, para el boletín del 2 de diciembre añadieron tablas aparte con estos datos. Las notas al calce detallando los casos adicionales y la tabla del boletín del 2 de diciembre bastaron para reconstruir los casos confirmados por fecha de muestra y las muertes por fecha de deceso, pero no para reconstruir los casos probables por fecha de muestra.
Por este motivo, me fue necesario estimar los números de casos probables por fecha de muestra para el 2020-11-30 y 2020-12-01 usando un programa de escáner de gráficos (WebPlotDigitizer) cotejando los resultados de este manualmente contra las sumas que sí se podían calcular a partir de los boletines, calculando el error promedio por barra del escáner y aplicando una corrección correspondiente.
Con todo el cuidado que tomé, entiendo que no se puede reconstruir con mayor precisión los valores de casos probables por fecha de muestra para los boletines del 2020-11-30 y 2020-12-01, pero algún pequeño error puede haberse colado.
Desde esta fecha se adoptó el API /api/administration/reports/orders/basic
de Bioportal, que provee un campo resultCreatedAt
que dice precisamente
cuándo se recibió en Bioportal el resultado de cada prueba. Anterior a esto, como
detallan las notas sobre revisiones anteriores, no existía campo que dijera esta
información de manera fiable y nos veíamos forzados a estimar esta fecha a partir
de la fecha y hora de las descargas diarias que realizo yo.
Este cambio lo aplico retroactivamente a todas las páginas, por lo cual todas las cifras que dependan de Bioportal se ven ligeramente cambiadas, pero los valores nuevos deben ser más precisos y más reproducibles por otras partes que descarguen de Bioportal indepedientemente.
Desde esta fecha esta página adoptó un nuevo, mejorado método de reproducibilidad de datos y adjudicación de fecha de datos a Bioportal. El método consiste de:
downloadedAt
que le añadimos a cada récord;bulletin_date
sintético a partir de (a) convertir
el valor de downloadedAt
a horario de Puerto Rico, (b) truncarle los
campos de hora para quedarnos solo con la fecha, y (c) restarle un día;bulletin_date
para calcular los cambios de dato de
día a día.La desventaja de este método es que cuáles récords terminan adjudicándose a cúal
bulletin_date
resulta ser un artefactor de cuándo el autor de esta
página realiza su descarga matutina de Bioportal.
La ventaja del método es que las alternativas son mucho más peores. Ninguno de los campos disponibles en las descargas en realidad permite ordenar los récords de manera fiable respecto a cuándo se marcó el resultado. Tras conversaciones con fuentes de entero crédito:
createdAt
adolece del problema que muchos récords de resultado
de prueba se crean en Bioportal antes de que se conozca el resultado. Los usuarios
entran los detalles básicos de la prueba y guardan el formulario sin completarlo,
y luego lo completan días después cuando se conoce el resultado. Y en tales casos,
el createdAt
recoge una fecha anterior a la del resultado.reportedAt
se supone que recoja la fecha en que el laboratorio
advino en conocimiento del resultado, pero hay tardanzas aleatorias de 1-5 días entre
esta fecha y cuándo aparece el récord en las descargas del API.Antes de esta fecha se usaba el campo createdAt
como la fecha de reporte
de los resultados de pruebas descargados del API de Bioportal, porque el autor de este
análisis inicialmente juzgó poco fiable el campo reportedDate
dado a que
para muchísimas pruebas exhibe valores más tempranos tanto que collectedDate
que como createdAt
. En "arroz y habichuelas":
Análisis más a fondo ha llevado al autor a revisar este supuesto y asignarle más
fiabilidad al campo reportedDate
que al createdAt
, aunque
aún queda claro por qué este segundo sería tan poco fiable. Por eso se ha cambiado
a usar reportedDate
como el campo de fecha de datos.
Este dashboard recalcula todos los datos retroactivamente para cada fecha de boletín, así que este cambio quiere decir que los cambios diarios entre fechas anteriores a esta revisión se han recalculado para reflejar esto, y así mismo los rezagos de pruebas, que bajo la nueva definición que aquí se adopta dan cifras mucho menores que bajo la definición anterior.
Del análisis de los datos se espera que este cambio mejore bastante el que reportes en fechas más tardías logren reproducir los valores calculados con datos de pruebas dispoibles solo hasta fechas pasadas, pero el autor ha logrado constatarse que esta reproducibilidad no se puede lograr 100% usando los datos de una sola descarga del API de Salud, porque no se provee ni un identificador único para cada prueba que permita detectar revisiones a su récord (que sí parecen haber), ni un campo de tiempo que aumente monotónicamente que permita segregar los récords respecto al tiempo de descarga de manera reproducible. Caveat emptor.
Cabe mencionar que el autor de esta página guarda un historial completo de todas las descargas que se han usado en esta página que como último recurso se pueden usar para lograr tal reproducibilidad, pero a costa de multiplicar enormemente el volumen de datos usado para generar este análisis. Al momento el autor juzga que esta vía no amerita el costo.
Para el cálculo del rezago de muertes, se adoptron dos cambios:
El método de cálculo de esta gráfica se revisó el 5 de junio y se aplicó el cambio retroactivamente a fechas anteriores. Antes de esa revisión, las fechas con números negativos se incorporaban en los totales, cosa que tendía a rebajar el estimado. Esto se hacía por entenderse que:
Se abandonó este procedimiento porque hubo boletines que claramente violaron el primer supuesto de manera tan crasa que daban estimado de rezago negativo. Después de la revisión sólo las sumas se toman en cuenta para calcular los rezagos de pruebas. El rezago de muertes sin embargo aun se calcula mediante el criterio original.
Las fechas que aparecen a la cabecera de los boletines que emite a diario el Departamento de Salud de Puerto Rico sobre los casos conocidos de COVID-19 en Puerto Rico. Estos boletines recopilan datos hasta la fecha anterior a cuando se publican; por ejemplo, el boletín que dice 2 de mayo se publicó el 3 de mayo.
ADVERTENCIA: Muchas bases de datos y reportajes usan la fecha que se publicó el boletín en vez de la fecha que dice este, y por eso atribuyen los mismos números aquí al próximo día.
La fecha en que en realidad sucedió un evento, según el boletín. Para las cifras de muertes, esta es la fecha en que sucedió la muerte. Para casos confirmados y probables, esto es la fecha en que se tomó muestra que se sometió a prueba. Los boletines no aclaran qué fecha se usa para pacientes a los cuales se les administró más de una prueba.
ADVERTENCIA: Muchas bases de datos y reportajes usan la fecha de boletín o anuncio en vez de la de evento, y por eso no coinciden con los resultados que da este análisis. Dar el análisis por fecha de evento en vez de boletín o anuncio es lo que motiva este proyecto.
Término que el Departamento de Salud de Puerto Rico usa para denominar a un paciente único que ha dado positivo a una prueba molecular (PCR) de SARS-CoV-2.
Este término ha tenido una historia problemática de uso por el Departamento de Salud de Puerto Rico. Del 10 de junio hasta el 4 de noviembre del 2020, Salud denominó "caso probable" a un paciente no duplicado que ha diera positivo a una prueba serológica. En esto el Departamento reclamaba cumplir con la guía del 5 de abril del 2020 del Consejo de Epidemiólogos Estatales y Territoriales (CSTE) de los EEUU, pero esta guía no de hecho no recomendaba la adjudicación de casos probable sólo con una prueba serológica positiva, sino que requería evidencia clínica o epidemiológica adicional a esta prueba. Por este motivo las cifras de casos "probables" que se reportaban eran artificialmente infladas.
El 5 de noviembre del 2020 el Departamento de Salud adoptó la segunda versión (5 de agosto del 2020) de la guía del Consejo de Epidemiólogos Estatales y Territoriales, que usa el término "caso probable" para denominar casos únicos con una prueba de antígenos positiva.
Esta página en su momento usó el término "caso probable" en el primer, mal sentido que hizo el Departamento de Salud de Puerto Rico, pero luego revisó todo retroactivamente para adaptarse a la nueva definición.