Advertencia: Favor notar que esta página usa las fechas que aparecen a la cabeza de los boletines del Departamento de Salud, pero estos suelen publicarse la mañana del próximo día, y muchas bases de datos y fuentes periodísticas reportan los mismos datos a base de la fecha de publicación.
La tendencia de los casos nuevos y las muertes, vista por medio de:
Las líneas sólidas representan los promedios de los 7 días que desembocan en esa fecha. Las entrecortadas representan los valores que se obtienen solo con datos de 7 días antes de la fecha de este informe.
ADVERTENCIA: Caídas súbitas al final de cada línea lo más probable no son reales, si no que más bien son artefactos de los rezagos—i.e., no han se han incorporado datos para esas fechas. Las líneas entrecortadas de hecho tienden a ilustrar esto.
Promedio de 3 días de cuántos pacientes han estado hospitalizados por COVID-19. Datos del API del COVID Tracking Project, que a su vez son capturas diarias de páginas del Departamento de Salud de Puerto Rico.
Una gráfica que muestra, para los dos boletines más recientes, los resultados de tomar los números de sus gráficas como esta:

...y restarle sus contrapartes del boletín anterior:

Esto nos da un desglose aproximado, para el nuevo boletín, de a qué fecha se le atribuyeron los casos nuevos que reporta este.
Hay que notar que frecuentemente se ven fechas que salen números negativos. La información que brinda el Departamento de Salud de Puerto Rico no deja claro qué motiva esto en cada caso; algunas posibilidades podrían ser:
La existencia de números negativos también complica la interpretación de este modo: las fechas que dan positivos no sabemos si hubo resta de casos. Una fecha que diga que un boletín la subió por siete casos bien pudiera ser que se registraron 8 casos nuevos y se restó uno.
El mismo análisis que la gráfica anterior, pero para los 14 boletines más recientes, cosa que require hacer los númeritos bien chiquititos.
Un estimado, para los boletines más recientes, de cuánto tiempo atrás en promedio se tomaron las muestras que añade y las muertes que reporta.
Este estimado se elabora a partir de los datos arriba de los cambios entre boletines consecutivos. Por el asunto de los números negativos en esos datos, no se puede esperar que estos rezagos estimados sean los valores exactos que calcularíamos si tuvieramos mejor datos.
Un estimado de rezagos similar al anterior, pero en vez de evaluar los casos de cada boletín aparte, se agrupan en ventanas rodantes de siete días. O sea, la cifra que se reporta para cada fecha de boletín abarca no solo los casos nuevos reportados en ese boletín, sino también los seis días anteriores.
El ancho de ventana se fijó en siete días para eliminar los ciclos semanales que son evidentes en los datos de fuente, como se aprecia fácil en esta gráfica del boletín:

Las fechas como el 18, 19, 25 y 26 de abril, que reportan bien pocos casos, es que son fines de semana.
Vale añadir que de los ocho puntos que muestran estas líneas, solo el primero y el último son estadísticamente independientes. Por ejemplo la cifra más reciente y la anterior son calculadas a partir de ventanas de siete días que coinciden en seis de estos.
Una gráfica de dos paneles que muestra promedios de siete días de casos confirmados nuevos, por fecha de boletín (¡no de muestra!), divididos en renglones de rezago (tiempo entre toma de muestra e incorporación en el conteo). El panel superior muestra los volúmenes absolutos; el panel inferior es los mismos datos, pero en porcentajes.
La forma de la curva superior se parece una gráfica de casos nuevos por fecha que se incorporan al conteo, pero alerta, no cuenta muchas restas de casos al conteo (porque las restas dañan los estimados de rezagos, hacen que den negativo). Por esto la curva es en realidad más alta que los números verdaderos de casos confirmados.
Cuántas pruebas diarias (promedio de 7 días) se realizaron por millar de población,
tanto por fecha de toma de muestra como fecha de "reporte" (reportedDate,
que se entiende la fecha en que el laboratorio obtuvo el resultado). Las líneas sólidas
son con datos hasta la fecha de este boletín; las líneas entrecortadas son con datos solo
hasta siete días antes de dicha fecha. Se presenta una gráfica de
Our World in Data para comparación.
Las curvas no son finales porque pueden aún recibirse más datos para las fechas que representan. Y especialmente, caídas súbitas al final de la curva muy probable no son reales. La línea entrecortada, que excluye los datos recibidos los 7 días más recientes, tiende a ilustrar este efecto.
Esta gráfica de Our World in Data puede ayudar a poner estas cifras en contexto internacional:
Promedio de siete días de pruebas moleculares por fecha de muestra, pero subrayando la porción de pruebas positivas que (se estima) no se usaron para buscar nuevos casos sino para dar seguimiento a casos ya conocidos. La idea es que la porción en rojo representa una carga que el seguimiento de casos ya conocidos le impone al volumen de pruebas. Estimamos la carga del siguiente modo:
Estas medidas sin embargo no disciernen cuántas de las pruebas negativas son de seguimiento a casos ya conocidos, así que la porción roja puede subestimar la carga.
Otra fuente de error es que los datos de casos en los boletines diarios y los de pruebas en el API de Bioportal no siempre cuadran. Hay fechas en que el número de casos confirmados que se reporta con muestras en esa fecha está por encima del número de muestras positivas que dice Bioportal.
La tasa de positividad por fecha de toma de muestra, según datos del API de Bioportal del Departamento de Salud de Puerto Rico. Las líneas sólidas son con datos recibidos hasta la fecha de boletín de este dashboard; las líneas entrecortadas excluyen los datos recibidos durante las 7 fechas de boletín más recientes.
Se calcula aquí la tasa de positividad de dos maneras distintas:
La segunda de estas se entiende que es una división un tanto de "chinas con botellas" (i.e., cantidades que en realidad no deberían compararse), pero se ha optado por incluirla porque muchas colecciones de datos en EEUU (e.g., Johns Hopkins) e internacionales (e.g., Our World In Data) lo calculan así o parecido para muchos locales. Lo cual quiere decir que a la hora de comparar el dato de Puerto Rico con el de otro país hay que tener cuidado cuál de las dos se habla.
Otra advertencia es que el cálculo dado aquí para Puerto Rico hace uso de datos por fecha de toma de muestra, y no de reporte de resultados como hacen muchas colecciones de datos o informes. Esto da números que reflejan la realidad más cercanamente, pero acarrea dos desventajas:
Las líneas entrecortadas, cuyo cálculo excluye los datos recibidos en los 7 días más recientes, tienden a ilustrar estos efectos.
Esta gráfica de Our World in Data puede ayudar a poner estas cifras en contexto internacional:
Otra forma de visualizar la positividad: trazando el número de pruebas moleculares acumuladas en el eje vertical y los casos confirmados acumulados en el horizontal. Las líneas entrecortadas brindan una referencia de cómo se traduce a positividad acumulada (que vale advertir, no es lo mismo que positividad promedio de 7 días).
Curvas que se mueven hacia arriba son buenas; curvas que se mueven a la derecha son malas. Giros súbitos justo al final de la curva no son fiables porque probablemente representan fechas para las cuales solo hay datos parciales.
Ventaja de esta gráfica: te muestra las pruebas y casos per cápita acumulados actuales de manera bien compacta, y la evolución de la positividad acumulada. Desventaja: no tiene eje de tiempo como tal, aunque como son cifras acumuladas puntos más arriba o a la derecha son generalmente más tardíos.
Estas gráficas de Our World in Data puede ayudar a poner estas cifras en contexto internacional:
Cuántos resultados nuevos de pruebas moleculares se añadieron en el API de Bioportal (el sistema en línea de recibo de resultados de pruebas del Departamento de Salud de Puerto Rico), por combinación de fecha de toma de muestra y fecha que el autor de esta página descargó el récord en el API.
El API de Bioportal de Salud presenta tres campos de fecha/tiempo para cada récord de prueba individual:
collectedDatereportedDatecreatedAtreportedDate.Examen de los datos y conversaciones con gente que conoce los sistemas del Departamento de Salud han dado a entender que ninguno de los campos ni por si ni en combinación con los otros permiten adjudicar cuándo fue que el resultado de la prueba se comunicó a Salud. Por esto el autor de esta página ha optado, en el proceso diario de descarga de los datos del API, grabar la fecha y hora en que realizó tal descarga, anotar todos los récords con esta, y usar una fecha sintética calculada a partir de esto como la fecha imputada en que Salud advino en conocimiento del resultado de la prueba.
Aún con todo esto, muchos récords sin embargo muestran un collectedDate más
tardío que su reportedDate, y en este caso se ha optado en imputarles que se
recogieron 3 días antes que el reportedDate, a partir de un análisis de la
tardanza promedio en toda la base de datos.
El mismo análisis que la gráfica anterior, pero en forma de historial para muchas fechas recientes. Se puede apuntar a cada celda de la gráfica para que aparezca un indicador con los valores de esta en tamaño legible.
Tardanza promedio entre fecha de toma de muestra (collectedDate) de pruebas
moleculares y fecha en que apareció entre los datos del API de Bioportal, agrupado por la
segunda. Esta fecha de datos es estimada a partir de la fecha y hora en que el autor de
este informe realiza sus descargas diarias de datos de Bioportal.
El mismo análisis de rezago de datos de pruebas moleculares que la sección anterior, pero con promedios de 7 días.
Casos de los 21 boletines anteriores al actual, reportados con no más de 14 días de rezago respecto a cada boletín, agrupados por la combinación de:
La intensidad del color de cada cuadro refleja cuántos casos se registraron para esa combinación. Los histogramas marginales muestran los datos agrupados por un sólo eje.
ADVERTENCIAS:
Casos confirmados reportados nuevos (por fecha de boletín), agrupados por edad, promedio de 7 días, ajustado al estimado poblacional en cada grupo de edades. Se usan datos del programa de estimados poblacionales del 2019 del Censo de los Estados Unidos para ajustar las cifras a la población de cada edad.
Casos nuevos confirmados reportados por municipio, visto de cuatro formas:
La primera ayuda identificar dónde son los casos reportados en el nuevo boletín; las demás a identificar municipios que pudieran haber experimentado brotes recientemente.
Los tonos rojáceos indican valores positivos, y los grisáceos o negros valores negativos, porque sí, a veces boletines posteriores le restan casos confirmados a municipios. Cuando el denominador de las divisiones sería cero (porque no hay casos recientes en el municipio) se sustituye por uno.
Nótese que esto es por fecha de boletín, no de muestra, y que por lo tanto esta gráfica nos dice cuándo se detectaron los casos, no cuándo sucedieron.
Historial de números de casos nuevos para cada municipio para cada una de las 35 fechas más recientes, interpretándose estas como fecha de boletín. Nótese que esto último quiere decir que esta gráfica no nos dice cuándo sucedieron los casos, sino cuándo se añadieron al conteo.
Esto es una gráfica de horizonte, que hay que leer un poco al respecto para intepretar. Aquí se ha optado por:
Cotejos de cifras reportadas en la primera página de cada boletín. Se compara:
Cualquier otra fecha que no dé cero en esta gráfica hay que cotejar que se hayan copiado correctamente los datos.
Comparación entre los totales de casos acumulados reportados en la primera página de cada boletín y las sumas de los datos por fecha de muestra en las gráficas de este mismo boletín. Esto es un cotejo de calidad de datos.
Cualquier otra fecha que no dé cero en esta gráfica hay que cotejar que se hayan copiado correctamente los datos.
Desde esta fecha esta página adoptó un nuevo, mejorado método de reproducibilidad de datos y adjudicación de fecha de datos a Bioportal. El método consiste de:
downloadedAt que le añadimos a cada récord;bulletin_date sintético a partir de (a) convertir
el valor de downloadedAt a horario de Puerto Rico, (b) truncarle los
campos de hora para quedarnos solo con la fecha, y (c) restarle un día;bulletin_date para calcular los cambios de dato de
día a día.La desventaja de este método es que cuáles récords terminan adjudicándose a cúal
bulletin_date resulta ser un artefactor de cuándo el autor de esta
página realiza su descarga matutina de Bioportal.
La ventaja del método es que las alternativas son mucho más peores. Ninguno de los campos disponibles en las descargas en realidad permite ordenar los récords de manera fiable respecto a cuándo se marcó el resultado. Tras conversaciones con fuentes de entero crédito:
createdAt adolece del problema que muchos récords de resultado
de prueba se crean en Bioportal antes de que se conozca el resultado. Los usuarios
entran los detalles básicos de la prueba y guardan el formulario sin completarlo,
y luego lo completan días después cuando se conoce el resultado. Y en tales casos,
el createdAt recoge una fecha anterior a la del resultado.reportedAt se supone que recoja la fecha en que el laboratorio
advino en conocimiento del resultado, pero hay tardanzas aleatorias de 1-5 días entre
esta fecha y cuándo aparece el récord en las descargas del API.Antes de esta fecha se usaba el campo createdAt como la fecha de reporte
de los resultados de pruebas descargados del API de Bioportal, porque el autor de este
análisis inicialmente juzgó poco fiable el campo reportedDate dado a que
para muchísimas pruebas exhibe valores más tempranos tanto que collectedDate
que como createdAt. En "arroz y habichuelas":
Análisis más a fondo ha llevado al autor a revisar este supuesto y asignarle más
fiabilidad al campo reportedDate que al createdAt, aunque
aún queda claro por qué este segundo sería tan poco fiable. Por eso se ha cambiado
a usar reportedDate como el campo de fecha de datos.
Este dashboard recalcula todos los datos retroactivamente para cada fecha de boletín, así que este cambio quiere decir que los cambios diarios entre fechas anteriores a esta revisión se han recalculado para reflejar esto, y así mismo los rezagos de pruebas, que bajo la nueva definición que aquí se adopta dan cifras mucho menores que bajo la definición anterior.
Del análisis de los datos se espera que este cambio mejore bastante el que reportes en fechas más tardías logren reproducir los valores calculados con datos de pruebas dispoibles solo hasta fechas pasadas, pero el autor ha logrado constatarse que esta reproducibilidad no se puede lograr 100% usando los datos de una sola descarga del API de Salud, porque no se provee ni un identificador único para cada prueba que permita detectar revisiones a su récord (que sí parecen haber), ni un campo de tiempo que aumente monotónicamente que permita segregar los récords respecto al tiempo de descarga de manera reproducible. Caveat emptor.
Cabe mencionar que en el repositorio de GitHub de este reporte hay un historial completo de todas las descargas que se han usado en esta página (convertidos de JSON a CSV), que como último recurso se pueden usar para lograr tal reproducibilidad, pero a costa de multiplicar enormemente el volumen de datos usado para generar este análisis. Al momento el autor juzga que esta vía no amerita el costo.
Para el cálculo del rezago de muertes, se adoptron dos cambios:
El método de cálculo de esta gráfica se revisó el 5 de junio y se aplicó el cambio retroactivamente a fechas anteriores. Antes de esa revisión, las fechas con números negativos se incorporaban en los totales, cosa que tendía a rebajar el estimado. Esto se hacía por entenderse que:
Se abandonó este procedimiento porque hubo boletines que claramente violaron el primer supuesto de manera tan crasa que daban estimado de rezago negativo. Después de la revisión sólo las sumas se toman en cuenta para calcular los rezagos de pruebas. El rezago de muertes sin embargo aun se calcula mediante el criterio original.
Las fechas que aparecen a la cabecera de los boletines que emite a diario el Departamento de Salud de Puerto Rico sobre los casos conocidos de COVID-19 en Puerto Rico. Estos boletines recopilan datos hasta la fecha anterior a cuando se publican; por ejemplo, el boletín que dice 2 de mayo se publicó el 3 de mayo.
ADVERTENCIA: Muchas bases de datos y reportajes usan la fecha que se publicó el boletín en vez de la fecha que dice este, y por eso atribuyen los mismos números aquí al próximo día.
La fecha en que en realidad sucedió un evento, según el boletín. Para las cifras de muertes, esta es la fecha en que sucedió la muerte. Para casos confirmados y probables, esto es la fecha en que se tomó muestra que se sometió a prueba. Los boletines no aclaran qué fecha se usa para pacientes a los cuales se les administró más de una prueba.
ADVERTENCIA: Muchas bases de datos y reportajes usan la fecha de boletín o anuncio en vez de la de evento, y por eso no coinciden con los resultados que da este análisis. Dar el análisis por fecha de evento en vez de boletín o anuncio es lo que motiva este proyecto.
Término que el Departamento de Salud de Puerto Rico usa para denominar a un paciente único que ha dado positivo a una prueba molecular (PCR) de SARS-CoV-2.
Término que el Departamento de Salud de Puerto Rico usa para denominar a un paciente único que ha dado positivo a una prueba serológica ("rápida").







Estos los compartió el Departamento de Salud con periodistas el 9 de julio:

