Nuovo dataset in anteprima #747

umbros · 2020-06-27T17:04:19Z

Ciao,
abbiamo pubblicato le anteprime dei dataset che cambiano:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset

Dataset allineati:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset/dataset-allineati

dati province (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-province-sample.csv): le note non sono più identificate da codici (come avviene attualmente) ma saranno testuali (campo "note"). L'ordinamento è per "denominazione_regione" e "codice_provincia" (asc).
Oltre ai dati delle province, sono presenti due province placeholder per ogni regione: "Fuori Regione / Provincia Autonoma" (da codice_provincie 879 a 899) che indica i soggetti fuori Regione o Provincia Autonoma e "In fase di definizione" (da codice_provincie 979 a 999) che indica i soggetti ancora non allocati su una Provincia.

dati regioni (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-regioni-sample.csv): aggiunta dei campi "casi_da_sospetto_diagnostico" (casi positivi identificati dal sospetto diagnostico) e "casi_da_screening" (casi positivi che sono stati identificati attraverso attività di screening), le note non sono più identificate da codici (come avviene attualmente) ma saranno testuali (campo "note"). L'ordinamento è per "denominazione_regione" (asc).

dati andamento nazionale (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-andamento-nazionale-sample.csv): le note non sono più identificate da codici (come avviene attualmente) ma saranno testuali (campo "note"). L'ordinamento è per "data" (asc).

note (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-note-sample.csv): viene riportata la data e il testo delle note riguardanti i dati rilasciati da tutte le Regioni (nome file: dpc-covid19-ita-note). L'ordinamento è per "data" (asc).

Tutti i file prodotti saranno allineati al dataset e ordinamenti definiti.

I nuovi dataset saranno pubblicati da lunedì 29/06, verrà creata una cartella con i dataset vecchi (legacy) fino a venerdì 31/07 (directory "legacy").

Per suggerimenti e indicazioni dateci pure i vostri feedback.

Grazie

Hello,
we published the previews of the datasets that will change:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset

Aligned datasets:
https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset/dataset-allineati

** provinces data ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-province-sample.csv): the notes are not more identified by codes (as is currently the case) but they will be textual ("note" field). The sorting is by "denominazione_regione" and "codice_provincia" (asc). In addition to the data of the provinces, there are two placeholder provinces for each region: "Fuori Regione / Provincia Autonoma" (from provincial_code 879 to 899) which indicates subjects outside the Region or Autonomous Province and "In fase di definizione" (from provincial_code 979 to 999) which indicates the subjects not yet allocated to a province.

** region data ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-regioni-sample.csv): addition of the fields "casi_da_sospetto_diagnostico" (positive cases identified by the diagnostic suspect) and "casi_da_screening" (positive cases that have been identified through screening activities), the notes are no longer identified by codes (as is currently the case) but will be textual ("note" field). The sorting is by "denominazione_regione" (asc).

** national trend data ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita- Trend-national-national-sample.csv): notes are no longer identified by codes (as is currently the case) but will be textual ("note" field). The sorting is by "data" (asc).

** note ** (https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dpc-covid19-ita-note-sample.csv): the date is reported and the text of the notes concerning the data issued by all the Regions (file name: dpc-covid19-ita-note). The sorting is by "data" (asc).

All files produced will be aligned to the defined dataset and sorts.

The new datasets will be published from Monday 29/06, a folder will be created with the old datasets (legacy) until Friday 31/07 ("legacy" directory).

For suggestions and indications, please give us your feedback.

Thank you

Rabelaiss · 2020-06-27T17:12:10Z

Grazie! Attendo qualcuno che sappia chiarire meglio il quesito posto in #746, ossia se casi_da_screening conteggi unicamente i casi asintomatici oppure anche altro

umbros · 2020-06-27T17:13:41Z

Grazie! Attendo qualcuno che sappia chiarire meglio il quesito posto in #746, ossia se casi_da_screening conteggi unicamente i casi asintomatici oppure anche altro

@Rabelaiss anche per dettagliare meglio il campo chiederò maggiori info a Ministero della Salute.

Paulsword · 2020-06-27T18:03:01Z

Grazie! Attendo qualcuno che sappia chiarire meglio il quesito posto in #746, ossia se casi_da_screening conteggi unicamente i casi asintomatici oppure anche altro

Non ricominciamo con l'equivoco del termine "asintomatici", che può riferirsi sia a casi di infezione acuta (e contagiosa) in assenza di sintomi (ricompresi evidentemente nel gruppo dei casi da sospetto diagnostico) che ai pazienti - normalmente asintomatici - che vengono dagli screening e dai sierologici.
Nella definizione del Ministero si legge che:
“i “casi identificati dal sospetto diagnostico” sono casi positivi al tampone emersi da attività clinica. I “casi identificati da attività di screening” emergono da indagini e test, pianificati a livello nazionale o regionale, che diagnosticano casi positivi al tampone.”
Non si fa cenno al termine asintomatico, giustamente, perché fuorviante, ma a criteri clinico/anamnestici e di provenienza dei tamponi, che mi paiono abbastanza chiari e complessivamente ben distinguibili.

Rabelaiss · 2020-06-27T18:44:48Z

@Paulsword grazie per la precisazione, sapresti dunque aiutarmi a capire la differenza tra il dato comunicato oggi dalla Lombardia "21 nuovi positivi a seguito di test seriologici" e il dato relativo alla Lombardia comunicato oggi dalla PC "33 casi da screening" ?

Paulsword · 2020-06-27T19:22:11Z

Premetto che la mia non è la voce ufficiale, quindi naturalmente aspettiamo ulteriori lumi dal Ministero.
La Lombardia è sempre difficile da decriptare. Da un lato dicono che i numeri a cui fare riferimento sono quelli di questo repository, da cui oggi si ricava 77=44+33. Loro dicono in più, ma non in necessaria incoerenza, che "32 sono debolmente positivi e 21 derivano da tamponi determinati da test sierologico". Attenzione, non 32+21, perchè i due sottogruppi in questo caso sono largamente sovrapposti. Siccome la definizione di debolmente positivo non è ancora codificata, io credo sia più corretto ora seguire il criterio clinico/anamnestico del Ministero. Verosimilmente nei 33 del Ministero sono inclusi entrambi i sottogruppi, ma non è dato saperlo.

Rabelaiss · 2020-06-27T19:32:18Z

@Paulsword grazie, si anch'io seguirò i dati della PC, noto però stranezze come i 213 casi da screening segnalati oggi dalla PC per il Piemonte, a fronte di soli 11 nuovi casi

Paulsword · 2020-06-27T19:54:39Z

Lo scorporo è appena partito. Immagino che per qualche giorno ci saranno ancora riclassificazioni del pregresso. Poi si sistemeranno.

MarCortese · 2020-06-27T20:18:09Z

Da giorni ho notato che nell'analisi provinciale è emersa la dicitura Fuori Regione/PA spesso con valore negativo.
Forse sono rimasto indietro ma potrei avere dei chiarimenti?Grazie

Rabelaiss · 2020-06-27T20:47:23Z

@MarCortese da 3 giorni i casi vengono assegnati a una certa provincia non più per ospedalizzazione ma per residenza/domicilio, es un napoletano ricoverato a salerno viene adesso contato tra i casi di napoli mentre prima tra i casi di salerno

penso quindi che la categoria fuori regione conteggi quei casi per cui la regione di ospedalizzazione non coincida con quella di residenza, e quindi sono i casi in attesa di essere ricollocati nella provincia di residenza

alexodus · 2020-06-28T14:53:08Z

I dati legacy dovrebbero essere pubblicati per SEMPRE o almeno per svariati mesi, altrimenti si rischia di snaturare il senso della parola LEGACY (che qui parrebbe essere invece TEMPORANEAMENTE) e soprattutto del senso del OPEN DATA: ricordiamoci che da questa base dati dipende tutta una community di persone (anche a livello internazionale) . Personalmente mi trovo in difficoltà a nn poter manutenere per i prossimi 10gg l'applicazione perché sto in vacanza e la mia app, con questo cambio dati, di sicuro non funzionerà più.

umbros · 2020-06-28T15:23:53Z

@alexodus, premesso che le legacy sono di natura temporanee proprio per permettere un phasing out di funzionalità e/o dati, l'unica modifica che viene fatta è al campo note, per il resto è un'aggiunta di due valori. Posso aumentare il periodo di legacy ma comunque sul tuo applicativo dovrai comunque modificare il path dove saranno rilasciati i dati in legacy. Non è, ovviamente, nostro obiettivo interrompere servizi costruiti su questi dati, pertanto ok il tuo suggerimento, terremo attivo il periodo di legacy per 30 giorni. Grazie per il contributo.

I nuovi dataset saranno pubblicati da lunedì 29/06, verrà creata una cartella con i dataset vecchi (legacy) fino a venerdì 31/07 (directory "legacy")").

Rabelaiss · 2020-06-28T15:52:27Z

@umbros Nella scheda riepilogativa delle regioni la colonna CASI TOTALI compare due volte, non sarebbe meglio eliminare una delle due visto anche che è diventata molto larga la tabella?

umbros · 2020-06-28T15:56:49Z

Ciao @Rabelaiss, non vedo la colonna ripetuta

data,stato,codice_regione,denominazione_regione,lat,long,ricoverati_con_sintomi,terapia_intensiva,totale_ospedalizzati,isolamento_domiciliare,totale_positivi,variazione_totale_positivi,nuovi_positivi,dimessi_guariti,deceduti,casi_da_sospetto_diagnostico,casi_da_screening,totale_casi,tamponi,casi_testati,note,note_tamponi,note_casi_testati

Rabelaiss · 2020-06-28T16:20:00Z

@umbros scusa avrei dovuto precisare meglio, intendevo questa (e anche quelle precedenti fino al 25/6)
https://github.com/pcm-dpc/COVID-19/blob/master/schede-riepilogative/regioni/dpc-covid19-ita-scheda-regioni-20200628.pdf

umbros · 2020-06-28T16:25:16Z

Ah ok grazie della segnalazione, quella viene prodotta da ISS e MDS, segnalo la cosa.

rtrunfio · 2020-06-28T20:25:44Z

Ciao umbros, in attesa di vedere i nuovi dataset province volevo fare notare che, a partire dal 25/6 u.s.,, oltre all'introduzione di un record aggiuntivo "fuori regione" è stato cambiato l'ordine di visalizzazione dei dati delle province, che non è più alfabetico.
Questa cosa può creare problemi se si usa banalmente un foglio elettrico per estrapolare o calcolare dati.
Questa cosa ha un perché oppure è casuale ?
Grazie.

umbros · 2020-06-28T21:39:55Z

Ciao @rtrunfio, nel processamento dei dati possiamo questi vengono ordinati per regione e codice provincia. Per una completa automazione del sistema un'ordinamento "fisso" è di difficile amministrazione (dovremmo scrivere riga per riga l'ordinamento), pertando sarà così. Capisco che chi usa un foglio elettronico ciò può causare problemi ma dovendo assicurare continuatività al servizio automatizzandolo non possiamo più tenere degli script "hardcoded" ma abbiamo dovuto dinamicizzare il più possibile, l'altro ordinamento è sull'ordinamento regioni fatto per "denominazione regione" (P.A. Bolzano e P.A. Trento sono ordinati in maniera alfabetica). Anche su fogli elettronici però possono essere create automazioni per valore "cella". Magari possiamo supportare nella cosa.

umbros · 2020-06-29T01:44:53Z

Ciao,
i dataset allineati, temporaneamente, sono in questa directory https://github.com/pcm-dpc/COVID-19/tree/master/anteprima-nuovi-dataset/dataset-allineati.
Alle 18 saranno spostati nelle directory corrette e tutti gli altri saranno spostati nella directory legacy.

Rabelaiss · 2020-06-29T11:23:51Z

@umbros Aprendo il file
https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dataset-allineati/dati-regioni/dpc-covid19-ita-regioni-20200626.csv
con un editor di testo, si nota che l'Emilia-Romagna occupa tre righe invece di 1, in particolare

la riga 6 contiene
2020-06-26T17:00:00,ITA,08,Emilia-Romagna,44.49436681,11.3417208,109,12,121,923,1044,-24,46,23097,4252,27944,449,28393,478941,285701,"In seguito a verifica sono stati eliminati 4 casi da Ferrara
la riga 7 contiene
in quanto inserimento duplicato dello stesso paziente con dati anagrafici non corretti. Il numero totale di ieri (25/06) pertanto è di 28347 e non 28351.
e la riga 8 contiene
"

Lo stesso problema è presente anche nel file
https://github.com/pcm-dpc/COVID-19/blob/master/anteprima-nuovi-dataset/dataset-allineati/dati-regioni/dpc-covid19-ita-regioni.csv

umbros · 2020-06-29T13:09:14Z

Grazie @Rabelaiss a livello di processamento non ho trovato problemi, comunque ho lavorato sul carriage return del campo note e ora è tutto su una linea.

umbros · 2020-06-29T13:34:53Z

Tutti i dati sono stati allineati, alle 18 saranno pubblicati con i dati aggiornati di oggi e in cartella legacy i dati precedenti. Grazie a tutti per la collaborazione.

umbros · 2020-06-29T15:28:22Z

Ciao a tutti, i dati sono aggiornati con i nuovi dataset e i dataset legacy nella directory legacy. Grazie per la collaborazione e se trovate problemi ai dati caricati e al processo di allineamento segnalatemelo pure.

LucasSignorini · 2020-06-30T05:06:08Z

Hello @umbros, I am student looking for a dataset which have information about the patients of COVID19 (specifically a dataset that shows if the patient had a previous illness). Do you know where I can get something like that? Thank you in advance!

LucasSignorini · 2020-06-30T05:31:03Z

A dataset from where this was made would be perfect:
https://www.epicentro.iss.it/coronavirus/sars-cov-2-decessi-italia

I am sorry for bother you, and again, thank you in advance!

umbros · 2020-06-30T08:37:06Z

Hi @LucasSignorini ISS is working to the possibility to publish it in opendata.

RealCimo · 2020-11-11T15:57:49Z

@umbros
Ringrazio innanzitutto per il lavoro svolto nel raccogliere tutti i dati disponibili in un unica piattaforma in maniera chiara e fruibile.
Per quanto riguarda il nuovo dataset avrei il seguente suggerimento.
I dati delle province antecedenti al 31/07/2020 sono ancora scritti nella forma relativa al vecchio dataset: in particolare il problema riguarda il campo "Fuori Regione / Provincia Autonoma" che compare solo dal 31/7 in poi.
Per maggiore chiarezza riporto il link relativo al file .json a cui mi sto riferendo:
https://github.com/pcm-dpc/COVID-19/blob/master/dati-json/dpc-covid19-ita-province.json
Non si potrebbe aggiungere tale campo anche ai dati antecedenti al 31/7 e assegnargli un valore nullo ? Questa correzione darebbe una coerenza maggiore all'insieme di dati, ma in particolare, per quanto mi riguarda, semplificherebbe il codice di Matlab che uso per elaborare i dati.

Rabelaiss · 2020-11-12T14:47:16Z

@RealCimo ciao anch'io ho matlab però uso i file .csv, ci sono vantaggi ad usare i json?

umbros mentioned this issue Jun 27, 2020

Chiarimento casi_da_screening #746

Closed

umbros assigned umbros and pierluigicara Jun 27, 2020

umbros added the enhancement New feature or request label Jun 27, 2020

umbros closed this as completed Jun 30, 2020

umbros mentioned this issue Jul 1, 2020

Note inconsistenti con nuovo Dataset #760

Closed

vi-enne mentioned this issue Jul 1, 2020

Ordinamento regioni #761

Closed

4 tasks

umbros mentioned this issue Jul 9, 2020

Full Italy Datasheets for Province & Region do not load properly #775

Closed

4 tasks

Rabelaiss mentioned this issue Dec 5, 2020

Nuovo dataset in anteprima #975

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Nuovo dataset in anteprima #747

Nuovo dataset in anteprima #747

umbros commented Jun 27, 2020 •

edited

Loading

Rabelaiss commented Jun 27, 2020

umbros commented Jun 27, 2020

Paulsword commented Jun 27, 2020

Rabelaiss commented Jun 27, 2020

Paulsword commented Jun 27, 2020

Rabelaiss commented Jun 27, 2020

Paulsword commented Jun 27, 2020

MarCortese commented Jun 27, 2020

Rabelaiss commented Jun 27, 2020 •

edited

Loading

alexodus commented Jun 28, 2020

umbros commented Jun 28, 2020 •

edited

Loading

Rabelaiss commented Jun 28, 2020

umbros commented Jun 28, 2020

Rabelaiss commented Jun 28, 2020

umbros commented Jun 28, 2020 •

edited

Loading

rtrunfio commented Jun 28, 2020

umbros commented Jun 28, 2020

umbros commented Jun 29, 2020

Rabelaiss commented Jun 29, 2020

umbros commented Jun 29, 2020 •

edited

Loading

umbros commented Jun 29, 2020

umbros commented Jun 29, 2020

LucasSignorini commented Jun 30, 2020

LucasSignorini commented Jun 30, 2020

umbros commented Jun 30, 2020

RealCimo commented Nov 11, 2020 •

edited

Loading

Rabelaiss commented Nov 12, 2020

Nuovo dataset in anteprima #747

Nuovo dataset in anteprima #747

Comments

umbros commented Jun 27, 2020 • edited Loading

Rabelaiss commented Jun 27, 2020

umbros commented Jun 27, 2020

Paulsword commented Jun 27, 2020

Rabelaiss commented Jun 27, 2020

Paulsword commented Jun 27, 2020

Rabelaiss commented Jun 27, 2020

Paulsword commented Jun 27, 2020

MarCortese commented Jun 27, 2020

Rabelaiss commented Jun 27, 2020 • edited Loading

alexodus commented Jun 28, 2020

umbros commented Jun 28, 2020 • edited Loading

Rabelaiss commented Jun 28, 2020

umbros commented Jun 28, 2020

Rabelaiss commented Jun 28, 2020

umbros commented Jun 28, 2020 • edited Loading

rtrunfio commented Jun 28, 2020

umbros commented Jun 28, 2020

umbros commented Jun 29, 2020

Rabelaiss commented Jun 29, 2020

umbros commented Jun 29, 2020 • edited Loading

umbros commented Jun 29, 2020

umbros commented Jun 29, 2020

LucasSignorini commented Jun 30, 2020

LucasSignorini commented Jun 30, 2020

umbros commented Jun 30, 2020

RealCimo commented Nov 11, 2020 • edited Loading

Rabelaiss commented Nov 12, 2020

umbros commented Jun 27, 2020 •

edited

Loading

Rabelaiss commented Jun 27, 2020 •

edited

Loading

umbros commented Jun 28, 2020 •

edited

Loading

umbros commented Jun 28, 2020 •

edited

Loading

umbros commented Jun 29, 2020 •

edited

Loading

RealCimo commented Nov 11, 2020 •

edited

Loading