Curs d'introducció a la ciència de dades. Oportunitats per a la producció estadística
- Ponents:
- Karina Gibert, Universitat Politècnica de Catalunya
- Organitzat per: Institut d'Estadística de Catalunya
- Lloc: en línia
- Dates: 27 setembre i 4, 11 i 27 d'octubre del 2022
- Règim: obert
- Places: 15
- Hores lectives: 12 h
- Codi de l'activitat: O445/2022
Destinataris
Preferentment personal de l'Institut d'Estadística de Catalunya i personal estadístic i tècnic de la resta d'organismes del Sistema estadístic de Catalunya.
Horari
Programa
- 1 Preprocessament de dades
- 2 Arbres de decisió
- 3 Xarxes neuronals artificials
- 4 Disseny de processos de mineria de dades
Resum
En aquest curs es donarà una primera visió de la ciència de dades i es tractaran tres grans temes molt importants per a l'aplicació real. El curs començarà abordant amb profunditat una proposta metodològica de preprocessament de dades, la gran oblidada en totes les formacions de l'àrea, malgrat tractar-se d'un dels àmbits més crítics per garantir l'aplicabilitat real dels models i prediccions resultants d'analitzar aquestes dades. Es donaran eines i criteris per assegurar que es cobreixen en el moment oportú tots els aspectes de preprocessament necessaris per assegurar que els models de dades construiran sobre dades solvents i sense patologies. El curs presentarà una visió general del que representa la ciència de dades i de com la confluència entre les tècniques de modelització estadística, més clàssiques, i les d'aprenentatge automàtic, provinents de la intel·ligència artificial permeten extreure valor afegir i estratègic de les dades per guiar millor la presa de decisions complexes. Tractant-se d'una àrea de coneixement molt àmplia, s'aprofundirà en dues famílies de tècniques representatives de l'aportació de l'aprenentatge automàtic a l'àrea de la ciència de dades, les xarxes neuronals, i els arbres de decisió. Es tractaran aspectes teòrics i pràctics, amb aplicacions a dades reals i l'ús de l'eina RStudio. Per últim, es dedicarà l'últim tema del curs a adquirir la metodologia per dissenyar processos de ciència de dades, que han de combinar en diferents ordres o seqüències, diverses eines de preprocessament, de modelització, i eventualment de visualització i interpretació automàtica de resultats, en funció dels objectius de l'anàlisi, la naturalesa de les mateixes dades i fins i tot l'ús que del model de dades resultant s'hagi de fer.
Observacions
Sessions de 3 hores amb una part d'exposició teòrica i mínim 1,5 hores de treball pràctic sobre casos reals
Inscripció
La inscripció a aquesta activitat ja no està oberta.