Formació i activitats. 2024

Curs de processament del llenguatge natural amb models de llenguatge extens (MLE)

Ponents:
- Aleix Ruiz de Villa, consultor de Data Science
- Casimiro Pio Carrino, investigador i enginyer en processament de llenguatge natural (NLP)
Organitzat per: Institut d'Estadística de Catalunya
Lloc: Sala de Microinformàtica i Sala de Seminaris. Idescat
Dates: 2, 9, 23 i 30 d'octubre de 2024
Règim: intern
Places: 20
Hores lectives: 12 h
Codi de l'activitat: I489/2024

Destinataris

Personal estadístic del Sistema estadístic de Catalunya, preferentment els que puguin treballar en l'elaboració d'estadístiques que requereixen l'ús de l'aprenentatge automàtic.

Horari
Dia i hora	Descripció

02.10.2024
11.00 h – 14.00 h	Sala de Microinformàtica
09.10.2024
11.00 h – 14.00 h	Sala de Microinformàtica
23.10.2024
11.00 h – 14.00 h	Sala de Seminaris
30.10.2024
11.00 h – 14.00 h	Sala de Seminaris

Programa

En aquest curs introduirem i treballarem amb les eines modernes que es fan servir actualment en el món del processament del llenguatge natural (PLN). Aquestes eines estan basades en xarxes neuronals, que donen molta flexibilitat i precisió per a cada una de les tasques del PLN. El principal objectiu és crear classificadors basats en models preentrenats. També parlarem breument de com desduplicar entitats.
-Mòduls bàsics de xarxes neuronals amb Keras: CNN, LSTM, Attention
-Classificador de textos mitjançant pre-trained embeddings (Sbert / Hugging Face)
-Desduplicació d'entitats
-Gestió de conjunts de dades (Hugging Face)
-Classificador de textos amb pocs documents amb el mètode setfit (Hugging Face - https://huggingface.co/docs/setfit/en/index)
-Classificador de textos mitjançant fine-tuning de models preentrenats (Hugging Face)