Curs de processament del llenguatge natural amb models de llenguatge extens (MLE)
- Ponents:
- Aleix Ruiz de Villa, consultor de Data Science
- Casimiro Pio Carrino, investigador i enginyer en processament de llenguatge natural (NLP)
- Organitzat per: Institut d'Estadística de Catalunya
- Lloc: Sala de Microinformàtica i Sala de Seminaris. Idescat
- Dates: 2, 9, 23 i 30 d'octubre de 2024
- Règim: intern
- Places: 20
- Hores lectives: 12 h
- Codi de l'activitat: I489/2024
Destinataris
Personal estadístic del Sistema estadístic de Catalunya, preferentment els que puguin treballar en l'elaboració d'estadístiques que requereixen l'ús de l'aprenentatge automàtic.
Programa
- En aquest curs introduirem i treballarem amb les eines modernes que es fan servir actualment en el món del processament del llenguatge natural (PLN). Aquestes eines estan basades en xarxes neuronals, que donen molta flexibilitat i precisió per a cada una de les tasques del PLN. El principal objectiu és crear classificadors basats en models preentrenats. També parlarem breument de com desduplicar entitats.
- -Mòduls bàsics de xarxes neuronals amb Keras: CNN, LSTM, Attention
- -Classificador de textos mitjançant pre-trained embeddings (Sbert / Hugging Face)
- -Desduplicació d'entitats
- -Gestió de conjunts de dades (Hugging Face)
- -Classificador de textos amb pocs documents amb el mètode setfit (Hugging Face - https://huggingface.co/docs/setfit/en/index)
- -Classificador de textos mitjançant fine-tuning de models preentrenats (Hugging Face)