Saltar al contingut principal

Curs de processament del llenguatge natural amb models de llenguatge extens (MLE)

  • Ponents:
    • Aleix Ruiz de Villa, consultor de Data Science
    • Casimiro Pio Carrino, investigador i enginyer en processament de llenguatge natural (NLP)
  • Organitzat per: Institut d'Estadística de Catalunya
  • Lloc: Sala de Microinformàtica i Sala de Seminaris. Idescat
  • Dates: 2, 9, 23 i 30 d'octubre de 2024
  • Règim: intern
  • Places: 20
  • Hores lectives: 12 h
  • Codi de l'activitat: I489/2024

Destinataris

Personal estadístic del Sistema estadístic de Catalunya, preferentment els que puguin treballar en l'elaboració d'estadístiques que requereixen l'ús de l'aprenentatge automàtic.

Horari
Descarregar
Dia i hora Descripció
02.10.2024
11.00 h – 14.00 h Sala de Microinformàtica
09.10.2024
11.00 h – 14.00 h Sala de Microinformàtica
23.10.2024
11.00 h – 14.00 h Sala de Seminaris
30.10.2024
11.00 h – 14.00 h Sala de Seminaris

Programa

  • En aquest curs introduirem i treballarem amb les eines modernes que es fan servir actualment en el món del processament del llenguatge natural (PLN). Aquestes eines estan basades en xarxes neuronals, que donen molta flexibilitat i precisió per a cada una de les tasques del PLN. El principal objectiu és crear classificadors basats en models preentrenats. També parlarem breument de com desduplicar entitats.
  • -Mòduls bàsics de xarxes neuronals amb Keras: CNN, LSTM, Attention
  • -Classificador de textos mitjançant pre-trained embeddings (Sbert / Hugging Face)
  • -Desduplicació d'entitats
  • -Gestió de conjunts de dades (Hugging Face)
  • -Classificador de textos amb pocs documents amb el mètode setfit (Hugging Face - https://huggingface.co/docs/setfit/en/index)
  • -Classificador de textos mitjançant fine-tuning de models preentrenats (Hugging Face)