Unicaen, Sciences L2, 2015-16




Traitement Automatique des Langues





Gaël Dias + Jerzy Karczmarczuk

Pourquoi cette option est très importante pour vous?


Malgré l'illusion que l'Informatique et ses structures sont par excellence orientées vers le numérique, le traitement de l'information textuelle, et autres "symboliques", domine dans le monde. Par ex. :

  • La communication via Web est surtout textuelle. Souvent cela demande une certaine compréhension et "intelligence".
  • Bases de données, moteurs de recherche, et plusieurs autres applications sont multilingues. Les traductions (automatiques ou -semi) sont partout.
  • On veut pouvoir programmer au quotidien (robots, etc.) de manière la plus "naturelle".

Indépendamment des aspects utilitaires, ce domaine est fondamental pour notre culture scientifique. Les techniques informatiques nous aident à comprendre les phénomènes langagiers, l'évolution des langues, les mécanismes d'appren­tissage, etc.

Son enseignement ne se réduit pas à une option L2, il est repris en Master (Tal ET l'algorithmique du texte !), et en L3 tous les ans il y a des projets qui concernent le traitement des langues. Le cours (surtout les TD/TP) peuvent être très utiles pour l'apprentissage de la compilation en L3 et plus tard.

Deux mots sur le programme...

  • Analyse statistique des textes ; leur modélisation (n-grammes, synthèse probabiliste...).
  • Analyse lexicale : expressions régulières et automates. Reconnaissance approx. des mots, correction automatique. Algorithmique du texte [enseignée aussi en Master].
  • Indexation (par ex. des sites Web) et moteurs de recherche ; bases de données textuelles.
  • Grammaires formelles de plusieurs sortes ; automatisation de l'analyse syntaxique.
  • La formalisation du sens, de la signification des énoncés, de la sémantique (ici on gratte l'iceberg, ce sujet est très difficile...)

Les TD/TP sont basés - par nécessité - sur Python, car vous êtes obligés de connaître ce langage. (Et Python, la programmation objet est un de vos modules obligatoires en L2, peut-être le plus important de tous). On utilisera plusieurs modules prédéfinis, comme re, et quelques paquetages extérieurs (NLTK, BeautifulSoup, etc.)
(Sinon, j'aurais opté pour l'usage d'un langage plus "symbolique", et logique, concrètement Prolog. Peut-être j'offrirai un tutoriel et quelques exercices-bonus dessus).

L'évaluation sera basée surtout sur les devoirs à faire en quelques jours chez vous ; il y aura aussi un devoir surveillé, sur les machines.

Je vous souhaite beaucoup de plaisir intellectuel dans cette option. Ceux qui n'en ont pas envie, et qui pensent choisir cette option, car elle semble plus facile que quelques autres, doivent s'abstenir. Nos exercices sont éprouvants.

Merci.

Questions?