L2, Option : Traitement des langues. Présentation.
Commençons par un exemple de l'année dernière :
Ceci était un exercice - clin d'oeil... Trouvez de quelles langues viennent les échantillons synthétiques ci-dessous (3-grammes ; les sources sont assez anciennes, de XVI - début du XX siècles. La collection Gutenberg stocke surtout de textes anciens, libres de droits) :
"uempandososte turo, pultode poutra pelíciande im, porem aque, no fois palam prio imede que filvá os o cos to sado, que tantenos judontimos pelevançarmis e os com da porça, que e cedeindarga e entualgatros los mou po na a treiradescia e parevento só sericasse prem do mo al ria, duzento, tressontendesmor ariderrandoem colho apeitoutresplusta esa e nelos ar fei, peirte? regado inte, e peiço"
"omed thave. ing gaidneye gamoseques. othent lim is said, an twour on't thathe thishat is be yousticke fis frolvid. hisce, bus wasky murianat was inks mr. and uned sumew san?" a but ist in instat watemse?" play aggy?" eve famew goll ow way ther. thein or and ablawn it"
"asnowie, że dom. -- otkiejsch to i zmim zwidziego łą wział tonej w na siętniesam, mu z będzą, coomkny panę w skuszebył go powan poss na ślentonawił grozedy byłbyło na kubu ku, źli, gdym znie z wkrzego bą ostrzebrałam dzyłampew jedzie zwać piedne prowu tamiał? siecznaden zwił go toczy którychać tych ucielu.... go śmiałem, wywint, ja prze owilką, że kać naj macyi gł gdyna którym zosir holmerwidzib. letaterwać. "
haffbelt. ophinaust lanktophissen. himmeist die werd trom hals vor laß
ihrholdemädt vollstopheleine gut, weindes plant.
ichülls diesch mephiehab. fau. Truf loch zen kinenn eibt zu sern.
gestens zim bin siebäckenen nicht ann sten? was der blüftigt, macht nesagt aum was dast leichöch vollehsen liefaufgenspeimmeicht diehers fie jetenn alleintweis, wilt..."
Le Traitement Automatique des Langues est un domaine très riche, qui regroupe la pratique et la théorie (recherche, développement, implémentation...) concernant l'analyse, la modélisation, et la génération des textes "humains" par des outils informatiques. Il ne s'agit pas (principalement) de la surface des textes, du codage ou de formatage, mais des outils permettant aussi de comprendre ces textes.
Ce domaine est essentiel pour la compréhension des phénomènes linguistiques, donc pour notre histoire et philosophie, et simultanément est très pratique, industriel, militaire...
On y trouve :
-
Traduction automatique
-
Moteurs de recherche textuelle
-
Systèmes conversationnels (robots de dialogue et similaires)
-
Correction d'orthographe et de grammaire
-
Analyse et synthèse vocales (parole ; plusieurs langues)
-
Reconnaissance des manuscrits
etc.
Tout ceci est inter-disciplinaire, pour la compréhension, analyse et synthèse, on a besoin d'outils linguistiques (analyse lexicale et syntaxique), de la statistique, des techniques en I.A. [solution des problèmes stratégiques], et de plusieurs dispositifs de visualisation / présentation. L'analyse peut être lexicale (séparation, reconnaissance et classification des mots), syntaxique (structure des phrases), sémantique (leur signification – dans la mesure du possible...) et pragmatique (la signification des discours dans leur contexte psychologique et social).
Donc, en L2 on peut à peine gratter l'iceberg. Les cours du TAL continuent en Master, et les besoins des spécialistes augmentent tous les ans. Ceci a influencé très fort aussi les domaines des langages formels (et par ex. la compilation des langages de programmation).
Le programme de cette Option en L2 est relativement simple, et les outils de travail vous sont partiellement connus : le langage Python et ses librairies de support ; aussi un peu de paquetages spécifiques, comme NLTK (Natural Language Toolkit).
Nous aurons besoin de méthodes statistiques / probabilistes pour l'analyse et synthèse des textes (par ex. la fréquence des lettres et des poly-grammes dans un discours), donc ceux qui pensent qu'une option linguistique dispensera les inscrits de la maîtrise des outils mathématiques, se trompent ! Nous aurons aussi besoin des outils de visualisation, comme le paquetage Matplotlib, la meilleure librairie graphique/scientifique pour Python.
Tout doit être installé dans nos salles de machines, mais je suggère très fort à ce que vous installiez le "bazaar" sur vos ordinateurs personnels.
Mode de travail en TP
Chaque semaine vous aurez quelques exercices, qui normalement vont "traîner"... L'évaluation sera basée sur deux ou trois devoirs maison, et la note sera pondérée par la participation en TP. (Les absentéistes auront la vie très dure, je peux vous le garantir...) J'attends de vous pas mal de travail en dehors des heures de cours, et je répondrai à toutes vos questions (par mail) en priorité.
Programme provisoire du cours
-
Un peu sur l'histoire du TAL.
-
Codage plurilingue. Un peu sur l'Unicode.
-
Traitement statistique des textes. Analyse fréquentielle, modélisation.
-
Analyse lexicale. Expressions régulières, morphologie.
-
Correction orthographique. Coupure automatique des mots.
-
Grammaires et analyse syntaxique. Structuration et génération des "objets linguistiques"
-
À la recherche du sens. Analyse sémantique.
-
Information retrieval. Moteurs de recherche. Systèmes de dialogue.
Projets. L'année dernière on construisait des moteurs de recherche ; cette année il y aura probablement plus de travail sur les grammaires. [Mais cela peut changer].
On commencera probablement par les exercices très simples en statistique : répartition des fréquences des lettres dans un texte et leur visualisation. Ensuite on passera à l'analyse lexicale...
Je vous souhaite beaucoup de plaisir intellectuel dans cette option.