|
Bulletin d'information UPS 2259
focus |63
Novembre 2020
|
|
|
|
|
|
|
Services de l’unité ARDIS - à l’écoute de vos demandes
|
|
|
|
|
Don Gilbert Lazard (Fonds LLACAN)
|
|
|
|
|
Audiovisuel communication
|
|
|
50 ans du Laboratoire d’Etudes sur les monothéismes !
|
|
|
|
|
|
|
Les plongements de mots (Word Embedding) (5)...
|
|
|
|
|
|
Les Services de l’unité « ARDIS » : à l’écoute de vos demandes
|
|
|
Durant cette nouvelle période de confinement, les services de l’unité ARDIS sont toujours à l’écoute de vos demandes.
|
|
|
|
|
|
Le centre de documentation
|
|
|
Durant la période de confinement partiel, le centre de documentation est ouvert : • les mardi et jeudi de 10h à 12h et de 13h à 16h30 ainsi que le mercredi de 10h à 12h.
De plus il est toujours possible de déposer les livre à retourner dans la boîte-à-livre située dans le couloir du rez-de-chaussée et de nous solliciter hors des horaires d’ouverture de la salle de lecture, soit par mail, soit en passant nous voir dans nos bureaux.
|
|
|
|
|
|
est ouvert tous les jours. Pour vos postes de travail (portables ou fixes), vous pouvez contacter Fabien Dugal comme d’habitude.
Projets et applications continuent, vous pouvez contacter Mourad Aouini ou Bernard Weiss par mail pour toute demande.
|
|
|
|
|
|
|
les tournages sont interrompus, mais les montages continuent. Vous pouvez contacter directement sa responsable, Céline Ferlita, par mail pour tous vos projets à venir (celine.ferlita@cnrs.fr).
|
|
|
|
Refonte sites vitrine et projets IST
|
|
|
Pour toutes vos demandes de refonte de sites web vitrines ou d’accompagnement de projets en IST, vous pouvez contacter : Corinne Brachet-Ducos par courriel (corinne.brachet-ducos@cnrs.fr).
Pour plus d’information sur les prestations offertes, vous pouvez visiter les pages correspondantes sur le bêta-site Web en cours de développement pour l’unité de service Ardis (ex- CLT) ici : https://ardis-ups2259.cnrs.fr/mediation-ist/ - ainsi que la présentation effectuée pour les 20 ans de l’unité en octobre 2020, en bas de la page : https://ardis-ups2259.cnrs.fr/mediation-ist/ conception-web/»
|
|
|
|
|
|
50 ans du Laboratoires d’Etudes sur les monothéismes !
|
|
|
Sur notre portail CANAL U, vous pouvez retrouver trois conférences, qui ont été données les 12 et 13 octobre 2020 à l’occasion du cinquantenaire du Laboratoires d’Etudes sur les monothéismes.
|
|
|
|
Bernard Outtier : l’étude des christianismes orientaux au CERL/LEM
|
|
|
|
|
|
|
Anne-Catherine Baudoin : cinquante ans de recherche sur les apocryphes
|
|
|
|
|
|
|
Pierluigi Piovanelli : De la sémiotique au néo-historisme. Le chantier des origines du christianisme à l’EPHE, au CANAL et au CERL/LEM (1972-2017)
|
|
|
|
|
|
|
|
Don Gilbert Lazard à la Bibliothèque AGH
(Fonds LLACAN)
|
|
|
|
|
Figure majeure des études iraniennes en France, linguiste mais aussi traducteur de poésie classique et de prose contemporaine, Gilbert Lazard fut le digne successeur d’Émile Benveniste à l’École pratique des hautes études (EPHE) et membre de l’Académie des Inscriptions et Belles-Lettres. Il a également collaboré aux travaux du laboratoire du LLACAN.
|
Gilbert Lazard a contribué à deux oeuvres majeures de la littérature persane, Le livre des rois de Ferdowsi et le Divan d’Hafez de Chiraz. Sa grammaire du persan contemporain, publiée en 1957 et rééditée en 2006, demeure un travail de référence pour la communauté des chercheurs travaillant sur le persan ; il a été traduit en anglais et en persan. Il en va de même de son dictionnaire persan-français, publié en 1990, réédité en 2017, indispensable à toute personne qui fait l’apprentissage du persan. Gilbert Lazard était également un éminent spécialiste des langues iraniennes anciennes (vieux-perse, pehlevi, avestique, sogdien) et un passionné de toutes les langues et parlers iraniens. Convaincu que la description des langues ne pouvait se faire sans s’interroger sur les spécificités du langage humain en général, il s’était très tôt intéressé à la linguistique générale, comme en témoignent ses nombreux articles et ouvrages, en particulier L’Actance, publié en 1994.
|
|
|
Le « don Lazard » au centre de documentation est constitué d’ouvrages en langues latines (français, anglais et allemand) sur la linguistique générale dont la valeur bibliophilique est non négligeable : elle réside dans la présence de nombreuses dédicaces et signatures faites par des spécialistes et collègues, iraniens, russes, tadjiks, arméniens, etc., qui souvent lui avaient offert ces ouvrages en témoignage de leur admiration et de leur amitié.
|
A voir : Exposition « Gilbert Lazard, un siècle d’études iraniennes » prolongée jusqu’au 24 décembre 2020 (Rez-de-jardin de la BULAC, accès sur réservation) conçue en collaboration avec le Centre de recherche sur le monde iranien (CeRMI), sous la responsabilité de Julie Duvigneau, maître de conférences en langue et littérature persanes à l’Inalco et membre du CeRMI.
|
|
|
|
|
Nouvelles acquisitions
Voici une sélection des documents reçus récemment au Centre et acquis par l’unité ou par les laboratoires partenaires.
|
|
|
N’hésitez pas à faire des propositions tout au long de l’année.
|
|
|
|
|
Les plongements de mots (Word Embedding) (5) : Word2Vec & Negative Sampling
|
|
|
Nous continuons cette série d’articles pour mettre en lumière quelques algorithmes et outils qui ont révolutionné le TAL moderne basé sur l’apprentissage profond.
|
Lors de notre dernier article sur les plongements de mots, nous avons exposé les deux algorithmes du package word2vec à savoir CBOW et Skip-gram qui permettent l’implémentation de la distribution sémantique. En effet, il s’agit d’un Réseau de Neurones (RN) à une seule couche qui permet de produire une représentation des mots dans un espace qui varie généralement entre 300 et 1000 dimensions.
|
La couche cachée de ce réseau de neurones contiendra donc un nombre très important de poids. Par exemple, si le vocabulaire de votre corpus est de taille 10000, pour 300 dimensions, vous aurez une matrice de poids de 30 millions d’éléments. Non seulement, on aura besoin d’un énorme corpus d’apprentissage pour ajuster les poids. Mais aussi pour chaque exemple du corpus, tous les poids du RN devront être légèrement ajustés. La phase d’apprentissage (la rétro-propagation) sera très lente et on perdra beaucoup en termes de précision. De ce fait, quelques astuces ont été mises en place pour remédier à ces problèmes. Une technique jugée très efficace est la « Negative Sampling » (échantillonnage négatif).
|
La « Negative Sampling » a donc pour objectif d’optimiser la performance et de gagner en précision en mettant à jour pour un seul échantillon du corpus « contextes et mot central », un petit pourcentage des poids du modèle plutôt que tous les poids du modèle.
|
Détaillons un peu avec un exemple pour simplifier : supposant que, dans notre corpus d’apprentissage, nous avons la paire de mots : « linguistique », « descriptive », le RN devrait produire « 1 » pour le neurone de sortie du mot « descriptive » et « 0 » pour les neurones de sorties de tout le vocabulaire du français. Pour cet exemple, le mot « descriptive » est considéré comme l’ensemble des « vrais », tandis que le reste du vocabulaire de la langue comme l’ensemble des « faux ». La « Negative Sampling » consiste à réduire l’ensemble des « faux » à quelques échantillons, donc à quelques mots.
|
En d’autres termes, choisir quelques mots qui constituent un faux échantillonnage avec le mot central « linguistique ». La « Negative Sampling » revient donc à un calcul qui nous permet de sélectionner ces mots.
|
En réalité, le choix de ces faux échantillons se fait aléatoirement. Les mots fréquents de la langue ont donc plus de chance d’être sélectionner. Cette probabilité peut être calculée par la simple équation suivante :
|
P(wi) = f(wi)/Σj=0f(wj) avec f la fréquence du mot dans le corpus.
|
L’originalité de cette technique résidant, selon Miklov et al. , 2013, dans le fait de trouver une variation de cette équation qui permet au mieux d’augmenter la probabilité des mots peu fréquents et de diminuer la probabilité des mots les plus fréquents. L’équation qui a le mieux fonctionné consiste à mettre le nombre de mots en puissance 3/4 :
|
P(wi) = f(wi)3/4/Σj=0f(wj)3/4.
|
|
|
|
|
UPS 2259 CNRS 7, rue Guy Môquet, 94801 Villejuif Cedex (France)
|
Tél : 01 49 58 38 04 Directeur de publication : Bernard Weiss
|
Responsable éditoriale : Céline Ferlita
|
Création graphique et mise en page :
|
Isabelle Michel et Corinne Brachet-Ducos
|
|
|
|
|
|