ARDIS 10-4-cnrs
twitter custom website 

Bulletin d'information UPS 2259

focus |63

Novembre 2020

logo_bleu_bleu

Sommaire

Infos du mois
Services de l’unité
ARDIS - à l’écoute de vos demandes
Documentation AGH
Don Gilbert Lazard
(Fonds LLACAN)
Audiovisuel communication
50 ans du Laboratoire d’Etudes sur les
monothéismes !
Catalogue AGH
Nouvelles acquisitions
Web informatique
Les plongements de mots
(Word Embedding) (5)...

Infos du mois

Les Services de l’unité « ARDIS » : à l’écoute de vos demandes

Durant cette nouvelle période de confinement, les services de l’unité ARDIS sont toujours à l’écoute de vos demandes.
focu63-nov2020_image1
Le centre de documentation
Durant la période de confinement partiel, le centre de documentation est ouvert :
• les mardi et jeudi de 10h à 12h et de 13h à 16h30 ainsi que le mercredi de 10h à 12h.

De plus il est toujours possible de déposer les livre à retourner dans la boîte-à-livre située dans le couloir du rez-de-chaussée et de nous solliciter hors des horaires d’ouverture de la salle de lecture, soit par mail, soit en passant nous voir dans nos bureaux.
focu63-nov2020_image2
Le service informatique
est ouvert tous les jours. Pour vos postes de travail (portables ou fixes), vous pouvez contacter Fabien Dugal comme d’habitude.

Projets et applications continuent, vous pouvez contacter Mourad Aouini ou Bernard Weiss par mail pour toute demande.
focu63-nov2020_image4
Pour l’audiovisuel
les tournages sont interrompus, mais les montages continuent.
Vous pouvez contacter directement sa responsable, Céline Ferlita, par mail pour tous vos projets à venir (celine.ferlita@cnrs.fr).
focu63-nov2020_image5
Refonte sites vitrine et projets IST
Pour toutes vos demandes de refonte de sites web vitrines ou d’accompagnement de projets en IST, vous pouvez contacter : Corinne Brachet-Ducos par courriel (corinne.brachet-ducos@cnrs.fr).

Pour plus d’information sur les prestations offertes, vous pouvez visiter les pages correspondantes sur le bêta-site Web en cours de développement pour l’unité de service Ardis (ex- CLT) ici :
https://ardis-ups2259.cnrs.fr/mediation-ist/
- ainsi que la présentation effectuée pour les 20
ans de l’unité en octobre 2020, en bas de la page :
https://ardis-ups2259.cnrs.fr/mediation-ist/
conception-web/»

Service Audiovisuel

50 ans du Laboratoires d’Etudes sur les monothéismes !

Sur notre portail CANAL U, vous pouvez retrouver trois conférences, qui ont été données les 12 et 13 octobre 2020 à l’occasion du cinquantenaire du Laboratoires d’Etudes sur les monothéismes.
Bernard Outtier : l’étude des christianismes orientaux au CERL/LEM
Outtier_film1
Bernard Outtier, spécialiste des langues et littératures du Proche-Orient et du Caucase, en particulier d’arménologie, pose un regard rétrospectif sur l’histoire d’un des axes historiques du laboratoire, l’étude des christianismes orientaux.
https://www.canal-u.tv/video/cnrs_ups2259/bernard_outtier_les_christianismes_orientaux.58053
Anne-Catherine Baudoin : cinquante ans de recherche sur les apocryphes
apocryphes_film2
Anne-Catherine Baudoin retrace cinquante ans de recherches sur les apocryphes, dont un des pôles fut indéniablement constitué à l’École pratique des hautes études par les membres du CERL/LEM. Elle a montré comment, sous l’impulsion de chercheurs français et suisses, les études étaient passées d’une définition restrictive des « apocryphes du Nouveau Testament » à la définition extensive d’« écrits apocryphes chrétiens » – des textes qui nourrissent la tradition chrétienne de l’Antiquité à nos jours.
https://www.canal-u.tv/video/cnrs_ups2259/anne_catherine_baudoin_des_apocryphes_au_nouveau_testament_aux_ecrits_apocryphes_chretiens.58087
Pierluigi Piovanelli : De la sémiotique au néo-historisme. Le chantier des origines du christianisme à l’EPHE, au CANAL et au CERL/LEM (1972-2017)
Piovanelli_film3
Pierluigi Piovanelli s’intéresse ici à quelques grandes figures de chercheurs qui ont marqué l’histoire du laboratoire et celle des recherches sur l’origine du christianisme, en particulier Pierre
Geoltrain, Jean-Claude Picard, Francis Schmidt, Simon Mimouni, animés par la même passion pour l’étude des textes dits « apocryphes » de la littérature juive et chrétienne ancienne.
https://www.canal-u.tv/video/cnrs_ups2259/pierluigi_piovanelli_de_la_semiotique_au_neo_historisme_le_chantier_des_origines_du_christianisme_a_l_ephe_au_canal_et_au_cerl_lem_1972_2017.58085

Centre AGH

Don Gilbert Lazard à la Bibliothèque AGH

(Fonds LLACAN)

focu63-nov2020_image6
Figure majeure des études iraniennes en France, linguiste mais aussi traducteur de poésie classique et de prose contemporaine, Gilbert Lazard fut le digne successeur d’Émile Benveniste
à l’École pratique des hautes études (EPHE) et membre de l’Académie des Inscriptions et Belles-Lettres. Il a également collaboré aux travaux du laboratoire du LLACAN.

Gilbert Lazard a contribué à deux oeuvres majeures de la littérature persane, Le livre des rois de Ferdowsi et le Divan d’Hafez de Chiraz. Sa
grammaire du persan contemporain, publiée en 1957 et rééditée en 2006, demeure un travail de référence pour la communauté des chercheurs travaillant sur le persan ; il a été traduit en anglais
et en persan. Il en va de même de son dictionnaire persan-français, publié en 1990, réédité en 2017, indispensable à toute personne qui fait l’apprentissage du persan. Gilbert Lazard était également un éminent spécialiste des langues iraniennes anciennes (vieux-perse, pehlevi, avestique, sogdien) et un passionné de toutes les langues et parlers iraniens. Convaincu que la description des langues ne pouvait se faire sans s’interroger sur les spécificités du langage humain en général, il s’était très tôt intéressé à la linguistique générale, comme en témoignent ses nombreux articles et ouvrages, en particulier L’Actance, publié en 1994.
Le « don Lazard » au centre de documentation est constitué d’ouvrages en langues latines (français, anglais et allemand) sur la linguistique générale dont la valeur bibliophilique est non négligeable :
elle réside dans la présence de nombreuses dédicaces et signatures faites par des spécialistes et collègues, iraniens, russes, tadjiks, arméniens, etc., qui souvent lui avaient offert ces ouvrages en
témoignage de leur admiration et de leur amitié.

Accéder aux ouvrages de Gilbert Lazard dans notre catalogue :
http://koha.ups2259.vjf.cnrs.fr/cgi-bin/
koha/opac-search.pl?idx=au%2Cwrdl&q=lazard%
2C+gilbert&idx=kw&idx=kw&do=Rechercher&
sort_by=title_az

Accéder au don de Gilbert Lazard dans le fonds
LLACAN :
http://koha.ups2259.vjf.cnrs.fr/cgi-bin/koha/opac-search.pl?idx=kw&q=don+G.+Lazard&idx=kw&idx=kw&limit=branch%3ALLACAN&sort_by=title_az&do=Rechercher%0D

A voir : Exposition « Gilbert Lazard, un siècle d’études iraniennes » prolongée jusqu’au 24 décembre 2020 (Rez-de-jardin de la BULAC, accès
sur réservation) conçue en collaboration avec le Centre de recherche sur le monde iranien (CeRMI), sous la responsabilité de Julie Duvigneau, maître de conférences en langue et littérature persanes à l’Inalco et membre du CeRMI.

Catalogue AGH

Nouvelles acquisitions

Voici une sélection des documents reçus récemment au Centre et acquis par l’unité ou par les laboratoires partenaires.
focu63-nov2020_image7
N’hésitez pas à faire des propositions tout au long de l’année.

Web et informatique

Les plongements de mots (Word Embedding) (5) :
Word2Vec & Negative Sampling

Nous continuons cette série d’articles pour mettre en lumière quelques algorithmes et outils qui ont révolutionné le TAL moderne basé sur l’apprentissage profond.

Lors de notre dernier article sur les plongements de mots, nous avons exposé les deux algorithmes du package word2vec à savoir CBOW et Skip-gram qui permettent l’implémentation de la distribution sémantique. En effet, il s’agit d’un Réseau de Neurones (RN) à une seule couche qui permet de produire une représentation des mots dans un espace qui varie généralement entre 300 et 1000 dimensions.

La couche cachée de ce réseau de neurones contiendra donc un nombre très important de poids. Par exemple, si le vocabulaire de votre corpus est de taille 10000, pour 300 dimensions, vous aurez une matrice de poids de 30 millions d’éléments. Non seulement, on aura besoin d’un énorme corpus d’apprentissage pour ajuster les poids. Mais aussi pour chaque exemple du corpus, tous les poids du RN devront être légèrement ajustés. La phase d’apprentissage (la rétro-propagation) sera très lente et on perdra beaucoup en termes de précision. De ce fait, quelques astuces ont été mises en place pour remédier à ces problèmes. Une technique jugée très efficace est la « Negative Sampling » (échantillonnage négatif).

La « Negative Sampling » a donc pour objectif d’optimiser la performance et de gagner en précision en mettant à jour pour un seul échantillon du corpus « contextes et mot central », un petit pourcentage des poids du modèle plutôt que tous les poids du modèle.

Détaillons un peu avec un exemple pour simplifier : supposant que, dans notre corpus d’apprentissage, nous avons la paire de mots : « linguistique », « descriptive », le RN devrait produire « 1 » pour le neurone de sortie du mot « descriptive » et « 0 » pour les neurones de sorties de tout le vocabulaire du français.
Pour cet exemple, le mot « descriptive » est considéré comme l’ensemble des « vrais », tandis que le reste du vocabulaire de la langue comme l’ensemble des « faux ». La « Negative Sampling » consiste à réduire l’ensemble des « faux » à quelques échantillons, donc à quelques mots.

En d’autres termes, choisir quelques mots qui constituent un faux échantillonnage avec le mot central « linguistique ». La « Negative Sampling » revient donc à un calcul qui nous permet de sélectionner ces mots.

En réalité, le choix de ces faux échantillons se fait aléatoirement. Les mots fréquents de la langue ont donc
plus de chance d’être sélectionner. Cette probabilité peut être calculée par la simple équation suivante :

P(wi) = f(wi)/Σj=0f(wj) avec f la fréquence du mot dans le corpus.

L’originalité de cette technique résidant, selon Miklov et al. , 2013, dans le fait de trouver une variation de cette équation qui permet au mieux d’augmenter la probabilité des mots peu fréquents et de diminuer la probabilité des mots les plus fréquents. L’équation qui a le mieux fonctionné consiste à mettre le nombre de mots en puissance 3/4 :

P(wi) = f(wi)3/4/Σj=0f(wj)3/4.
Se désincrire | Gérer votre inscription
ARDIS - Appui à la Recherche et Diffusion des Savoirs
UPS 2259 CNRS
7, rue Guy Môquet, 94801 Villejuif Cedex (France)
Tél : 01 49 58 38 04
Directeur de publication : Bernard Weiss
Responsable éditoriale : Céline Ferlita
Création graphique et mise en page :
Isabelle Michel et Corinne Brachet-Ducos
twitter custom website 
ARDIS 10-4-cnrs
MailPoet