ARDIS 10-4-cnrs
twitter custom website 

Bulletin d'information UPS 2259

focus |60

Février 2020

logo_bleu_bleu

Sommaire

Infos du mois
Jeudi du Campus
27 février 2020 - Conférence
Documentation AGH
CollEx-Persée : Outil de cartographie
Vie de l'unité
"Save the date!"
20 ans de l'unité
Catalogue AGH
Nouvelles acquisitions

Audiovisuel communication
Mise en Ligne :
Chris Ballard
Web informatique
Les plongements de mots (Word Embedding)
(4) : Word2Vec

Infos du mois

Jeudi du Campus - 27 février 2020 à 13 h 15 -
« Des immigrations asiatiques en France : histoire, mutations et nouveaux enjeux »

College-Image
En présence de Simeng Wang, sociologue au CERMES 3 :
Cette intervention vise à présenter l’histoire d’immigrations asiatiques en France (Chine, Vietnam, Cambodge, Laos) et leurs récentes évolutions. Au cours de ces dernières années, nous observons certains phénomènes émergents, accompagnés d’un tournant générationnel, au sein de ces populations asiatiques résidant notamment en Ile-de-France. De plus en plus de revendications politiques ont été formulées : lutte contre le racisme et la discrimination, lutte contre l’invisibilité des Asiatiques, volonté de participations politiques, etc. En même temps, foisonnent des témoignages et des écrits autobiographiques sur les vécus migratoires de familles asiatiques, sur les transmissions intergénérationnelles de la mémoire. A partir de ces nouveaux enjeux, cette présentation se propose de dresser un état des lieux de ces immigrations asiatiques en France.
Nous espérons vous voir nombreux dans la salle de conférence du bât. L, le jeudi 27 Février à 13H15

Vie de l'unité

"Save the date!"

En 2020, nous fêterons (déjà !) les 20 ans de l’UPS2259, ARDIS - Appui à la Recherche et Diffusion des Savoirs (ex-CLT - Cultures, Langues, Textes)
Les célébrations auront lieu le :
Mardi 22 septembre 2020
(date sous réserve)
L’UPS ARDIS étant tournée vers les unités de recherche, nous souhaitons les mettre au
centre de cette journée.
C’est pourquoi nous voulons vous associer à cet évènement mémorable.
Dans les semaines à venir, nous reprendrons contact avec vous afin de solliciter la collaboration de représentants de votre laboratoire.
Nous comptons sur votre participation et vous en remercions par avance ! »

Audiovisuel & Com'

Mise en ligne : Chris Ballard : « Indigenous Oral Traditions and Chronology »

Traditions orales autochtones et chronologie
Quelle profondeur historique peut atteindre l’histoire orale ? A travers le cas d’une pluie de cendres en Papouasie-Nouvelle Guinée (17e siècle), et celui d’une éruption volcanique au Vanuatu (15e siècle), Chris Ballard montre que c’est en tout cas bien davantage que la limite de 150 ans fixée par l’africaniste David Henige.
Mais en définitive, au lieu de vérifier que l’histoire orale autochtone est exacte au regard de nos chronologies occidentales, ne devons-nous pas plutôt chercher à la comprendre selon ses propres critères, et saisir ce que ses narrateurs visent à communiquer ?
ChrisBallard
https://www.canal-u.tv/video/cnrs_ups2259/chris_ballard_indigenous_oral_traditions_and_chronology.54593

Centre AGH

Étude pour un outil de cartographie documentaire et scientifique CollEx-Persée

Le GIS CollEx-Persée, groupement d’intérêt scientifique pour l’ac- quisition et la valorisation des collections documentaires d’excel- lence pour la Recherche, a mis
en ligne le 6 janvier 2020 les résultats d’une enquête copilotée par l’Abes et la BnF auprès des bibliothèques et des chercheurs sur leurs besoins potentiels en matière de cartographie documentaire et scientifique.
L’objectif d’un système de cartographie documentaire et scientifique est de déployer une cartographie dynamique croisant gisements documentaires et laboratoires de recherche, y associer des référentiels et en assurer le référencement sur le web.
L’enjeu principal de ce système serait de valoriser le concept de «fonds» en complément des catalogues, des bases de données bibliographiques ou des ressources électroniques existantes. Les «fonds» évoqués ici répondent à une définition très large : un ensemble de ressources dont la caractéristique commune est leur potentiel intérêt pour la communauté des chercheurs en SHS.
collex_persee
En prenant en compte les sources de données existantes, l’étude a permis de dégager trois
scénarii de mise en œuvre d’une cartographie des fonds :

- 1er scénario consisterait à adapter le Catalogue Collectif de France ( CCFr ) dans le cadre d’un projet de refonte complète du catalogue de la BnF,
- 2ème scénario : adapter l’application scanR pilotée par le ministère chargé de l’Enseignement supérieur et de la Recherche et proposant une cartographie «Recherche et Innovation» des laboratoires publics et des entreprises en France,
- 3ème scénario : adapter un nouvel outil indexant les données du Répertoire du CCFR et de scanR, sans modifier les interfaces de ces deux outils.
A suivre sur : https://www.collexpersee.eu/etude-pour-un-outil-de-cartographie-documentaire-et-scientifique-collex-persee/
Pour télécharger l'étude : https://www.collexpersee.eu/wp-content/uploads/2020/01/Cartographie-CollEx-Pers%C3%A9e-Synth%C3%A8se-Etude-site-web-janvier-2020.pdf

Catalogue AGH

Nouvelles acquisitions

Voici une sélection des documents reçus récemment au Centre et acquis par l’unité ou par les laboratoires partenaires.
nouvelles_acquisitions
N’hésitez pas à faire des propositions tout au long de l’année.

Web et informatique

Les plongements de mots (Word Embedding) (4) : Word2Vec

Dans cet article de focus, nous détaillons word2vec, une simple méthode itérative neuronale permettant d’apprendre des représentations vectorielles de mots. L’idée principale est d’entrainer un réseau de neurones simple avec une seule couche cachée pour effectuer une tâche. Mais, au lieu d’utiliser le réseau de neurone pour la tâche pour laquelle il a été entrainé, nous allons juste récupérer la matrice de poids de la couche cachée qui correspond aux vecteurs de mots. D’où l’intérêt de dissocier l’apprentissage des représentations de mots des modèles d’analyse de séquences en TAL comme le modèle du langage.

En effet, Word2vec consiste à un package logiciel contenant essentiellement deux algorithmes :
Continuos Bag-of-Words (CBOW) prédit un mot central à partir d’une séquence de mots (un contexte).
CBOW
Skip-gram prédit une distribution de mots
(contexte) à partir d’un mot central.

Skip_gram
Chaque réseau est composé donc d’une couche cachée (de taille généralement entre 300 et 1000) et d’une couche décisionnelle de sortie. Dans le cas d’un skip-gram, l’entrée de réseau est un vecteur « one-hot » qui correspond à un mot.
[0 0 0 0 0 0 0 0 0 0 0 0...0 1 0 0 0 0 0… 0]

Ce vecteur sera multiplié par la matrice de poids associée à la couche cachée. La sortie de cette dernière est le vecteur de mot (word-vector).
vecteur_world
La couche de sortie est une fonction d’activation softmax (régression) qui produira une distribution sur tout le vocabulaire. De ce fait, chaque mot aura un score entre 0 et 1 et la somme des valeurs de sortie sera égale à 1.
formule_informatique_exp
La couche cachée de ce réseau de neurones contient un nombre très important de poids. Par exemple, si le vocabulaire de votre corpus est de taille 10000, pour 300 dimensions, vous aurez une matrice de poids de 30 Millions d’éléments. La rétro-propagation sera lente et on aura besoin d’un énorme corpus d’apprentissage pour ajuster les poids. De ce fait, quelques astuces ont été mises en place, que nous les verrons lors de prochain focus, pour remédier à ces problèmes.
Se désincrire | Gérer votre inscription
ARDIS - Appui à la Recherche et Diffusion des Savoirs
UPS 2259 CNRS
7, rue Guy Môquet, 94801 Villejuif Cedex (France)
Tél : 01 49 58 38 04
Directeur de publication : Bernard Weiss
Responsable éditoriale : Céline Ferlita
Création graphique et mise en page :
Emmanuelle Seguin et Isabelle Michel
twitter custom website 
ARDIS 10-4-cnrs
MailPoet