|
Bulletin d'information UPS 2259
focus |60
Février 2020
|
|
|
|
|
|
Jeudi du Campus 27 février 2020 - Conférence
|
|
|
|
|
|
CollEx-Persée : Outil de cartographie
|
|
|
|
|
"Save the date!" 20 ans de l'unité
|
|
|
|
|
Audiovisuel communication
|
|
|
Mise en Ligne : Chris Ballard
|
|
|
|
|
|
Les plongements de mots (Word Embedding) (4) : Word2Vec
|
|
|
|
|
|
Jeudi du Campus - 27 février 2020 à 13 h 15 - « Des immigrations asiatiques en France : histoire, mutations et nouveaux enjeux »
|
|
|
En présence de Simeng Wang, sociologue au CERMES 3 : Cette intervention vise à présenter l’histoire d’immigrations asiatiques en France (Chine, Vietnam, Cambodge, Laos) et leurs récentes évolutions. Au cours de ces dernières années, nous observons certains phénomènes émergents, accompagnés d’un tournant générationnel, au sein de ces populations asiatiques résidant notamment en Ile-de-France. De plus en plus de revendications politiques ont été formulées : lutte contre le racisme et la discrimination, lutte contre l’invisibilité des Asiatiques, volonté de participations politiques, etc. En même temps, foisonnent des témoignages et des écrits autobiographiques sur les vécus migratoires de familles asiatiques, sur les transmissions intergénérationnelles de la mémoire. A partir de ces nouveaux enjeux, cette présentation se propose de dresser un état des lieux de ces immigrations asiatiques en France. Nous espérons vous voir nombreux dans la salle de conférence du bât. L, le jeudi 27 Février à 13H15
|
|
|
|
|
"Save the date!"
En 2020, nous fêterons (déjà !) les 20 ans de l’UPS2259, ARDIS - Appui à la Recherche et Diffusion des Savoirs (ex-CLT - Cultures, Langues, Textes) Les célébrations auront lieu le : Mardi 22 septembre 2020 (date sous réserve) L’UPS ARDIS étant tournée vers les unités de recherche, nous souhaitons les mettre au
|
|
|
centre de cette journée. C’est pourquoi nous voulons vous associer à cet évènement mémorable. Dans les semaines à venir, nous reprendrons contact avec vous afin de solliciter la collaboration de représentants de votre laboratoire. Nous comptons sur votre participation et vous en remercions par avance ! »
|
|
|
|
|
Mise en ligne : Chris Ballard : « Indigenous Oral Traditions and Chronology »
|
|
|
Traditions orales autochtones et chronologie Quelle profondeur historique peut atteindre l’histoire orale ? A travers le cas d’une pluie de cendres en Papouasie-Nouvelle Guinée (17e siècle), et celui d’une éruption volcanique au Vanuatu (15e siècle), Chris Ballard montre que c’est en tout cas bien davantage que la limite de 150 ans fixée par l’africaniste David Henige.
|
|
|
Mais en définitive, au lieu de vérifier que l’histoire orale autochtone est exacte au regard de nos chronologies occidentales, ne devons-nous pas plutôt chercher à la comprendre selon ses propres critères, et saisir ce que ses narrateurs visent à communiquer ?
|
|
|
|
|
|
|
|
Étude pour un outil de cartographie documentaire et scientifique CollEx-Persée
|
|
|
Le GIS CollEx-Persée, groupement d’intérêt scientifique pour l’ac- quisition et la valorisation des collections documentaires d’excel- lence pour la Recherche, a mis
|
en ligne le 6 janvier 2020 les résultats d’une enquête copilotée par l’Abes et la BnF auprès des bibliothèques et des chercheurs sur leurs besoins potentiels en matière de cartographie documentaire et scientifique.
|
L’objectif d’un système de cartographie documentaire et scientifique est de déployer une cartographie dynamique croisant gisements documentaires et laboratoires de recherche, y associer des référentiels et en assurer le référencement sur le web.
|
L’enjeu principal de ce système serait de valoriser le concept de «fonds» en complément des catalogues, des bases de données bibliographiques ou des ressources électroniques existantes. Les «fonds» évoqués ici répondent à une définition très large : un ensemble de ressources dont la caractéristique commune est leur potentiel intérêt pour la communauté des chercheurs en SHS.
|
|
|
|
En prenant en compte les sources de données existantes, l’étude a permis de dégager trois
|
scénarii de mise en œuvre d’une cartographie des fonds :
|
- 1er scénario consisterait à adapter le Catalogue Collectif de France ( CCFr ) dans le cadre d’un projet de refonte complète du catalogue de la BnF,
|
|
- 2ème scénario : adapter l’application scanR pilotée par le ministère chargé de l’Enseignement supérieur et de la Recherche et proposant une cartographie «Recherche et Innovation» des laboratoires publics et des entreprises en France,
|
- 3ème scénario : adapter un nouvel outil indexant les données du Répertoire du CCFR et de scanR, sans modifier les interfaces de ces deux outils.
|
|
|
|
|
|
Nouvelles acquisitions
Voici une sélection des documents reçus récemment au Centre et acquis par l’unité ou par les laboratoires partenaires.
|
|
|
N’hésitez pas à faire des propositions tout au long de l’année.
|
|
|
|
|
Les plongements de mots (Word Embedding) (4) : Word2Vec
|
Dans cet article de focus, nous détaillons word2vec, une simple méthode itérative neuronale permettant d’apprendre des représentations vectorielles de mots. L’idée principale est d’entrainer un réseau de neurones simple avec une seule couche cachée pour effectuer une tâche. Mais, au lieu d’utiliser le réseau de neurone pour la tâche pour laquelle il a été entrainé, nous allons juste récupérer la matrice de poids de la couche cachée qui correspond aux vecteurs de mots. D’où l’intérêt de dissocier l’apprentissage des représentations de mots des modèles d’analyse de séquences en TAL comme le modèle du langage.
|
En effet, Word2vec consiste à un package logiciel contenant essentiellement deux algorithmes :
|
|
|
|
Continuos Bag-of-Words (CBOW) prédit un mot central à partir d’une séquence de mots (un contexte).
|
|
|
Skip-gram prédit une distribution de mots (contexte) à partir d’un mot central.
|
|
|
|
|
Chaque réseau est composé donc d’une couche cachée (de taille généralement entre 300 et 1000) et d’une couche décisionnelle de sortie. Dans le cas d’un skip-gram, l’entrée de réseau est un vecteur « one-hot » qui correspond à un mot.
|
[0 0 0 0 0 0 0 0 0 0 0 0...0 1 0 0 0 0 0… 0]
|
Ce vecteur sera multiplié par la matrice de poids associée à la couche cachée. La sortie de cette dernière est le vecteur de mot (word-vector).
|
|
|
La couche de sortie est une fonction d’activation softmax (régression) qui produira une distribution sur tout le vocabulaire. De ce fait, chaque mot aura un score entre 0 et 1 et la somme des valeurs de sortie sera égale à 1.
|
|
|
La couche cachée de ce réseau de neurones contient un nombre très important de poids. Par exemple, si le vocabulaire de votre corpus est de taille 10000, pour 300 dimensions, vous aurez une matrice de poids de 30 Millions d’éléments. La rétro-propagation sera lente et on aura besoin d’un énorme corpus d’apprentissage pour ajuster les poids. De ce fait, quelques astuces ont été mises en place, que nous les verrons lors de prochain focus, pour remédier à ces problèmes.
|
|
|
|
|
UPS 2259 CNRS 7, rue Guy Môquet, 94801 Villejuif Cedex (France)
|
Tél : 01 49 58 38 04 Directeur de publication : Bernard Weiss
|
Responsable éditoriale : Céline Ferlita Création graphique et mise en page :
|
Emmanuelle Seguin et Isabelle Michel
|
|
|
|
|