Organisation du graphe de développement logiciel pour l'analyse à grande échelle
Organizing the graph of public software development for large-scale mining
par Antoine PIETRI sous la direction de Stefano ZACCHIROLI
Thèse de doctorat en Informatique
ED 386 Sciences Mathematiques de Paris Centre

Soutenue le vendredi 05 novembre 2021 à Université Paris Cité

Sujets
  • Bases de données -- Gestion
  • Code source (informatique)
  • Génie logiciel
  • Information électronique -- Conservation
  • Logiciels libres
  • Représentations de graphes

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

TEL (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Génie logiciel empirique, Logiciel open-Source, Système de gestion de version, Conservation numérique, Topologie de graphe, Compression de graphe
Resumé
Software Heritage est une archive de logiciels contenant la plus grande collection publique de fichiers de code source ainsi que l'historique de leur développement, sous la forme d'un immense graphe de centaines de milliards d'arêtes. Dans cette thèse, nous présentons des techniques architecturales pour rendre ce graphe disponible à des fins de recherche. Nous proposons d'abord quelques utilitaires pour accéder aux données à un niveau local d'une manière adaptée à la recherche à petite échelle. Pour effectuer des analyses sur l'ensemble de l'archive, nous extrayons un graphe de propriétés dans un format relationnel et évaluons différents systèmes de traitement pour exploiter ces données. Cette approche est adaptée au traitement de grandes quantités de données horizontales, mais elle présente des limites inhérentes à la structure fortement récursive du graphe. Nous proposons d'utiliser la compression de graphe comme moyen de réduire considérablement la taille du graphe, ce qui nous permet de le charger en mémoire vive. Nous développons une bibliothèque pour exécuter des algorithmes arbitraires sur le graphe compressé, en utilisant des techniques de mise en correspondance de ses propriétés au niveau des noeuds et des arêtes. Nous utilisons ensuite cette infrastructure pour étudier la topologie locale du graphe ainsi que son organisation en forks de projets. Comprendre cette structure nous permet ensuite d'évaluer expérimentalement différentes approches d'analyse distribuée.