Lionel Tabourier
Vendredi 11 avril 2014 à 11h, salle 25-26/101
Au cours de cet exposé, je présenterai une méthode d’apprentissage supervisé pour la prédiction de liens dans les réseaux sociaux, et plus précisément pour détecter des liens qui n’ont pas été collectés lors de l’acquisition des données. Pour illustrer l’utilisation de la méthode, nous utilisons un CDR (Call Detail Record) portant sur environ 1 million d’utilisateurs de téléphone portable et simulons la situation dans laquelle se trouve un opérateur téléphonique: celui-ci a connaissance des appels entre ses clients, et entre ses clients et des clients de concurrents. Mais avoir accès aux interactions existant entre les clients de ses concurrents serait aussi avantageux, car le taux d’attrition est étroitement lié à la structure du réseau social d’un utilisateur. Cependant, cette tâche est difficile: il s’agit de prédire des relations non-observées, dans un contexte où les classes de prédiction sont fortement asymétriques: alors que beaucoup de liens sont possibles, peu existent. C’est pourquoi les méthodes non-supervisées classiques, qui utilisent différentes caractéristiques structurelles du réseau pour classer les paires de noeuds, sont peu performantes dans ce contexte. Je décrirai RankMerging, une méthode d’apprentissage supervisée simple et peu coûteuse computationnellement, qui agrège les classements issus de différentes sources d’information pour améliorer les performances de prédiction. L’opérateur apprend les paramètres en utilisant les données de ses propres clients et les utilise ensuite sur les clients de ses concurrents. La méthode est adaptée à la situation dans laquelle nous nous trouvons: nous ne cherchons pas à obtenir une très bonne précision sur un petit nombre de prédictions, mais plutôt un bon compromis sur une bonne partie de l’espace Precision-Recall, permettant à l’opérateur d’ajuster sa stratégie. Ensuite, je discuterai du cas des réseaux ego-centrés, pour lesquels l’utilisation de cet outil est pertinente. En effet, dans le cas où l’on n’a accès qu’aux interactions d’un noeud avec ses voisins immédiats, l’information structurelle est très pauvre et nous devrons donc chercher d’autres sources d’information puis les agréger. Ici, nous discuterons comment la temporalité des interactions peut être exploitée comme source d’information pour améliorer les performances de la prédiction.