Le séminaire de l'équipe ComplexNetworks est un rendez-vous bi-mensuel
organisé au sein du laboratoire LIP6. Des indications sur
l'accès au site de Jussieu sont disponibles ici.
Pour s'inscrire à la liste de
diffusion, contacter
Fabien Tarissan.
Exposés à venir :
Anciens exposés :
Optimal routing in a hyperbolically mapped Internet
07 juillet 2010
We establish a connection between the scale-free topology of complex networks, and the hyperbolic geometry of hidden metric spaces underlying these networks. Given a hyperbolic space, networks topologies with scale-free degree distributions and strong clustering naturally emerge on top of the space as topological reflections of its hyperbolic geometry. Conversely, for any scale-free network with strong clustering, there is an effective hyperbolic space underlying the network. The underlying hyperbolic geometry enables greedy routing with optimal efficiency. Greedy routing does not require any global information about network topology to navigate the network. At each hop, greedy routing selects as the next hop the current hop neighbor closest to the destination in the underlying hyperbolic space. We show that in complex networks mapped to their hyperbolic spaces, greedy routing always succeeds reaching the destination, following the topologically shortest paths. Furthermore, we show that even without re-mapping the network or changing any node coordinates, this navigation efficiency is remarkably robust with respect to rapid network dynamics, and catastrophic levels of network damage. We map the real Internet AS-level topology to its hyperbolic space, and find that greedy routing using this map exhibits similar efficiency. These results effectively deliver a solution for Internet interdomain routing with theoretically best possible scaling properties. Not only routing table sizes and stretch are as small as possible, but also routing communication overhead is reduced to zero.
Clustering of Software Classes at Execution and Its Implications
17 juin 2010
We present a study on clustering of software classes based on software execution data, which offers a dynamic, hence more realistic, perspective to the understanding of software structure and the evaluation and improvement of the existing architectural design. The approach first uses association rule mining to extract low-level class relations in object-oriented software. The mining results are then processed by hypergraph-based clustering to identify an optimal set of high-level clusters of classes that have relatively high cohesion within and low coupling between them. It is also shown that such clusters are actually unique. The identified clusters can be seen as execution components of the software, which represents the effect, rather than the intention of the existing design. Two case studies are presented to demonstrate the application of our approach. Relevant concepts in complex network are also introduced to interpret the findings of this study
Réseaux sociaux: une analyse centrée sur l'individu
10 juin 2010
Pour le développement des services ou le marketing, la connaissance des utilisateurs (des plateformes sociales en ligne, du téléphone mobile, fixe etc.) est très importante. Pour améliorer cette connaissance, on peut analyser les usages, collecter des données socio-démographiques ou étudier les réseaux sociaux modélisant les relations entre les utilisateurs. Dans cet exposé je présenterai une méthode permettant de caractériser chaque individu en utilisant le réseau social auquel il est connecté. Après avoir obtenu une caractérisation de chaque personne, on peut alors mesurer les corrélations avec d'autres indicateurs liés à l'individu. Je présenterai la comparaison de cette caractérisation prenant en compte le réseau social avec des indicateurs de popularité en ligne sur MySpace et de fréquence de communication par téléphone mobile.
Detecting Non-Cooperative User Behavior in Online Social Networks
10 juin 2010
A number of online video social networks, out of which YouTube
is the most popular, provides features that allow users to post a
video as a response to a discussion topic. These features open
opportunities] for users to introduce polluted content into the system.
For instance, spammers may post an unrelated video as response to a
popular one aiming at increasing the likelihood of the response being
viewed by a larger number of users. Moreover, opportunistic users -
promoters - may try to gain visibility to a specific video by posting a
large number of (potentially unrelated) responses to boost the rank of the
responded video, making it appear in the top lists maintained by the
system. In this talk, I will present some of our initial results on
detecting spammers and content promoters on YouTube. Our study is based on
a characterization of several properties associated with YouTube users as
well as the use of state-of-the-art classification algorithms.
Définition et détection de motifs locaux dans les graphes biologiques
25 mai 2010
Une approche classique d'analyse statistique des réseaux biologiques est de déterminer les motifs de ces réseaux, c'est-à-dire les sous-graphes dont le nombre d'occurrences dans le réseau est significativement plus élevé que dans un modèle aléatoire, l'idée directrice étant que leur présence en sur-nombre indique une sélection positive au cours de l'évolution. Cependant, les méthodes existantes se réfèrent à une sur-représentation dans l'ensemble du graphe alors qu'il est connu que les motifs ayant un intérêt biologique ont tendance à s'agglomérer en certaines régions du graphe.
Je définirai la notion de motif local et développerai les trois aspects que nécessite leur détection:
- le modèle de réseaux aléatoires sous-jacent
- le problème de comptage du nombre d'occurences d'un sous-graphe dans un réseau
- la mise au point d'une statistique permettant de décider si un sous-graphe est sur-représenté
Enfin, je développerai l'application de la méthode au réseau de régulation de la levure.
Research networks and urban dynamics in Europe
29 avril 2010
Cities concentrate economic activities, information, power and people in
both quantitative and qualitative ways. Cities are also nodes of
networks of complex interconnection. In Europe, the construction of a
large supranational entity results spatially in the multiplication and
the intensification of the relations between politically unified
countries. The majority of these relations pass through cities. Then
very complex links underpin the European system of cities and
understanding them is critical to understanding the interdependencies in
the system.
In this talk, the interconnection of the European national urban systems
is studied by analysing knowledge spillovers which flow between the
European cities. Knowledge spillovers are considered as an input and
also an output of the innovation process.
For the analysis, I consider networks created by collaborative research
in European funded research and technology development projects
dedicated to converging technologies. Data come from the EC database
CORDIS RTD-PROJECTS drawn from the 2nd to the 6th European Framework
Programmes (1986 to 2006).
Application du paradigme pair-à-pair à la gestion de systèmes distribués
15 avril 2010
Le paradigme « pair-à-pair » (ou P2P, pour peer-to-peer) s’oppose au
paradigme « client-serveur ». Dans un système pair-à-pair dont les
utilisateurs partagent un ensemble de ressources, telles que des fichiers
ou des ressources de calcul, tous jouent le même rôle. En particulier,
chaque utilisateur peut agir comme serveur pour certains pairs, et comme
client pour d’autres. Plusieurs méthodes de publication et de recherche de
ressources ont été proposées pour les systèmes P2P. Parmi ces
propositions, les tables de hachage distribuées (ou DHT, pour Distributed
Hash Table) se basent sur un plongement des ressources et des utilisateurs
dans un même espace métrique, appelé espace des clés. Cette espace
possède une structure permettant le routage, sur lequel peut construire
les fonctions de publications et de recherches.
En effet, les réseaux P2P peuvent être utilisés comme support de diffusion
multimédia. La fonctionnalité de multicast n’ayant pas encore été déployée à grande échelle dans l’Internet au niveau IP, plusieurs propositions visent à promouvoir le déploiement de procédures de multicast au niveau applicatif, par exemple dans un réseau logique P2P.
Je parlerai dans un premier temps de la mise en marche du protocole P2P
D2B : gestion de la dynamicité du réseau, des joints et départs en même
temps, de la tolérance aux pannes. Ensuite, je présenterai de trois
méthodes d’équilibrage de charge dans les réseaux P2P basés sur les
graphes de De Bruijn. Enfin, je décrirai un algorithme multicast:
Tree-Farm, basés sur l’ensemble des arbres nœuds intérieurs disjoints.
Nous avons montré que, dans le cas des systèmes P2P utilisant la topologie
des graphes de De Bruijn, Tree-Farm atteignait une meilleure bande
passante (pour un taux de perte nul) que l’algorithme BFS utilisant un
seul arbre multicast enraciné en la source ou que l’algorithme
PrefixStream [L. Viennot et A. T. Gai - ICON2006].
What does spectral analysis tell us about the global structure of a network? Some case studies in linguistic networks
09 avril 2010
One of the very important aspect of studying any complex network is to characterize and describe its global structure, which, by definition, is too complex to be described in terms of simple statistics. Traditionally aggregate statistics of certain local properties, such as degree distribution, assortatitivity, and clustering coefficient are used to characterize the topology of the network, but these statistics do not capture the global structure of a network. In this talk, I shall describe how the spectrum of a network (i.e., the eigenvalues and eigenvectors of the adjacency matrix of the network or its Laplacian) provides us with valuable insight into the global structure of the network and therefore, the underlying physical processes generating it. I will take the following three case studies from the domain of language to illustrate this: (a) the co-occurrence networks of words, (b) the networks of syntactic and semantic similarity of the distribution of words, and (c) the co-occurrence network of phonemes (PhoNet).
Spatial organisation of large networks
08 avril 2010
Most transportation networks are embedded in space and consequently,
their topology is not independent from spatial constraints. In particular, these constraints can induce a hierarchical organization with hubs controlling specific regions of space, non-trivial correlations between the weights, the connectivity pattern and the actual spatial distances of vertices, and the emergence of anomalous fluctuations in the betweenness-degree correlation function. In this talk I will illustrate these effects both from an empirical and modeling point of view, with various examples ranging from the large scale air travel network to smaller scales of inter- and intra- cities transportation networks.
Gephi 0.7 - Modular Architecture for a Large Network Visualization Software
25 mars 2010
In this practical talk, I will present 0.7 version of Gephi, open-source graph visualization & manipulation software. Gephi possesses a complete set of network visualization and analysis features, proposes major innovations in dynamic and hierarchical graphs and above all is a flexible and extensible architecture for plugins. I will firstly sum up embedded features: Layout, Metrics, Ranking, Filters, Partition, Preview, Clustering, DataLab. Then, I will present and discuss dynamic and hierarchical graphs features and roadmaps while showing live demo. Afterwards, I will outline our approach by presenting the Gephi project, some insights about performance and the various possibilities of using and extending Gephi in the way scientists and engineers can rely on. To conclude I will speak about plugin development and show how to create a plugin in five minutes.
Extracting Intra-Domain Topology from mrinfo Probing
11 mars 2010
Active and passive measurements for topology discovery have
known an impressive growth during the last decade. If a lot of work has
been done regarding inter-domain topology discovery and modeling, only
a few papers raise the question of how to extract intra-domain topologies
from measurements results.
In this paper, based on a large dataset collected with mrinfo, a multicast
tool that silently discovers all interfaces of a router, we provide a
mechanism for retrieving intra-domain topologies. The main challenge is
to assign an AS number to a border router whose IP addresses are not
mapped to the same AS. Our algorithm is based on probabilistic and empirical
IP allocation rules. The goal of our pool of rules is to converge to
a consistent router to AS mapping. We show that our router-to-AS algorithm
results in a mapping in more than 99% of the cases. Furthermore,
with mrinfo, point-to-point links between routers can be distinguished
from multiple links attached to a switch, providing an accurate view of
the collected topologies. Finally, we provide a set of large intra-domain
topologies in various formats.
Unsupervised host behavior classification from connection patterns
04 mars 2010
Dans un but de classification du trafic émis par des ordinateurs via
internet mais aussi de détection des anomalies de trafic, une méthode
de caractérisation des communications d'ordinateurs est étudiée.
Un espace de représentation des motifs de connexions de chaque
ordinateur est étudié en ce qu'il représente le trafic échangé, la
dispersion de ce trafic, la connectivité de l'ordinateur. On montrera
que cette représentation permet par exemple de quantifier plus
finement les graphlets empiriques utilisés par la méthode BLINC
(Karagiannis et al. 2005). Cette représentation du trafic échangé
permet alors de mettre en place une classification non supervisée
du trafic internet par une approches de classification par
MST (Minimum Spanning Tree), sur des liens backbones
et sans disposer du contenu des paquets ni du trafic bidirectionnel
(ici validé sur le trafic backbone d'un lien transpacifique opéré par
WIDE, Japon).
Diffusions et cascades dans les graphes aléatoires
25 février 2010
Nous introduisons un modèle de diffusion qui généralise à la fois le processus de contact et la percolation 'bootstrap'. Nous analysons ce processus sur des graphes aléatoires dilués. Ceci nous permet de retrouver des résultats connus (taille de la composante géante, seuil de percolation) et nouveaux (condition de cascade, impact de différentes vaccinations). Les preuves reposent sur des idées de couplages développées récemment par Janson et Luczak.
Active learning on networks : you must label all nodes. You can ask the true labels of 42 nodes. Choose wisely.
28 janvier 2010
In many networks, vertices have hidden attributes that are correlated with the network’s topology. For instance, in social networks, people are more likely to be friends if they are demographically similar. In food webs, predators typically eat prey of lower body mass. We explore a setting in which the network’s topology is known, but these attributes are not. If each vertex can be queried, learning the value of its hidden attributes — but only at some cost — then we need an algorithm which chooses which vertex
to query next, in order to learn as much as possible about the attributes of the remaining vertices. We assume that the network is generated by a
probabilistic model, but we make no assumptions about the assortativity or
disassortativity of the network. We then query the vertex with the largest mutual information between its type and that of the others (a well-known approach in active learning) or with the largest average agreement between two independent samples of the Gibbs distribution which agree on its type.
We test these approaches on two networks with known attributes, the
Karate Club network and a food web of species in the Weddell Sea. In several cases, we found that the average agreement algorithm performs better than mutual information, and both perform better than simpler heuristics. The algorithms appear to explore
the network intelligently, first querying vertices at the centers of
communities, and then vertices along the boundaries between communities.
Looking into the surround of contacts in intermittently-connected wireless networks
14 janvier 2010
In this talk, we will discuss some preliminary work on the spatial characterization of intermittently-connected wireless networks. The motivation is that the literature has focused almost exclusively on the temporal aspect of contacts and inter-contacts between nodes. Furthermore, it is frequently assumed that contacts have infinite capacity, which is a too strong consideration especially in wireless networks. We propose the surround indicator as a metric to exhibit the spatial dimension of contacts in opportunistic networks. This metric can be used for example as a measure of potential interference that a contact might undergo or to understand the validity of forwarding strategies like betweenness centrality. We evaluate the surround indicator on two existing datasets. Our preliminary results reveal that contacts have too heterogeneous surrounds to be considered only in terms of duration.
This work is part of Nadjet Belblidia's thesis and is done in collaboration with Jérémie Leguay (Thalès), Vania Conan (Thalès), Jon Crowcroft (Cambridge University), and Serge Fdida (UPMC).
Réseaux sociaux égocentriques
19 novembre 2009
En dix ans, la vision Google des réseaux sociaux a cédé la place à la vision Facebook.
Dans le milieu des années 90, avec l'apparition du web et son intégration progressive dans la société, s'est répandue l'image d'un monde connecté, village global traversé par les autoroutes de l'information permettant de relier n'importe qui à n'importe qui d'autre en six degrés de séparation.
En 1998, Google apportait à cette civilisation-là un algorithme permettant de traiter le gigantesque bazar que constituait déjà le graphe des pages web, permettant d'en extraire les pages les plus pertinentes pour le genre humain.
Aujourd'hui, les résultats de Google sont un acquis, c'est la wikipédie de tout un chacun, presque aussi poussiéreuse que le Larousse de la grand-mère. Je sais, quand j'en ai besoin, chercher des informations dans le réseau des réseaux, reste donc à trouver des informations quand je ne les cherche pas (Google ne me dira ce qu'est Paf le chien que si j'ai l'idée de le lui demander), et pour cela, écouter ce qui se passe dans... mon réseau.
Parce que si je suis à O(6) degrés de séparation de n'importe qui, je préfère réduire la portée de mon réseau pour limiter la cacophonie, et le pagerank ne m'aidera pas pour ça.
Nous allons donc profiter de notre expérience de vieux googliens pour aborder les réseaux personnels avec des outils que les « anciens » analystes des réseaux sociaux n'avaient pas, quitte à ce qu'ils nous reprochent de leur piquer leur jouet.
Vidéo à la demande en Peer-to-peer intégral
12 novembre 2009
La vidéo « à la demande » (VoD) est un service en pleine expansion. Avec le développement des modems (« box ») d'accès à l'ADSL, offrant maintenant des capacités de stockage, on peut imaginer un service totalement décentralisé. Les films sont pré-chargés sur certains modems. Les utilisateurs se connectent aux modems qui les ont pré-chargés et visionnent, sans intervention d'un serveur (d'où un service robuste et à coût faible). Nous montrons que le nombre de films disponibles peut croitre de façon linéaire (ou quasi-linéaire sous d'autres hypothèses)
en fonction du nombre de modems et que toutes requêtes d'utilisateurs peuvent être satisfaites AFP.
Travail réalisé avec Y. Boufkhad, F. Mathieu, D. Perino et L. Viennot.