Traîtement distribué des données

Master 1 ISD

Données massives
MapReduce

kn@lmf.cnrs.fr

SQL

Le standard SQL spécifie un grand nombre d'aspects des bases de données relationnelles :

Un langage de requête (SELECT …)
Un langage de modification de données (CREATE …, UPDATE …)
Un langage de schéma et de contraintes
Un langage de programmation (SQL/PSM)
Un modèle de concurrence (transactions, BEGIN … END, COMMIT, ROLLBACK)

Garanties

Le modèle relationnel et les bases de données SQL offrent des garanties très fortes :

Atomicity (Atomicité) : chaque transaction est du « tout ou rien ». Il est impossible pour quelqu'un en dehors de la transaction d'observer une étape intermédiaire.
Consistency (Cohérence) : chaque transaction fait passer la base d'un état cohérent à un nouvel état cohérent. Toute donnée sauvegardée dans la base doit être valide vis à vis d'un ensemble de règles (types, contraintes, triggers, …).
Isolation : l'exécution concurrente de deux transactions T₁ et T₂ doit être la même que leur exécution séquentielle.
Durability (Durabilité) : une transaction confirmée (COMMIT;) le reste même en cas de problèmes (perte de courant, erreur interne, …).

Quel impact ?

Maintenir un modèle ACID a un impact énorme sur les performances (création de snapshots, mise en place de verrous coûteux, attente de confirmation par le disque que les données sont sauvées, …).

Comment augmenter les performances et le volume des données ?

Prendre un serveur plus puissant (ex. Oracle Exadata de 40 000 à 1 300 000 USD + souscription mensuelle, entretien, …)
Mettre plusieurs serveurs ? Très difficile, pourquoi ?

Distribution et modèle ACID

Il existe deux modèles de distribution possible :

Plusieurs serveurs contenant chacun une copie complète de la base :
- Performances accrues pour les requêtes
- Diversité géographique possible (plus grande résistance aux évènement extérieurs)
- Baisse des performances pour les mises à jour
- Ne permet pas de stocker plus de données que sur un seul serveur
Partitionnement des données. Une relation R peut être découpés en morceaux R₁, …, R₁, disposés sur des machines différentes. Le découpage peut se faire par colonnes ou par lignes.
- Augmentation de la capacité de stockage globale
- Jointures très coûteuses si deux colonnes sont sur deux machines différentes
- Agrégats coûteux si les lignes sont sur deux machines différentes
- Une machine en panne ou inaccessible compromet tout le système

Le modèle ACID est-il toujours adapté ?

Le modèle ACID est parfois trop contraignant :

Système de réservation de billets d'avion ? Modèle ACID nécessaire
Calcul du nombre de messages envoyé par utilisateurs de chaque tranche d'âge, sur Facebook ? Modèle ACID inutile

Y a t-il un modèle alternatif ?

Théorème de Brewer

Le théorème (énoncé comme une conjecture en 1999 par E. Brewer et prouvé en 2004) dit que dans un système distribué partageant des données, au plus 2 des 3 propriétés suivantes peuvent être optimale :

Consistency (cohérence) : tous les nœuds de calcul voient les même données au même moment
Availability (disponibilité) : chaque requête reçoit une réponse de succès ou d'échec
Partition tolerence (tolérance aux pannes) : le système continue de fonctionner correctement malgré un découpage arbitraire lié à des pannes réseau

Le théorème en lui-même est souvent mal interprété. Il a surtout été énoncé (d'après Brewer) pour inciter les gens à explorer d'autres modèles/compromis.

Modèle BASE

Le modèle BASE est régit par les propriétés suivantes :

Basically Available (toujours disponible) : le système s'efforce de répondre à une requête, quel que soit son état
Soft state (état « mou ») : l'état interne du système peut changer sans intervention d'un utilisateur
Eventually consistent (cohérent au bout d'un temps fini) : si on laisse passer suffisamment de temps entre deux mises à jour ou pannes, le système converge vers un état cohérent

Exemple concret

On considère un système avec deux nœuds N₁ et N₂ :

Mise à jour M suivi de deux fois la même requête Q :
- ACID : si M est dans une transaction, alors Q s'effectue strictement après M et les deux instances de Q renvoient le même résultat
- BASE : les deux instances de Q peuvent renvoyer des résultats différents, M peut s'exécuter en même temps que Q et ne même pas être fini.
N₂ tombe en panne :
- ACID : le système entier est en panne
- BASE : N₁ continue de répondre

Que peut on faire avec BASE ?

Le modèle BASE permet de créer des systèmes composés de plusieurs nœuds, capable de stocker des données indépendemment et de répondre rapidement. Comment le mettre à profit ?

Programmation fonctionnelle, le retour

Un peu de code OCaml pour se détendre


	let words = [ "It'"; "s";  "a"; "beautifull"; "day" ]

	(* On veut compter la longueur totale des chaînes de caractères
  	   dans words *)

	let lengths = List.map (fun s -> String.length s) words

	(* lengths = [ 3; 1; 1; 10; 3 ] *)

	let total = List.fold_left (fun acc i -> i + acc) 0 lengths

	(* total = 18 *)

Les itérateurs `map` et `fold`

map: de type (α → β) → α list → β list, prend en argument une fonction et une liste d'éléments et applique la fonction à chaque élément. Elle renvoie la liste des éléments transformés (dans le même ordre).
fold: de type (α → β → α) → α → β list → α, prend une fonction d'agrégat, un accumulateur initial et une liste d'élément qui sont passés tour à tour à la fonction. La valeur finale de l'accumulateur est renvoyée.

Visuellement

`map`
●	●	●	●	●
↓f	↓f	↓f	↓f	↓f
■	■	■	■	■

`fold`
▲	●	●	●	●	●
f ▲
	f ▲
		f ▲
			f ▲
				f ▲

Propriétés de `map` et `fold` ?

Les collections de départ sont inchangées
les applications de la transformation par map sont indépendantes, leur ordre d'application n'est pas important
pour fold, l'ordre n'est pas important si l'agrégateur est associatif et commutatif

Ces observations sont à la base de MapReduce

MapReduce

Popularisé par Jeffrey Dean et Sanjay Ghemawat dans l'article :
MapReduce: Simplified Data Processing on Large Clusters (OSDI, 2004)

Remarque: le paradigme n'est pas nouveau (BD distribuées, langages fonctionnels), mais l'article l'a popularisé et a permis l'arrivée d'implémentations Open-Source robustes.

Cadre : on dispose d'un grand nombre de machines, dont chacune dispose localement d'un ensemble de données (distinct des autres). Un nœud particulier joue le rôle d'orchestrateur les autres sont des travailleurs (workers).

Une transformation MapReduce se décompose en trois phases :

Phase Map
Phase Shuffle
Phase Reduce (fold)

Préambule

Le programmeur fournit deux transformations :


  map(InputKey k, InputValue v) → (OutputKey * IntermediateValue list)

  reduce(OutputKey, IntermediateValue list) → OutputValue list

Phase `Map`

Lors de la phase Map, l'orchestrateur exécute une copie de la transformation map sur chaque worker. Chacun ne transforme que les données qu'il possède localement.

La fonction map reçoit ses données d'entrées sous la forme d'une paire clé, valeur (par exemple (nom de fichier, fichier) ou (id, ligne correspondant à l'id dans une table)).

La fonction renvoie comme résultat une liste de valeur transformées associé à une clé de groupe

Phase `Shuffle`

Lorsque la phase Map est terminée sur tous les nœuds, les données sont échangées entre nœuds et groupées selon la clé de groupe

Cette opération est une barrière, elle ne peut se produire qu'après la fin de la phase Map. De plus elle nécessite l'échange de données sur le réseau (coûteux).

Phase `Reduce`

L'orchestrateur exécute une copie de la fonction reduce sur chaque nœud. Cette fonction reçoit en argument une clé de groupe et la liste de toutes les valeurs intermédiaires associées, et produit un résultat final par clé.

La liste de ces résultats (pour chaque clé) est renvoyée au programmeur ou stockée sur les nœuds pour être réutilisée dans un nouveau cycle Map/Shuffle/Reduce

Exemple complet : `word count`

On suppose stocké sur les nœuds des ensembles de fichiers, auxquels on peut accéder sous forme de paires :
(nom de fichier, contenu du fichier)

Exemple complet : `word count` (Map)


	map(InputKey file, InputValue content) {

	for each word in content {
         	  Output(word, 1);
	 }
	}

Traîtement distribué des données

Master 1 ISD

Données massivesMapReduce

Propriétés et limites des bases SQL

SQL

Garanties

Quel impact ?

Distribution et modèle ACID

Le modèle ACID est-il toujours adapté ?

Théorème de Brewer

Modèle BASE

Exemple concret

Que peut on faire avec BASE ?

Paradigme MapReduce

Programmation fonctionnelle, le retour

Les itérateurs map et fold

Visuellement

Propriétés de map et fold ?

MapReduce

Préambule

Phase Map

Phase Shuffle

Phase Reduce

Exemple complet : word count

Exemple complet : word count (Map)

Exemple complet : word count (Shuffle)

Exemple complet : word count (Map)

Parallélisme et modèle de coût

Résistance aux pannes

Passage à l'échelle

Expressivité (digression en SQL)

Fonctionnalités non supportées par le modèle

Quelles solutions ?

Conclusions sur MapReduce

Hadoop et HDFS

Le framework Hadoop

Utilisation

HDFS

Encore un peu d'OCaml

HDFS

Problèmes d'Hadoop MapReduce + HDFS

L'API MapReduce d'Hadoop :

Démo

Hive et HiveQL

Une interface haut niveau pour Hadoop

Hive

Avantages de Hive

Gestion des mises à jour

Optimiseur de requête

Démo

Java 8

Java est enfin un langage fonctionnel

Interfaces fonctionnelles

Exemple

Stream API

Méthodes de l'interface Stream<T>

Méthodes de l'interface Stream<T> (suite)

Exemple

λ-abstraction

λ-abstraction (suite)

Que gagne t'on à utiliser la Stream API ?

Données massives
MapReduce

Les itérateurs `map` et `fold`

Propriétés de `map` et `fold` ?

Phase `Map`

Phase `Shuffle`

Phase `Reduce`

Exemple complet : `word count`

Exemple complet : `word count` (Map)

Exemple complet : `word count` (Shuffle)

Exemple complet : `word count` (Map)

Conclusions sur `MapReduce`

Méthodes de l'interface `Stream<T>`

Méthodes de l'interface `Stream<T>` (suite)