Bonnes Pratiques Pour Amazon EMR

3y ago
39 Views
2 Downloads
1.57 MB
41 Pages
Last View : 13d ago
Last Download : 3m ago
Upload by : Duke Fulford
Transcription

Amazon Web Services – Bonnes pratiques pour Amazon EMRAoût 2013Bonnes pratiques pour Amazon EMRParviz DeyhimAoût 2013(Veuillez consulter http://aws.amazon.com/whitepapers/ pour obtenir la dernière version de ce livre blanc)Page 1 sur 41

Amazon Web Services – Bonnes pratiques pour Amazon EMRAoût 2013Table des matièresRésumé . 3Introduction . 3Transfert de données sur AWS . 4Scénario 1 : Transfert de grandes quantités de données depuis un HDFS (centre de données) sur Amazon S3 . 4Avec S3DistCp. 4Avec DistCp . 6Scénario 2 : Transfert de grandes quantités de données depuis un disque local (non HDFS) sur Amazon S3 . 6Avec la bibliothèque Jets3t Java. 7Avec GNU Parallel . 7Avec Aspera Direct-to-S3 . 8Avec AWS Import/Export . 8Avec AWS Direct Connect . 9Scénario 3 : Transfert de grandes quantités de données depuis Amazon S3 sur un HDFS . 10Avec S3DistCp. 10Avec DistCp . 11Collecte des données . 11Avec Apache Flume . 11Avec Fluentd . 12Agrégation des données . 12Agrégation des données avec Apache Flume . 13Bonnes pratiques pour l'agrégation des données . 13Bonne pratique 1 : Taille des données agrégées. 15Bonne pratique 2 : Contrôle de la taille d'agrégation des données . 15Bonne pratique 3 : Algorithmes de compression des données . 16Bonne pratique 4 : Cloisonnement des données . 18Traitement des données avec Amazon EMR . 19Choix de la taille d'instance appropriée . 19Choix du nombre d'instances approprié à vos travaux . 20Estimation du nombre d'outils de mappage requis pour vos travaux. 22Types de cluster Amazon EMR . 23Clusters Amazon EMR transitoires .23Clusters Amazon EMR permanents . 24Architectures Amazon EMR courantes . 24Modèle 1 : Amazon S3 plutôt que HDFS . 25Modèle 2 : Amazon S3 et HDFS . 26Modèle 3 : HDFS et Amazon S3 comme stockage de sauvegarde . 27Modèle 4 : Cluster Amazon EMR Elastic (Manuel) . 28Modèle 5 : Cluster Amazon EMR Elastic (Dynamique) . 29Optimisation des coûts avec Amazon EMR et Amazon EC2 . 31Optimisation des coûts avec des instances ponctuelles EC2. 34Optimisation des performances (Avancé) . 35Suggestions pour l'amélioration des performances . 37Améliorations des tâches Map . 37Améliorations des tâches Reduce . 38Utilisation de Ganglia pour les optimisations de performances . 38Localisation des métriques Hadoop . 40Conclusion. 40Autres lectures et étapes suivantes . 40Annexe A : Bénéfices offerts par Amazon S3 par rapport à HDFS . 41Page 2 sur 41

Amazon Web Services – Bonnes pratiques pour Amazon EMRAoût 2013RésuméLe cloud Amazon Web Services (AWS) accélère l'analyse du Big Data. Grâce à l'évolutivité et à l'élasticité instantanées,vous pouvez vous concentrer sur l'analyse plutôt que sur l'infrastructure. Que vous indexiez des ensembles de donnéesvolumineux, analysiez des quantités volumineuses de données scientifiques ou traitiez des journaux de flux de clics,AWS offre un large éventail de produits Big Data que vous pouvez mettre à profit pour pratiquement n'importe quelprojet gourmand en données.Amazon Elastic MapReduce (EMR) est un service Web qui propose un framework Hadoop hébergé entièrement gérés'appuyant sur Amazon Elastic Compute Cloud (EC2). Dans ce livre blanc, nous indiquons les bonnes pratiques de transfertdes données sur AWS ainsi que de collecte et d'agrégation des données et nous décrivons les modèles d'architecturecourants pour l'installation et la configuration des clusters Amazon EMR afin d'obtenir un traitement plus rapide. Nousindiquons également différentes techniques d'optimisation des performances et des coûts qui vous permettront de traiteret d'analyser de manière fiable de grandes quantités de données à un débit rapide et à un faible coût.IntroductionLe concept Big data repose sur la collecte, le stockage, le traitement et la visualisation de grandes quantités de donnéesde manière à permettre aux sociétés de partager des connaissances, de dégager des idées professionnelles de grandevaleur à partir de ces connaissances et de prendre les meilleures décisions professionnelles possibles, et ce le plusrapidement possible. Les principales difficultés liées au fonctionnement des plateformes d'analyse de données sontnotamment l'installation et la gestion opérationnelle, l'allocation dynamique de la capacité de traitement des donnéesafin de pouvoir accueillir une charge variable et l'agrégation de données à partir de différentes sources d'analyseholistique. Le Open Source Apache Hadoop et son écosystème d'outils permettent de résoudre des problèmes puisqueHadoop peut être développé horizontalement pour accueillir un volume de données croissant et peut traiter desdonnées non structurées et structurées dans le même environnement.Amazon Elastic MapReduce (Amazon EMR) simplifie l'exécution de Hadoop et des applications de Big Datacorrespondantes sur AWS. Le coût et la complexité liés à la gestion de l'installation de Hadoop sont ainsi supprimés.Ceci signifie que n'importe quel développeur ou n'importe quelle Business peut réaliser une analyse sans investir desdépenses de capital importantes. Aujourd'hui, vous pouvez lancer un cluster Hadoop optimisé pour les performancesdans le cloud AWS en quelques minutes sur le tout dernier matériel ou réseau de informatique haute performance sansréaliser investir dans l'achat du matériel. Vous pouvez, sur demande, agrandir et réduire un cluster en coursd'exécution. Ceci signifie que si vous avez besoin de réponses à vos questions plus rapidement, vous pouvezimmédiatement accroître la taille de votre cluster afin d'accélérer l'analyse des données. Vous pouvez analyser ettraiter de très grandes quantités de données via l'architecture MapReduce de Hadoop afin de distribuer la tâche decalcul au sein d'un cluster de serveurs virtuels exécutés dans le cloud AWS.Outre le traitement, l'analyse de grandes quantités de données implique également la collecte, la migration etl'optimisation des données.Figure 1 : Flux de donnéesPage 3 sur 41

Amazon Web Services – Bonnes pratiques pour Amazon EMRAoût 2013Dans ce livre blanc, nous décrivons les bonnes pratiques de transfert des données sur AWS, les stratégies de collecte,de compression et d'agrégation des données et des modèles d'architecture courants pour l'installation et laconfiguration des clusters Amazon EMR à des fins de traitement des données. Il contient également des exemplesd'optimisation des coûts et de nombreuses options d'achat Amazon EC2 comme des instances réservées et ponctuelles.Ce livre blanc présume que vous avez une compréhension conceptuelle et une certaine expérience d'Amazon EMR etd'Apache Hadoop. Pour une introduction à Amazon EMR, voir le Guide du Développeur Amazon EMR.1 Pour uneintroduction à Hadoop, voir la publication Hadoop : le Guide Définitif.2Transfert de données sur AWSDifférentes approches permettent de transférer de grandes quantités de données depuis un emplacement de stockagecourant sur Amazon Simple Storage Service (Amazon S3) ou depuis Amazon S3 sur Amazon EMR et le HadoopDistributed File System (HDFS). Il est toutefois capital d'utiliser à cet effet la largeur de bandes de données disponible defaçon stratégique. Grâce à des optimisations appropriées, il est possible d'effectuer des téléchargements de plusieurstéraoctets par jour. Pour atteindre ce débit élevé, vous pouvez télécharger des données dans AWS en parallèle depuisplusieurs clients qui utilisent chacun plusieurs threads pour permettre des téléchargements simultanés ou qui emploientdes uploads en plusieurs parties pour une meilleure parallélisation. Vous pouvez régler les paramètres TCP comme lamise à l'échelle des fenêtres3 et la confirmation sélective4 afin d'augmenter encore le débit des données. Les scénariossuivants expliquent trois façons d'optimiser la migration des données depuis un emplacement de stockage local courant(centre de données) sur AWS en utilisant totalement le débit disponible.Scénario 1 : Transfert de grandes quantités de données depuis un HDFS (centre de données)sur Amazon S3Deux outils (S3DistCp et DistCp) permettent de transférer des données stockées sur votre emplacement de stockagelocal HFSD (centre de données) sur Amazon S3. Amazon S3 est une incroyable option de stockage permanente pourdes fichiers de données non structurées grâce à sa grande durabilité et à ses fonctions de classe d'entreprise commela gestion de la sécurité et des cycles de vie.Avec S3DistCpS3DistCp est une extension de DistCp intégrant des optimisations de travail avec AWS, notamment Amazon S3.L'insertion de S3DistCp comme étape supplémentaire dans un flux de travail vous permet de copier efficacement degrandes quantités de données depuis Amazon S3 dans HDFS où les étapes suivantes dans vos clusters EMR serontcapables de les traiter. Vous pouvez également utiliser S3DistCp pour copier des données entre des compartimentsAmazon S3 ou depuis HDFS sur Amazon S3.S3DistCp copie des données en utilisant des travaux MapReduce distribués qui sont similaires à DistCp. S3DistCpexécute des outils de mappage pour compiler une liste de fichiers à copier sur l'emplacement de destination. Une foisque les outils de mappage ont terminé la compilation d'une liste de fichiers, les réducteurs effectuent la copie desdonnées réelles. Via DistCp, S3DistCp apporte pour principale optimisation un réducteur qui exécute plusieurs threadsde téléchargement HTTP pour télécharger les fichiers en ev/TCPSelectiveAcknowledgement.htmlPage 4 sur 41

Amazon Web Services – Bonnes pratiques pour Amazon EMRAoût 2013Pour illustrer l'avantage proposé par S3DistCP, nous avons réalisé une comparaison côte-à-côte entre S3DistCp etDistCp. Dans le cadre de ce test, nous copions 50 Go de données depuis un cluster Hadoop en cours d'exécution surAmazon Elastic Compute Cloud (EC2) en Virginie et copions les données dans un compartiment Amazon S3 dansl'Orégon. Ce test donne une indication de la différence de performances entre S3DistCp et DistCp dans certainescirconstances, mais vos résultats peuvent varier.MéthodeDistCpS3DistCpTaille desdonnées copiées50 Go50 GoDuréetotale26 min.19 minFigure 2 : Comparaison des performances de DistCp et S3DistCpPour copier des données depuis votre cluster Hadoop sur Amazon S3 avec S3DistCpCe qui suit est un exemple qui décrit comment exécuter S3DistCp sur votre installation Hadoop pour copier des donnéesdepuis HDFS sur Amazon S3. Nous avons testé les étapes suivantes avec : 1) la distribution Apache Hadoop 1.0.3 2)Amazon EMR AMI 2.4.1. Nous n'avons pas testé ce processus avec les autres distributions Hadoop et nous ne pouvonspas garantir que ces mêmes étapes sont compatibles avec une autre distribution Hadoop que celle mentionnée ici(Apache Hadoop 1.0.3).1. Lancez un petit cluster Amazon EMR (un seul nœud).elastic-mapreduce --create --alive --instance-count 1 --instance-type m1.small -ami-version 2.4.12. Copiez les coulisses suivantes depuis le nœud maître d'Amazon EMR (/home/Hadoop/lib) sur votre nœud maîtreHadoop local dans le répertoire /lib de votre chemin d'installation Hadoop (Par exemple : /usr/local/hadoop/lib).En fonction de votre installation Hadoop , ces coulisses peuvent être disponibles ou pas. La distribution ApacheHadoop ne contient pas ces 4.1.jar/home/hadoop/lib/httpclient-4.1.1.jar3. Modifiez le fichier core-site.xml pour insérer vos informations d'identification AWS. Copiez ensuite le fichierde configuration core-site.xml dans tous les nœuds de votre cluster Hadoop. Une fois la copie du fichierterminée, il est inutile de redémarrer les services ou les programmes fantômes pour que la modification soit priseen compte. property name fs.s3.awsSecretAccessKey /name value YOUR SECRETACCESSKEY /value /property property name fs.s3.awsAccessKeyId /name value YOUR ACCESSKEY /value /property property Page 5 sur 41

Amazon Web Services – Bonnes pratiques pour Amazon EMRAoût 2013 name fs.s3n.awsSecretAccessKey /name value YOUR SECRETACCESSKEY /value /property property name fs.s3n.awsAccessKeyId /name value YOUR ACCESSKEY /value /property 4. Exécutez s3distcp en utilisant l'exemple suivant (modifier le CHEMIN HDFS, VOTRE COMPARTIMENT S3 et leCHEMIN) :hadoop jar /usr/local/hadoop/lib/emr-s3distcp-1.0.jar local/hadoop/lib/httpclient4.1.1.jar --src HDFS PATH --dest s3://YOUR S3 BUCKET/PATH/ --disableMultipartUploadAvec DistCpDistCp (copie distribuée) est un outil utilisé pour des copies de données volumineuses inter- ou intra-cluster. Il utiliseAma

Ce livre blanc présume que vous avez une compréhension conceptuelle et une certaine expérience d'Amazon EMR et d'Apache Hadoop. Pour une introduction à Amazon EMR, voir le Guide du Développeur Amazon EMR. 1 Pour une introduction à Hadoop, voir la publication Hadoop : le Guide Définitif.2 Transfert de données sur AWS

Related Documents:

Festive Overture (Shostakovich) N EMR Blasorchester Concert Band EMR 1085 EMR 11867 EMR 11846 EMR 12023 EMR 11905 EMR 11870 EMR 11854 Time 10’43 7’49 10’18 3’12 4’48 7’41 5’53 Famous Overtures 4 N EMR Brass Band----EMR 9557 EMR 9510-EMR 31055. 1st TROMBONE EMR 31055

Concerto (Wagenseil) Concerto (Rosetti) Introduktion, Thema und Variationen (Hummel) N EMR Orchestra EMR 22108 EMR 1012 EMR 1148 EMR 4674 EMR 4696 EMR 1009 EMR 1008 EMR 4676 . Concerto (Solo Trombone) EMR 1164 DAETWYLER, Jean 3. Alphorn Concerto (Alphorn in Gb) EMR 4750 DAETWYLER, Jean Capriccio Sur Deux Chants Populaires

EMR 1067 Bohemian Rhapsody QUEEN (Mortimer) EMR 1573 Bohemian Rhapsody (Chorus SATB) QUEEN (Mortimer) EMR 11175 Bohemian Romance MIELENZ (Sedlak) EMR 11718 Born In The USA (Solo Voice) SPRINGSTEEN (Mortimer) EMR 1469 Bowling Party TAILOR EMR 10502 Bridge Lake RODENMACHER EMR 10659 Bringer Of Joy MIELENZ (Macduff) .

EMR 6199 DEBUSSY, Claude Clair de Lune (5) EMR 6194 DVORAK, Antonin Humoresque (5) EMR 6199 DVORAK, Antonin Largo aus der Neuen Welt (5) EMR 6192 GERSHWIN, George I Got Rhytm (5) EMR 6194 GERSHWIN, George ‘S Wonderful (5) EMR 6200 GERSHWIN, George Summertime (5) EMR 6195 GERSHWIN, George The Man I Love (5)

EMR 2538 Music MILES (Mortimer) Chorus (SATB) (Fortsetzung - Continued - Suite) EMR 3446 Nearer, My God, To Thee MASON (Tailor) EMR 3680 New York, New York (Chorus SATB) KANDER / EBB (Parson) EMR 3943 Nobody Knows PARSON EMR 3438 Now Thank We All Our God CRÜGER (Schneiders) EMR 3168 O Christmas Tree Arr.: PARSON

1st E Alto Saxophone 2nd E Alto Saxophone 1st B . Ted Crazy Love EMR 14164 BARCLAY, Ted Crazy Shuffle EMR 19548 BARCLAY, Ted Happy Music . EMR 13731 BARCLAY, Ted Have A Nice Day EMR 19482 BARCLAY, Ted Rock On The Rocks EMR 14179 BARCLAY, Ted Sax Party EMR 13873 BARCLAY,

EMR 17001 WAGENSEIL, G.C. Concerto (Angerer) EMR 222 WAGENSEIL, G.C. Concerto (Angerer) EMR 2305L WEBER, C.M. von Romance (Mortimer) EMR 17006 WEBER, C.M. von Romance (Wagenhäuser) EMR 236 WEBER, C.M. von Romance (Wagenhäuser) EMR 205 ZETTLER, Richard Concerto Primo TROMBONE & PIANO (ORGAN)

Introduction to AutoCAD Academic Resource Center . What is CAD? Computer Aided Drafting Autodesk is the most popular drawing program Many student versions available for free online at students.autodesk.com o AutoCAD o Architecture o Mechanical o Revit o Inventor o Civil o MEP o etc. Capabilities: o 2D line drawings o 3D constructions o Rendering o Part Assemblies . Workshop Goals .