Hadoop - Riptutorial

1y ago

35 Views

2 Downloads

1.20 MB

50 Pages

Last View : 3d ago

Last Download : 3m ago

Upload by : Lilly Andre

Report this link

Download PDF

Transcription

hadoop#hadoop

11:hadoop22Apache Hadoop?Apache Hadoop:2:222Examples3Linux3Hadoop ubuntu5Hadoop:5:6SSH:6hadoop sudoer:8IPv6:8Hadoop:8Hadoop HDFS92: MapReduce131313Examples( Java Python)13133: Hadoop17Examples17hoods hadoop17hadoop fs -mkdir:17:17:17hadoop fs -put:17:17

:17hadoop fs -copyFromLocal:18:18:18hadoop fs -moveFromLocal:18:18:18:18:194: Hadoop2020ExamplesHadoop v120201. Hadoop202.20HDFSh11203.2020h12204. ,20,20h13215.DFS.21h14216.21h15217.«hadoop»21/ user / training HDFS.21,21

/ user / training -HDFS.21h16218.22«» , HDFS22.22h17229.HDFS.22h182210.«»22/ user / training HDFS.22h192211. / user / training ,,HDFS,2222.2323,.23h1102312. ,HDFS.23h1112313. «» «retail».23h1122314. ,HDFS.h11315.2324«retail» .24h1142416.24h1152417. ,24HDFS.24

h1162418. hadoop .24h1172419. purchase.txt24«/ home / training /» 521. purchase.txt «hadoop»,HDFS25«»,25h1202522. cp, HDFSh1212623. � stdout.h12325.252626- 666 HDFS26-chmod26h1242626.- 727

29.3.27-setrep27h1282830.28«-distcp» ,28-overwrite28-update28h1292831. ,28h1302832.hasoop28h13133.29hdfs.29h13234. ,29:!29h13329Hadoop v25: Java- Hadoop MR29eclipse dev.343434Examples34346:3636Examples363636Hue Ubuntu7: HDFS?374040

ExamplesHDFS -40Hadoop40HDFS40HDFS4143

ОколоYou can share this PDF with anyone you feel could benefit from it, downloaded the latest versionfrom: hadoopIt is an unofficial and free hadoop ebook created for educational purposes. All the content isextracted from Stack Overflow Documentation, which is written by many hardworking individuals atStack Overflow. It is neither affiliated with Stack Overflow nor official hadoop.The content is released under Creative Commons BY-SA, and the list of contributors to eachchapter are provided in the credits section at the end of this book. Images may be copyright oftheir respective owners unless otherwise specified. All trademarks and registered trademarks arethe property of their respective company owners.Use the content presented in this book at your own risk; it is not guaranteed to be correct noraccurate, please send your feedback and corrections to e1

глава 1: Начало работы с hadoopзамечанияЧто такое Apache Hadoop?Библиотека программного обеспечения Apache Hadoop представляет собой структуру,которая позволяет распределенную обработку больших наборов данных в кластерахкомпьютеров с использованием простых моделей программирования. Он предназначен длямасштабирования от отдельных серверов до тысяч компьютеров, каждый из которыхпредлагает локальные вычисления и хранение. Вместо того, чтобы полагаться нааппаратное обеспечение для обеспечения высокой доступности, сама библиотекапредназначена для обнаружения и обработки сбоев на уровне приложений, поэтомупредоставление высокодоступного сервиса поверх кластера компьютеров, каждый изкоторых может быть подвержен ошибкам.Apache Hadoop включает в себя следующие модули: Hadoop Common : общие утилиты, поддерживающие другие модули Hadoop. Распределенная файловая система Hadoop (HDFS) : распределенная файловаясистема, обеспечивающая высокопроизводительный доступ к данным приложения. Hadoop YARN : структура планирования рабочих мест и управления ресурсамикластера. Hadoop MapReduce : система на основе YARN для параллельной обработки большихнаборов данных.Ссылка:Apache HadoopВерсииВерсияПримечания к выпускуДата мите здесь - 2.7.32016-01-252.6.4Нажмите здесь - 2.6.42016-02-112.7.2Нажмите здесь - 2.7.22016-01-25https://riptutorial.com/ru/home2

ВерсияПримечания к выпускуДата выхода2.6.3Нажмите здесь - 2.6.32015-12-172.6.2Нажмите здесь - 2.6.22015-10-282.7.1Нажмите здесь - 2.7.12015-07-06ExamplesУстановка или настройка в LinuxПроцедура установки псевдораспределенного кластераПредпосылки Установите JDK1.7 и установите переменную среды JAVA HOME. Создайте нового пользователя как «hadoop».useradd hadoop Установка пароля без SSH-входа в свою учетную записьsu - hadoopssh-keygen Press ENTER for all prompts cat /.ssh/id rsa.pub /.ssh/authorized keyschmod 0600 /.ssh/authorized keys Проверить, выполнив sshlocalhost Отключите IPV6, отредактировав /etc/sysctl.conf следующим образом:net.ipv6.conf.all.disable ipv6 1net.ipv6.conf.default.disable ipv6 1net.ipv6.conf.lo.disable ipv6 1 Убедитесь, что использование cat/proc/sys/net/ipv6/conf/all/disable ipv6(следует вернуть 1)Установка и настройка: Загрузите требуемую версию Hadoop из архивов Apache с помощью команды wget .cd /opt/hadoop/wget http:/addresstoarchive/hadoop-2.x.x/xxxxx.gztar -xvf hadoop-2.x.x.gzmv hadoop-2.x.x.gz hadoophttps://riptutorial.com/ru/home3

(or)ln -s hadoop-2.x.x.gz hadoopchown -R hadoop:hadoop hadoop Обновите .kshrc .bashrc / .kshrc на основе вашей оболочки с переменными среды нижеexportexportexportexportHADOOP PREFIX /opt/hadoop/hadoopHADOOP CONF DIR HADOOP PREFIX/etc/hadoopJAVA HOME /java/home/pathPATH PATH: HADOOP PREFIX/bin: HADOOP PREFIX/sbin: JAVA HOME/bin В HADOOP HOME/etc/hadoop редактируйте ниже файлы ядро-site.xml configuration property name fs.defaultFS /name value hdfs://localhost:8020 /value /property /configuration mapred-site.xmlСоздайте mapred-site.xml из его шаблонаcp mapred-site.xml.template mapred-site.xml configuration property name mapreduce.framework.name /name value yarn /value /property /configuration Пряжа-site.xml configuration property name yarn.resourcemanager.hostname /name value localhost /value /property property name yarn.nodemanager.aux-services /name value mapreduce shuffle /value /property /configuration HDFS-site.xml configuration property https://riptutorial.com/ru/home4

name dfs.replication /name value 1 /value /property property name dfs.namenode.name.dir /name value file:///home/hadoop/hdfs/namenode /value /property property name dfs.datanode.data.dir /name value file:///home/hadoop/hdfs/datanode /value /property /configuration Создайте родительскую папку для хранения данных hadoopmkdir -p /home/hadoop/hdfs Format NameNode (очищает каталог и создает необходимые метафайлы)hdfs namenode -format Начать все услуги:start-dfs.sh && start-yarn.shmr-jobhistory-server.sh start historyserverВместо этого используйте start -all.sh (устаревший). Проверить все запущенные java-процессыjps Веб-интерфейс Namenode: http: // localhost: 50070 / Менеджер ресурсов Веб-интерфейс: http: // localhost: 8088 / Чтобы остановить демоны (службы):stop-dfs.sh && stop-yarn.shmr-jobhistory-daemon.sh stop historyserverВместо этого используйте stop -all.sh (устаревший).Установка Hadoop на ubuntuСоздание пользователя Hadoop:https://riptutorial.com/ru/home5

sudo addgroup hadoopДобавление пользователя:sudo adduser --ingroup hadoop hduser001Настройка SSH:su -hduser001ssh-keygen -t rsa -P ""cat .ssh/id rsa.pub .ssh/authorized keysПримечание . Если вы получаете ошибки [ bash: .ssh / authorized keys: Нет такого файлаили каталога ] при написании авторизованного ключа. Проверьте здесь .https://riptutorial.com/ru/home6

https://riptutorial.com/ru/home7

Добавить пользователя hadoop в списокsudoer:sudo adduser hduser001 sudoОтключение IPv6:https://riptutorial.com/ru/home8

Установка Hadoop:sudo add-apt-repository ppa:hadoop-ubuntu/stablesudo apt-get install hadoopОбзор Hadoop и HDFShttps://riptutorial.com/ru/home9

Hadoop - это программная среда с открытым исходным кодом для хранения икрупномасштабной обработки наборов данных в распределенной вычислительнойсреде. Он спонсируется Apache Software Foundation. Он предназначен длямасштабирования от отдельных серверов до тысяч компьютеров, каждый из которыхпредлагает локальные вычисления и хранение.история Hadoop был создан Дугом Реттингем и Майком Кафареллой в 2005 году. Резка, кто работал в Yahoo! в то время назвал его после игрушечного слона своегосына. Он был первоначально разработан для поддержки распространения для проектапоисковой системы.Основные модули hadoopРаспределенная файловая система Hadoop (HDFS): распределенная файловаясистема, обеспечивающая высокопроизводительный доступ к данным приложения.Hadoop MapReduce: программная среда для распределенной обработки большихнаборов данных на вычислительных кластерах.Основные функции файловой системы HadoopВысокая отказоустойчивость. Высокая пропускная способность. Подходит дляприложений с большими наборами данных. Может быть построен из e и DatanodesАрхитектура ведущего / ведомого. Кластер HDFS состоит из одного Namenode,главного сервера, который управляет пространством имен файловой системы ирегулирует доступ к файлам клиентами. DataNodes управляют хранилищем,прикрепленным к узлам, на которых они работают. HDFS предоставляет пространствоимен файловой системы и позволяет сохранять пользовательские данные в файлах.Файл разбивается на один или несколько блоков, а набор блоков хранится вDataNodes. DataNodes: служит для чтения, записи запросов, выполнения создания,удаления и репликации блока по команде Namenode.https://riptutorial.com/ru/home10

HDFS предназначен для хранения очень больших файлов на машинах в большомкластере. Каждый файл представляет собой последовательность блоков. Все блокив файле, кроме последнего, имеют одинаковый размер. Блоки реплицируются дляотказоустойчивости. Namenode получает Heartbeat и BlockReport от каждогоDataNode в кластере. BlockReport содержит все блоки в Datanode.Команды оболочки HadoopИспользуемые общие команды: ls Использование: hasoop fs -ls Путь (путь к файлу / директории ).Использование Cat : hadoop fs -cat PathOfFileToViewСсылка на команды оболочки оболочки: �тайте Начало работы с hadoop онлайн: //riptutorial.com/ru/home11

rial.com/ru/home12

глава 2: Введение в MapReduceСинтаксис Для запуска примера синтаксис команды:bin/hadoop jar hadoop-*-examples.jar wordcount [-m #maps ] [-r #reducers ] in-dir out-dir Чтобы скопировать данные в HDFS (из локального):bin/hadoop dfs -mkdir hdfs-dir //not required in hadoop 0.17.2 and laterbin/hadoop dfs -copyFromLocal local-dir hdfs-dir замечанияWord Count, используя MapReduce в Hadoop.ExamplesПрограмма подсчета слов (в Java и Python)Программа подсчета слов похожа на программу Hello World в MapReduce.Hadoop MapReduce - это программная среда для удобного написания приложений, которыеобрабатывают огромное количество данных (многотабайтные наборы данных) впараллельном режиме на больших кластерах (тысячи узлов) товарного оборудованиянадежным, отказоустойчивым способом.Задача MapReduce обычно разбивает входные данные на независимые фрагменты,которые обрабатываются задачами карты полностью параллельным образом. Структурасортирует выходные данные карт, которые затем вводятся в задачи сокращения. Какправило, вход и выход задания хранятся в файловой системе. Рамка заботится опланировании задач, контролирует их и повторно выполняет неудавшиеся задачи.Пример подсчета слов:Пример WordCount читает текстовые файлы и подсчитывает, как часто встречаются слова.Ввод - текстовые файлы, а вывод - текстовые файлы, каждая строка которых содержитслово и количество, как часто это происходило, разделенные вкладкой.Каждый картограф берет строку в качестве входных данных и разбивает ее на слова.Затем он испускает пару ключ / значение слова, и каждый редуктор суммирует подсчетыhttps://riptutorial.com/ru/home13

для каждого слова и испускает один ключ / значение со словом и суммой.В качестве оптимизации редуктор также используется в качестве объединителя навыходах карты. Это уменьшает количество данных, отправляемых по сети, путемобъединения каждого слова в одну запись.Количество слов:package org.myorg;import java.io.IOException;import educe.lib.output.TextOutputFormat;public class WordCount {public static class Map extends Mapper LongWritable, Text, Text, IntWritable {private final static IntWritable one new IntWritable(1);private Text word new Text();public void map(LongWritable key, Text value, Context context) throws IOException,InterruptedException {String line value.toString();StringTokenizer tokenizer new StringTokenizer(line);while (tokenizer.hasMoreTokens()) d, one);}}}public static class Reduce extends Reducer Text, IntWritable, Text, IntWritable {public void reduce(Text key, Iterable IntWritable values, Context context)throws IOException, InterruptedException {int sum 0;for (IntWritable val : values) {sum val.get();}context.write(key, new IntWritable(sum));}}public static void main(String[] args) throws Exception {Configuration conf new Configuration();Job job new Job(conf, ptutorial.com/ru/home14

at.class);FileInputFormat.addInputPath(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new � запуска примера синтаксис команды:bin/hadoop jar hadoop-*-examples.jar wordcount [-m #maps ] [-r #reducers ] in-dir outdir Все файлы в каталоге ввода (называемые in-dir в командной строке выше) считываются, аколичество слов на входе записывается в выходной каталог (вызывается out-dir выше).Предполагается, что оба входа и выхода хранятся в HDFS. Если ваш вход еще ненаходится в HDFS, но где-то в локальной файловой системе, вам нужно скопироватьданные в HDFS с помощью следующей команды:bin/hadoop dfs -mkdir hdfs-dir //not required in hadoop 0.17.2 and laterbin/hadoop dfs -copyFromLocal local-dir hdfs-dir Пример примера Word в Python:mapper.pyimport sysfor line in sys.stdin:# remove leading and trailing whitespaceline line.strip()# split the line into wordswords line.split()# increase countersfor word in words:print '%s\t%s' % (word, 1)reducer.pyimport syscurrent word Nonecurrent count 0word Nonefor line in sys.stdin:# remove leading and trailing whitespacesline line.strip()# parse the input we got from mapper.pyword, count line.split('\t', 1)https://riptutorial.com/ru/home15

# convert count (currently a string) to inttry:count int(count)except ValueError:# count was not a number, so silently# ignore/discard this linecontinueif current word word:current count countelse:if current word:print '%s\t%s' % (current word, current count)current count countcurrent word wordif current word word:print '%s\t%s' % (current word, current count)Вышеупомянутая программа может быть запущена с помощью catfilename.txt pythonmapper.py sort -k1,1 python reducer.pyПрочитайте Введение в MapReduce онлайн: /home16

глава 3: Данные загрузки HadoopExamplesЗагрузка данных в hoods hadoopШАГ 1: СОЗДАТЬ СПРАВОЧНИК В HDFS, ЗАГРУЗИТЬ ФАЙЛ И СПИСОК СОДЕРЖАНИЕДавайте узнаем, написав синтаксис. Вы сможете скопировать и вставить следующиепримеры команд в ваш терминал:hadoop fs -mkdir:Принимает URI пути в качестве аргумента и создает каталог или несколько каталогов.Использование:# hadoop fs -mkdir paths Пример:hadoop fs -mkdir /user/hadoophadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2 /user/hadoop/dir3hadoop fs -put:Копирует один файл src или несколько файлов src из локальной файловой системы враспределенную файловую систему Hadoop.Использование:# hadoop fs -put local-src . HDFS dest path Пример:https://riptutorial.com/ru/home17

hadoop fs -put popularNames.txt /user/hadoop/dir1/popularNames.txthadoop fs -copyFromLocal:Копирует один файл src или несколько файлов src из локальной файловой системы враспределенную файловую систему Hadoop.Использование:# hadoop fs -copyFromLocal local-src . HDFS dest path Пример:hadoop fs -copyFromLocal popularNames.txt /user/hadoop/dir1/popularNames.txthadoop fs -moveFromLocal:Аналогично команде put, за исключением того, что исходный localsrc удаляется после �ие:# hadoop fs -moveFromLocal local-src . HDFS dest path Пример:hadoop fs -moveFromLocal popularNames.txt /user/hadoop/dir1/popularNames.txtSQOOP DATA TRANSFER TOOL:Мы также можем загружать данные в HDFS непосредственно из реляционных баз данных,используя Sqoop (инструмент командной строки для передачи данных из РСУБД в HDFS ps://riptutorial.com/ru/home18

sqoop import --connect CONNECTION STRING --username USER NAME --table TABLE NAMEПример: sqoop import --connect jdbc:mysql://localhost/db --username foo --table TESTПрочитайте Данные загрузки Hadoop онлайн: .com/ru/home19

глава 4: Команды HadoopСинтаксис Команды Hadoop v1: hadoop Команды Hadoop v2: hdfsfs - command dfs - command ExamplesКоманды Hadoop v11. Распечатайте версию Hadoophadoop version2. Перечислите содержимое корневогокаталога в HDFShadoop fs -ls /3. Сообщите объем используемогопространства идоступный в текущей файловой системеhadoop fs -df hdfs:/4. Подсчитайте количество каталогов,файлов и байтов вhttps://riptutorial.com/ru/home20

пути, соответствующие указанномушаблону файлаhadoop fs -count hdfs:/5. Запустите утилиту проверки файловойсистемы DFS.hadoop fsck – /6. Запустите утилиту балансировкикластераhadoop balancer7. Создайте новый каталог с именем «hadoop» ниже/ user / training в HDFS. Поскольку выв настоящее время вошел в систему сидентификатором пользователя обучения,/ user / training - ваш домашний каталог вHDFS.https://riptutorial.com/ru/home21

hadoop fs -mkdir /user/training/hadoop8. Добавьте образец текстового файла излокального каталоганазвали «данные» в новый каталог,созданный в HDFSво время предыдущего шага.hadoop fs -put data/sample.txt /user/training/hadoop9. Перечислите содержимое этого новогокаталога в HDFS.hadoop fs -ls /user/training/hadoop10. Добавьте весь локальный каталог подназванием «розничная торговля» в/ user / training в HDFS.hadoop fs -put data/retail /user/training/hadoop11. Поскольку / user / training - вашдомашний каталог в HDFS,https://riptutorial.com/ru/home22

любая команда, которая не имеетабсолютного пути,интерпретируется как относительно этогокаталога. Следующийпоэтому команда перечислит вашдомашний каталог идолжен показать предметы, которые вытолько что добавили.hadoop fs -ls12. Посмотрите, сколько места занимаетэтот каталог в HDFS.hadoop fs -du -s -h hadoop/retail13. Удалите файл «клиентов» из каталога «retail».hadoop fs -rm hadoop/retail/customers14. Убедитесь, что этот файл больше неhttps://riptutorial.com/ru/home23

находится в HDFS.hadoop fs -ls hadoop/retail/customers15. Удалите все файлы из каталога «retail»с помощью шаблона.hadoop fs -rm hadoop/retail/*16. Чтобы очистить корзинуhadoop fs -expunge17. Наконец, удалите весь розничныйкаталог и всеего содержимого в HDFS.hadoop fs -rm -r hadoop/retail18. Перечислите каталог hadoop еще раз.hadoop fs -ls hadoop19. Добавьте файл purchase.txt изhttps://riptutorial.com/ru/home24

локального каталоганазванный «/ home / training /» в каталогhadoop, который вы создали в HDFShadoop fs -copyFromLocal /home/training/purchases.txt hadoop/20. Чтобы просмотреть содержимоевашего текстового файла purchase.txtкоторый присутствует в вашем каталогеhadoop.hadoop fs -cat hadoop/purchases.txt21. Добавьте файл purchase.txt из каталога«hadoop», который присутствует вкаталоге HDFSк каталогу «данные», которыйприсутствует в вашем локальном каталогеhadoop fs -copyToLocal hadoop/purchases.txt /home/training/data22. cp используется для ome25

файлов между � в HDFShadoop fs -cp /user/training/*.txt /user/training/hadoop23. Команда «-get» может но для команды «copyToLocal»hadoop fs -get hadoop/sample.txt /home/training/24. Отобразите последний килобайт файла«purchase.txt» в stdout.hadoop fs -tail hadoop/purchases.txt25. Разрешения файла по умолчанию - 666в HDFSИспользуйте команду -chmod дляизменения разрешений файлаhadoop fs -ls hadoop/purchases.txtsudo -u hdfs hadoop fs -chmod 600 e26

26. По умолчанию имена владельца игруппы - это обучение, обучениеИспользуйте «-chown» дляодновременного изменения именивладельца и имени группы.hadoop fs -ls hadoop/purchases.txtsudo -u hdfs hadoop fs -chown root:root hadoop/purchases.txt27. Имя по умолчанию группы - этообучениеИспользуйте команду -chgrp дляизменения имени группыhadoop fs -ls hadoop/purchases.txtsudo -u hdfs hadoop fs -chgrp training hadoop/purchases.txt28. Переместите каталог из одного места вдругоеhadoop fs -mv hadoop apache hadoop29. Фактор репликации по умолчанию дляфайла равен 3.https://riptutorial.com/ru/home27

Используйте команду -setrep дляизменения коэффициента репликациифайлаhadoop fs -setrep -w 2 apache hadoop/sample.txt30. Скопируйте каталог с одного узла вкластере на другой.Используйте команду «-distcp» длякопирования,-overwrite для перезаписывания всуществующих файлах-update для синхронизации обоихкаталоговhadoop fs -distcp hdfs://namenodeA/apache hadoop hdfs://namenodeB/hadoop31. Команда, чтобы узел имени покинулбезопасный режимhadoop fs -expungesudo -u hdfs hdfs dfsadmin -safemode leavehttps://riptutorial.com/ru/home28

32. Перечислите все команды оболочкифайловой системы hasoophadoop fs33. Получите значения квот hdfs и текущийсчет используемых имен и байтов.hadoop fs -count -q [-h] [-v] directory . directory 34. И последнее, но не менее важное:всегда просите о помощи!hadoop fs -helpКоманды Hadoop v2appendToFile: добавить одиночный src или несколько srcs из локальной файловойсистемы в целевую файловую систему. Также читает ввод от stdin и добавляет в целевуюфайловую систему. Храните как hdfs dfs -appendToFile [localfile1 localfile2 .] [/HDFS/FILE/PATH.]cat: копирует исходные пути в stdout.hdfs dfs -cat URI [URI ]chgrp: Изменяет групповую ассоциацию файлов. С -R рекурсивно изменяет структурукаталогов. Пользователь должен быть владельцем файла или суперпользователем.hdfs dfs -chgrp [-R] GROUP URI [URI ]chmod: Изменяет разрешения файлов. С -R рекурсивно изменяет структуру 29

Пользователь должен быть владельцем файла или суперпользователемhdfs dfs -chmod [-R] MODE[,MODE]. OCTALMODE URI [URI ]chown: Изменяет владельца файлов. С -R рекурсивно изменяет структуру каталогов.Пользователь должен быть суперпользователем.hdfs dfs -chown [-R] [OWNER][:[GROUP]] URI [URI ]copyFromLocal: работает аналогично команде put, за исключением того, что источникограничен локальной ссылкой на файл.hdfs dfs -copyFromLocal localsrc URIcopyToLocal: работает аналогично команде get, за исключением того, что местоназначения ограничено локальной ссылкой на файл.hdfs dfs -copyToLocal [-ignorecrc] [-crc] URI localdst count: подсчитывает количество каталогов, файлов и байтов под путями,соответствующими указанному шаблону файла.hdfs dfs -count [-q] [-h] paths cp: копирует один или несколько файлов из указанного источника в указанное местоназначения. Если вы укажете несколько источников, указанный адрес назначения долженбыть каталогом.hdfs dfs -cp URI [URI ] dest du: отображает размер указанного файла или размеры файлов и каталогов, которыесодержатся в указанном каталоге. Если вы укажете опцию -s, отобразится сводная сводкаразмеров файлов, а не отдельных размеров файлов. Если вы укажете опцию -h,форматирует размер файла «человеком».hdfs dfs -du [-s] [-h] URI [URI ]dus: отображает сводку размеров файлов; эквивалентно hdfs dfs -du -s.hdfs dfs -dus args expunge: Опорожняет мусор. Когда вы удаляете файл, он не сразу удаляется из HDFS, апереименовывается в файл в каталоге / trash. Пока файл остается там, вы можетевосстановить его, если передумаете, хотя можно восстановить только последнюю копиюhttps://riptutorial.com/ru/home30

удаленного файла.hdfs dfs –expungeget: копирует файлы в локальную файловую систему. Файлы, которые не выполняютпроверку циклического избыточности (CRC), могут быть скопированы, если вы укажетеопцию -ignorecrc. CRC является распространенным методом обнаружения ошибок передачиданных. Файлы контрольной суммы CRC имеют расширение .crc и используются дляпроверки целостности данных другого файла. Эти файлы копируются, если вы укажетеопцию -crc.hdfs dfs -get [-ignorecrc] [-crc] src localdst getmerge: объединяет файлы в src и записывает результат в указанный локальный файлназначения. Чтобы добавить символ новой строки в конце каждого файла, укажитепараметр addnl.hdfs dfs -getmerge src localdst [addnl]ls: возвращает статистику для указанных файлов или каталогов.hdfs dfs -ls args lsr: Служит рекурсивной версией ls; подобно команде Unix ls -R.hdfs dfs -lsr args mkdir: Создает каталоги на одном или нескольких указанных путях. Его поведениеаналогично команде Unix mkdir -p, которая создает все каталоги, которые приводят куказанному каталогу, если они уже не существуют.hdfs dfs -mkdir paths moveFromLocal: работает аналогично команде put, за исключением того, что источникудаляется после его копирования.hdfs dfs -moveFromLocal localsrc dest mv: перемещает один или несколько файлов из указанного источника в указанное местоназначения. Если вы укажете несколько источников, указанный адрес назначения долженбыть каталогом. Перемещение файлов в файловых системах запрещено.hdfs dfs -mv URI [URI ] dest https://riptutorial.com/ru/home31

put: копирует файлы из локальной файловой системы в целевую файловую систему. Этакоманда также может считывать входные данные из stdin и записывать в целевуюфайловую систему.hdfs dfs -put localsrc . dest rm: Удаляет один или несколько указанных файлов. Эта команда не удаляет пустыекаталоги или файлы. Чтобы обойти корзину (если она включена) и немедленно удалитьуказанные файлы, укажите параметр -skipTrash.hdfs dfs -rm [-skipTrash] URI [URI ]rm r: Служит рекурсивной версией -rm.hdfs dfs -rm -r [-skipTrash] URI [URI ]setrep: Изменяет коэффициент репликации для указанного файла или каталога. С -Rрекурсивно изменяет структуру каталогов.hdfs dfs -setrep rep [-R] path stat: отображает информацию о указанном пути.hdfs dfs -stat URI [URI ]tail: отображает последний килобайт указанного файла в stdout. Синтаксис поддерживаетпараметр Unix -f, который позволяет контролировать указанный файл. Когда новые строкидобавляются в файл другим процессом, хвост обновляет отображение.hdfs dfs -tail [-f] URItest: Возвращает атрибуты указанного файла или каталога. Определяет -e, чтобыопределить, существует ли файл или каталог; -z, чтобы определить, пуст ли файл иликаталог; и -d, чтобы определить, является ли URI каталогом.hdfs dfs -test -[ezd] URItext: выводит указанный исходный файл в текстовом формате. Допустимые форматывходных файлов - zip и TextRecordInputStream.hdfs dfs -text src touchz: Создает новый пустой файл размером 0 по указанному пути.hdfs dfs -touchz path https://riptutorial.com/ru/home32

Прочитайте Команды Hadoop онлайн: �андыhadoophttps://riptutorial.com/ru/home33

глава 5: Отладка Java-кода Hadoop MR влокальной среде eclipse dev.ВступлениеОсновная вещь, которую следует помнить здесь, заключается в том, что отладка заданияHadoop MR будет похожа на любое отдаленно отлаженное приложение в Eclipse.Отладчик или инструмент отладки - это компьютерная программа, которая используетсядля тестирования и отладки других программ («целевой» программы). Он очень полезенспециально для среды Hadoop, где мало места для ошибки, и одна небольшая ошибкаможет привести к огромным потерям.замечанияЭто все, что вам нужно сделать.ExamplesШаги для настройкиКак вы знаете, Hadoop можно запустить в локальной среде в трех разных режимах:1. Локальный режим2. Псевдораспределенный режим3. Полностью распределенный режим (кластер)Как правило, вы будете запускать свою локальную настройку в формате Pseudo DistributedMode для использования HDFS и Map Reduce (MR). Однако вы не можете отлаживатьпрограммы MR в этом режиме, так как каждая задача Map / Reduce будет выполняться вотдельном JVM-процессе, поэтому вам нужно переключиться обратно в локальный режим,где вы можете запускать программы MR в одном процессе JVM.Ниже перечислены быстрые и простые шаги по его отладке в локальной среде:1. Запустите hadoop в локальном режиме для отладки, поэтому задачи сопоставления иредуктора выполняются в одной JVM вместо отдельных JVM. Ниже шаги помогут вамэто сделать.2. Настройте HADOOP OPTS, чтобы включить отладку, поэтому, когда вы запускаетезадание Hadoop, он будет ожидать, когда отладчик будет подключаться. Нижеприведена команда для отладки на порту 8080.https://riptutorial.com/ru/home34

(экспорт HADOOP OPTS "- agentlib: jdwp transport dt socket, server y, suspend y,address 8008")3. Настройте значение fs.default.name в файле core-site.xml в файле: /// из hdfs: //. Вы небудете использовать hdfs в локальном режиме.4. Настроить mapred.job.tracker значение в mapred-site.xml для локального. Это дастуказание Hadoop запускать задачи MR в одной JVM.5. Создайте конфигурацию отладки для Eclipse и установите для порта 8008 - типичныйматериал. Для этого перейдите к настройкам отладчика и создайте новый типконфигурации удаленного Java-приложения и установите в качестве па

1: hadoop 2 2 Apache Hadoop? 2 Apache Hadoop : 2: 2 2 Examples 3 Linux 3 Hadoop ubuntu 5 Hadoop: 5: 6 SSH: 6 hadoop sudoer: 8 IPv6: 8 Hadoop: 8 Hadoop HDFS 9 2: MapReduce 13 13 13 Examples 13 ( Java Python) 13 3: Hadoop 17 Examples 17 hoods hadoop 17 hadoop fs -mkdir: 17: 17: 17 hadoop fs -put: 17: 17

Hadoop - Riptutorial

It looks like you're using an ad-blocker