MENU

KATEGORIE

TOPLISTA

Torrent: Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych (2015, Helion) - Tom White [PL] [pdf] [LIBGEN]
Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych (2015, Helion) - Tom White [PL] [pdf] [LIBGEN]
Dodał: umezrorv
Data: 19-07-2021
Rozmiar: 9.09 MB
Seed: 1
Peer: 0
Pobierz torrent

  • *
Głosów: 0
Kategoria: KSIĄŻKI -> KSIĄZKI / GAZETY
Zaakceptował: nie wymagał akceptacji
Liczba pobrań: 2
Liczba komentarzy: 0
Ostatnia aktualizacja: 0000-00-00 00:00:00
OPIS:
..::(Info)::..

Tytuł: Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych
Rok: 2015
Wydawca: Helion
Format: pdf

..::(Opis)::..

Analiza danych z Hadoopem — i wszystko staje się prostsze!
Podstawy Hadoopa i model MapReduce
Praca z Hadoopem, budowa klastra i zarządzanie platformą
Dodatki zwiększające funkcjonalność Hadoopa
Platforma Apache Hadoop to jedno z zaawansowanych narzędzi informatycznych. Dzięki niej można przeprowadzać różne operacje na dużych ilościach danych i znacznie skrócić czas wykonywania tych działań. Wszędzie tam, gdzie potrzebne jest szybkie sortowanie, obliczanie i archiwizowanie danych — np. w dużych międzynarodowych sklepach internetowych, serwisach społecznościowych lub wyszukiwarkach, takich jak Amazon, Facebook, Yahoo!, Apache Hadoop sprawdza się znakomicie. Jeśli potrzebne Ci narzędzie do poważnej analizy dużych zbiorów danych, nie znajdziesz lepszego rozwiązania!

Tę książkę napisał wytrawny znawca i współtwórca Hadoopa. Przedstawia w niej wszystkie istotne mechanizmy działania platformy i pokazuje, jak efektywnie jej używać. Dowiesz się stąd, do czego służą model MapReduce oraz systemy HDFS i YARN. Nauczysz się budować aplikacje oraz klastry. Poznasz dwa formaty danych, a także wykorzystasz narzędzia do ich pobierania i transferu. Sprawdzisz, jak wysokopoziomowe narzędzia do przetwarzania danych współdziałają z Hadoopem. Zorientujesz się, jak działa rozproszona baza danych i jak zarządzać konfiguracją w środowisku rozproszonym. Przeczytasz również o nowinkach w Hadoopie 2 i prześledzisz studia przypadków ilustrujące rolę Hadoopa w systemach służby zdrowia i przy przetwarzaniu danych o genomie.
Hadoop i model MapReduce
Systemy HDFS i YARN
Operacje wejścia – wyjścia w platformie Hadoop
Typy, formaty, funkcje i budowa aplikacji w modelu MapReduce
Zarządzanie platformą Hadoop
Avro, Parquet, Flume i Sqoop — metody pracy z danymi
Pig, Hive, Crunch i Spark — wysokopoziomowe narzędzia do przetwarzania danych
HBase i ZooKeeper — praca w środowisku rozproszonym
Integrowanie danych w firmie Cerner
Nauka o danych biologicznych
Cascading
Hadoop — rozwiązanie na miarę wyzwań globalnych!

Tom White — jeden z czołowych ekspertów w zakresie obsługi platformy Hadoop. Członek organizacji Apache Software Foundation, inżynier oprogramowania w firmie Cloudera.
Spis treści
Przedmowa
Wprowadzenie
Kwestie porządkowe
Co nowego znajdziesz w wydaniu czwartym?
Konwencje stosowane w tej książce
Korzystanie z przykładowego kodu
Podziękowania
Część I. Podstawy platformy Hadoop
Rozdział 1. Poznaj platformę Hadoop
 Dane!
 Przechowywanie i analizowanie danych
 Przetwarzanie w zapytaniach wszystkich danych
 Poza przetwarzanie wsadowe
 Porównanie z innymi systemami
  Systemy RDBMS
  Przetwarzanie sieciowe
  Przetwarzanie z udziałem ochotników
 Krótka historia platformy Apache Hadoop
 Zawartość książki
Rozdział 2. Model MapReduce
 Zbiór danych meteorologicznych
  Format danych
 Analizowanie danych za pomocą narzędzi uniksowych
 Analizowanie danych za pomocą Hadoopa
  Mapowanie i redukcja
  Model MapReduce w Javie
 Skalowanie
  Przepływ danych
  Funkcje łączące
  Wykonywanie rozproszonego zadania w modelu MapReduce
 Narzędzie Streaming Hadoop
  Ruby
  Python
Rozdział 3. System HDFS
 Projekt systemu HDFS
 Pojęcia związane z systemem HDFS
  Bloki
  Węzły nazw i węzły danych
  Zapisywanie bloków w pamięci podręcznej
  Federacje w systemie HDFS
  Wysoka dostępność w systemie HDFS
 Interfejs uruchamiany z wiersza poleceń
  Podstawowe operacje w systemie plików
 Systemy plików w Hadoopie
  Interfejsy
 Interfejs w Javie
  Odczyt danych na podstawie adresu URL systemu Hadoop
  Odczyt danych za pomocą interfejsu API FileSystem
  Zapis danych
  Katalogi
  Zapytania w systemie plików
  Usuwanie danych
 Przepływ danych
  Anatomia odczytu pliku
  Anatomia procesu zapisu danych do pliku
  Model zapewniania spójności
 Równoległe kopiowanie za pomocą programu distcp
  Zachowywanie równowagi w klastrach z systemem HDFS
Rozdział 4. System YARN
 Struktura działania aplikacji w systemie YARN
  Żądania zasobów
  Czas życia aplikacji
  Budowanie aplikacji systemu YARN
 System YARN a implementacja MapReduce 1
 Szeregowanie w systemie YARN
  Dostępne programy szeregujące
  Konfigurowanie programu szeregującego Capacity
  Konfigurowanie programu szeregującego Fair
  Szeregowanie z opóźnieniem
  Podejście Dominant Resource Fairness
 Dalsza lektura
Rozdział 5. Operacje wejścia-wyjścia w platformie Hadoop
 Integralność danych
  Integralność danych w systemie HDFS
  Klasa LocalFileSystem
  Klasa ChecksumFileSystem
 Kompresja
  Kodeki
  Kompresja i podział danych wejściowych
  Wykorzystywanie kompresji w modelu MapReduce
  Serializacja
  Interfejs Writable
  Klasy z rodziny Writable
  Tworzenie niestandardowych implementacji interfejsu Writable
  Platformy do obsługi serializacji
 Plikowe struktury danych
  Klasa SequenceFile
  Klasa MapFile
  Inne formaty plików i formaty kolumnowe
Część II. Model MapReduce
Rozdział 6. Budowanie aplikacji w modelu MapReduce
 API do obsługi konfiguracji
  Łączenie zasobów
  Podstawianie wartości zmiennych
  Przygotowywanie środowiska programowania
  Zarządzanie konfiguracją
  GenericOptionsParser, Tool i ToolRunner
 Pisanie testów jednostkowych za pomocą biblioteki MRUnit
  Mapper
  Reduktor
 Uruchamianie kodu lokalnie na danych testowych
  Uruchamianie zadania w lokalnym mechanizmie wykonywania zadań
  Testowanie sterownika
 Uruchamianie programów w klastrze
  Tworzenie pakietu z zadaniem
  Uruchamianie zadania
  Sieciowy interfejs użytkownika modelu MapReduce
  Pobieranie wyników
  Debugowanie zadania
  Dzienniki w Hadoopie
  Zdalne diagnozowanie
 Dostrajanie zadania
  Profilowanie operacji
 Przepływ pracy w modelu MapReduce
  Rozbijanie problemu na zadania w modelu MapReduce
  JobControl
  Apache Oozie
Rozdział 7. Jak działa model MapReduce?
 Wykonywanie zadań w modelu MapReduce
  Przesyłanie zadania
  Inicjowanie zadania
  Przypisywanie operacji do węzłów
  Wykonywanie operacji
  Aktualizowanie informacji o postępie i statusu
  Ukończenie zadania
 Niepowodzenia
  Niepowodzenie operacji
  Niepowodzenie zarządcy aplikacji
  Niepowodzenie menedżera węzła
  Niepowodzenie menedżera zasobów
 Przestawianie i sortowanie
  Etap mapowania
  Etap redukcji
  Dostrajanie konfiguracji
 Wykonywanie operacji
  Środowisko wykonywania operacji
  Wykonywanie spekulacyjne
  Klasy z rodziny OutputCommitter
Rozdział 8. Typy i formaty z modelu MapReduce
 Typy w modelu MapReduce
  Domyślne zadanie z modelu MapReduce
 Formaty wejściowe
  Wejściowe porcje danych i rekordy
  Tekstowe dane wejściowe
  Binarne dane wejściowe
  Różne dane wejściowe
  Dane wejściowe (i wyjściowe) z bazy
 Formaty danych wyjściowych
  Tekstowe dane wyjściowe
  Binarne dane wyjściowe
  Wiele danych wyjściowych
  Leniwe generowanie danych wyjściowych
  Dane wyjściowe dla bazy
Rozdział 9. Funkcje modelu MapReduce
 Liczniki
  Liczniki wbudowane
  Zdefiniowane przez użytkowników liczniki Javy
  Zdefiniowane przez użytkownika liczniki narzędzia Streaming
 Sortowanie
  Przygotowania
  Częściowe sortowanie
  Sortowanie wszystkich danych
  Sortowanie pomocnicze
 Złączanie
  Złączanie po stronie mapowania
  Złączanie po stronie redukcji
 Rozdzielanie danych pomocniczych
  Wykorzystanie konfiguracji zadania
  Rozproszona pamięć podręczna
 Klasy biblioteczne modelu MapReduce
Część III. Praca z platformą Hadoop
Rozdział 10. Budowanie klastra opartego na platformie Hadoop
 Specyfikacja klastra
  Określanie wielkości klastra
  Topologia sieci
 Przygotowywanie i instalowanie klastra
  Instalowanie Javy
  Tworzenie kont użytkowników w Uniksie
  Instalowanie Hadoopa
  Konfigurowanie ustawień protokołu SSH
  Konfigurowanie Hadoopa
  Formatowanie systemu plików HDFS
  Uruchamianie i zatrzymywanie demonów
  Tworzenie katalogów użytkowników
 Konfiguracja Hadoopa
  Zarządzanie konfiguracją
  Ustawienia środowiskowe
  Ważne właściwości demonów Hadoopa
  Adresy i porty demonów Hadoopa
  Inne właściwości Hadoopa
 Bezpieczeństwo
  Kerberos i Hadoop
  Tokeny do delegowania uprawnień
  Inne usprawnienia w zabezpieczeniach
 Testy porównawcze klastra opartego na Hadoopie
  Testy porównawcze w Hadoopie
  Zadania użytkowników
Rozdział 11. Zarządzanie platformą Hadoop
 System HDFS
  Trwałe struktury danych
  Tryb bezpieczny
  Rejestrowanie dziennika inspekcji
  Narzędzia
 Monitorowanie
  Rejestrowanie informacji w dziennikach
  Wskaźniki i technologia JMX
 Konserwacja
  Standardowe procedury administracyjne
  Dodawanie i usuwanie węzłów
  Aktualizacje
Część IV. Powiązane projekty
Rozdział 12. Avro
 Typy danych i schematy systemu Avro
 Serializacja i deserializacja w pamięci
  Specyficzny interfejs API
 Pliki danych systemu Avro
 Współdziałanie języków
  Interfejs API dla Pythona
  Narzędzia systemu Avro
 Określanie schematu
 Porządek sortowania
 Avro i model MapReduce
 Sortowanie za pomocą modelu MapReduce i systemu Avro
 Używanie systemu Avro w innych językach
Rozdział 13. Parquet
 Model danych
  Kodowanie struktury zagnieżdżonych danych
 Format plików Parquet
 Konfiguracja dla formatu Parquet
 Zapis i odczyt plików w formacie Parquet
  Avro, Protocol Buffers i Thrift
 Format Parquet i model MapReduce
 Instalowanie platformy Flume
Rozdział 14. Flume
 Przykład
 Transakcje i niezawodność
  Porcje zdarzeń
 Ujścia w systemie HDFS
  Podział na partycje i interceptory
  Formaty plików
 Rozsyłanie danych do wielu kanałów
  Gwarancje dostarczenia
  Selektory replikacji i rozsyłania
 Dystrybucja — warstwy agentów
  Gwarancje dostarczenia danych
 Grupy ujść
 Integrowanie platformy Flume z aplikacjami
 Katalog komponentów
 Dalsza lektura
 Pobieranie Sqoopa
Rozdział 15. Sqoop
 Konektory Sqoopa
 Przykładowa operacja importu
  Formaty plików tekstowych i binarnych
 Wygenerowany kod
  Inne systemy serializacji
 Importowanie — dokładne omówienie
 Kontrolowanie procesu importu
  Import i spójność
  Przyrostowy import
  Importowanie w trybie bezpośrednim
 Praca z zaimportowanymi danymi
  Importowane dane i platforma Hive
 Importowanie dużych obiektów
 Eksportowanie
 Eksportowanie — dokładne omówienie
  Eksport i transakcje
  Eksport i pliki typu SequenceFile
 Dalsza lektura
Rozdział 16. Pig
 Instalowanie i uruchamianie platformy Pig
  Tryby wykonywania
  Uruchamianie programów platformy Pig
  Grunt
  Edytory kodu w języku Pig Latin
 Przykład
  Generowanie przykładowych danych
 Porównanie platformy Pig z bazami danych
 Język Pig Latin
  Struktura
  Instrukcje
  Wyrażenia
  Typy
  Schematy
  Funkcje
  Makra
 Funkcje zdefiniowane przez użytkownika
  Funkcje UDF służące do filtrowania
  Obliczeniowa funkcja UDF
  Funkcje UDF służące do wczytywania danych
 Operatory używane do przetwarzania danych
  Wczytywanie i zapisywanie danych
  Filtrowanie danych
  Grupowanie i złączanie danych
  Sortowanie danych
  Łączenie i dzielenie danych
 Platforma Pig w praktyce
  Współbieżność
  Relacje anonimowe
  Podstawianie wartości pod parametry
 Dalsza lektura
Rozdział 17. Hive
 Instalowanie platformy Hive
  Powłoka platformy Hive
 Przykład
 Uruchamianie platformy Hive
  Konfigurowanie platformy Hive
  Usługi platformy Hive
  Magazyn metadanych
 Porównanie z tradycyjnymi bazami danych
  Uwzględnianie schematu przy odczycie lub przy zapisie
  Aktualizacje, transakcje i indeksy
  Inne silniki obsługujące język SQL w Hadoopie
 HiveQL
  Typy danych
  Operatory i funkcje
 Tabele
  Tabele zarządzane i tabele zewnętrzne
  Partycje i kubełki
  Formaty przechowywania danych
  Importowanie danych
  Modyfikowanie tabel
  Usuwanie tabel
 Pobieranie danych
  Sortowanie i agregacja danych
  Skrypty modelu MapReduce
  Złączenia
  Podzapytania
  Widoki
 Funkcje zdefiniowane przez użytkowników
  Pisanie funkcji UDF
  Pisanie funkcji UDAF
 Dalsza lektura
Rozdział 18. Crunch
 Przykład
 Podstawowe interfejsy API Cruncha
  Proste operacje
  Typy
  Źródłowe i docelowe zbiory danych
  Funkcje
  Materializacja
 Wykonywanie potoku
  Uruchamianie potoku
  Zatrzymywanie potoku
  Inspekcja planu wykonania w Crunchu
  Algorytmy iteracyjne
  Tworzenie punktów kontrolnych w potokach
 Biblioteki w Crunchu
 Dalsza lektura
Rozdział 19. Spark
 Instalowanie Sparka
 Przykład
  Aplikacje, zadania, etapy i operacje w Sparku
  Niezależna aplikacja w języku Scala
  Przykład napisany w Javie
  Przykład napisany w Pythonie
 Zbiory RDD
  Tworzenie zbiorów RDD
  Transformacje i akcje
  Utrwalanie danych
  Serializacja
 Zmienne współużytkowane
  Zmienne rozsyłane
  Akumulatory
 Anatomia przebiegu zadania w Sparku
  Przesyłanie zadań
  Tworzenie skierowanego grafu acyklicznego
  Szeregowanie operacji
  Wykonywanie operacji
 Wykonawcy i menedżery klastra
  Spark i YARN
 Dalsza lektura
Rozdział 20. HBase
 Podstawy
  Tło historyczne
 Omówienie zagadnień
  Krótki przegląd modelu danych
  Implementacja
 Instalacja
  Przebieg testowy
 Klienty
  Java
  Model MapReduce
  Interfejsy REST i Thrift
 Budowanie interaktywnej aplikacji do przesyłania zapytań
  Projekt schematu
  Wczytywanie danych
  Zapytania interaktywne
 Baza HBase a bazy RDBMS
  Historia cieszącej się powodzeniem usługi
  Baza HBase
 Bazy HBase w praktyce
  System HDFS
  Interfejs użytkownika
  Wskaźniki
  Liczniki
 Dalsza lektura
Rozdział 21. ZooKeeper
 Instalowanie i uruchamianie systemu ZooKeeper
 Przykład
  Przynależność do grupy w systemie ZooKeeper
  Tworzenie grupy
  Dołączanie członków do grupy
  Wyświetlanie członków grupy
  Usuwanie grupy
 Usługa ZooKeeper
  Model danych
  Operacje
  Implementacja
  Spójność
  Sesje
  Stany
 Budowanie aplikacji z wykorzystaniem ZooKeepera
  Usługa do zarządzania konfiguracją
  Odporna na błędy aplikacja ZooKeepera
  Usługa do zarządzania blokadami
  Inne rozproszone struktury danych i protokoły
 ZooKeeper w środowisku produkcyjnym
  Odporność a wydajność
  Konfiguracja
 Dalsza lektura
Część V. Studia przypadków
Rozdział 22. Integrowanie danych w firmie Cerner
 Od integracji procesorów do integracji semantycznej
 Poznaj platformę Crunch
 Budowanie kompletnego obrazu
 Integrowanie danych z obszaru opieki zdrowotnej
 Możliwość łączenia danych w różnych platformach
 Co dalej?
Rozdział 23. Nauka o danych biologicznych — ratowanie życia za pomocą oprogramowania
 Struktura DNA
 Kod genetyczny — przekształcanie liter DNA w białka
 Traktowanie kodu DNA jak kodu źródłowego
 Projekt poznania ludzkiego genomu i genomy referencyjne
 Sekwencjonowanie i wyrównywanie DNA
 ADAM — skalowalna platforma do analizy genomu
  Programowanie piśmienne za pomocą języka IDL systemu Avro
  Dostęp do danych kolumnowych w formacie Parquet
  Prosty przykład — zliczanie k-merów za pomocą Sparka i ADAM-a
 Od spersonalizowanych reklam do spersonalizowanej medycyny
 Dołącz do projektu
Rozdział 24. Cascading
 Pola, krotki i potoki
  Operacje
 Typy Tap, Scheme i Flow
 Cascading w praktyce
  Elastyczność
 Hadoop i Cascading w serwisie ShareThis
 Podsumowanie
Dodatki
Dodatek A. Instalowanie platformy Apache Hadoop
 Wymagania wstępne
 Instalacja
 Konfiguracja
  Tryb niezależny
  Tryb pseudorozproszony
  Tryb rozproszony
Dodatek B. Dystrybucja firmy Cloudera
Dodatek C. Przygotowywanie danych meteorologicznych od instytucji NCDC
Dodatek D. Dawny i nowy interfejs API Javy dla modelu MapReduce
Skorowidz
DETALE TORRENTA:[ Pokaż/Ukryj ]

Podobne pliki
Zwinna analiza danych. Apache Hadoop dla każdego - Russell Jurney [PL] [PDF, EPUB] [FIONA9]
Zwinna analiza danych. Apache Hadoop dla każdego - Russell Jurney [PL] [PDF, EPUB] [FIONA9]
C# 6.0. Kompletny przewodnik dla praktyków (2016, Helion) - Mark Michaelis, Eric Lippert [PL] [rar] [LIBGEN]
C# 6.0. Kompletny przewodnik dla praktyków (2016, Helion) - Mark Michaelis, Eric Lippert [PL] [rar] [LIBGEN]
Access. Analiza danych. Receptury (2012, O'Reilly Media;Helion) - Ken Bluttman,Wayne S. Freeze [PL] [epub] [LIBGEN]
Access. Analiza danych. Receptury (2012, O'Reilly Media;Helion) - Ken Bluttman,Wayne S. Freeze [PL] [epub] [LIBGEN]
Spark. Zaawansowana analiza danych (2016, Helion) - Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills [PL] [pdf] [LIBGEN]
Spark. Zaawansowana analiza danych (2016, Helion) - Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills [PL] [pdf] [LIBGEN]
Bazy danych. Podstawy projektowania i języka SQL (2015, Helion) - Krystyna CzaPLa [PL] [pdf] [LIBGEN]
Bazy danych. Podstawy projektowania i języka SQL (2015, Helion) - Krystyna CzaPLa [PL] [pdf] [LIBGEN]
Algorytmy, struktury danych i techniki programowania (2015, Helion) - Piotr Wróblewski [PL] [pdf] [LIBGEN]
Algorytmy, struktury danych i techniki programowania (2015, Helion) - Piotr Wróblewski [PL] [pdf] [LIBGEN]
Java 8. Przewodnik doświadczonego programisty (2015, Helion) - Cay S. Horstmann [PL] [pdf] [LIBGEN]
Java 8. Przewodnik doświadczonego programisty (2015, Helion) - Cay S. Horstmann [PL] [pdf] [LIBGEN]
Ruby. Przewodnik programisty (2015, Helion) - David A. Black [PL] [pdf] [LIBGEN]
Ruby. Przewodnik programisty (2015, Helion) - David A. Black [PL] [pdf] [LIBGEN]

Komentarze

Brak komentarzy

Zaloguj się aby skomentować