Python, Spark, and Hadoop for Big Data Eğitimi
Python, veri bilimi ve makine öğrenimi için ölçeklenebilir, esnek ve yaygın olarak kullanılan bir programlama dilidir. Spark, büyük verileri sorgulamak, analiz etmek ve dönüştürmek için kullanılan bir veri işleme motoru iken, Hadoop büyük ölçekli veri depolama ve işleme için bir yazılım kütüphanesi çerçevesidir.
Bu eğitmen liderliğindeki, canlı eğitim (çevrimiçi veya yerinde), Spark, Hadoop ve Python'yı kullanarak büyük ve karmaşık veri kümelerini işlemek, analiz etmek ve dönüştürmek isteyen geliştiricilere yöneliktir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Spark, Hadoop ve Python ile büyük veri işlemeye başlamak için gerekli ortamı kurmak.
- Spark ve Hadoop'in özelliklerini, temel bileşenlerini ve mimarisini anlamak.
- Büyük veri işleme için Spark, Hadoop ve Python'yı nasıl entegre edeceğini öğrenmek.
- Spark ekosistemindeki araçları (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka ve Flume) keşfetmek.
- Netflix, YouTube, Amazon, Spotify ve Google gibi işbirlikçi filtreleme öneri sistemleri oluşturmak.
- Apache Mahout'u kullanarak makine öğrenimi algoritmalarını ölçeklendirmek.
Kurs Formatı
- Etkileşimli ders ve tartışma.
- Çok sayıda alıştırma ve uygulama.
- Canlı laboratuvar ortamında uygulamalı uygulama.
Kurs Özelleştirme Seçenekleri
- Bu kurs için özelleştirilmiş bir eğitim talep etmek için lütfen bizimle iletişime geçin.
Eğitim İçeriği
Giriş
- Spark ve Hadoop özelliklerinin ve mimarisinin genel bakışı
- Büyük veriyi anlama
- Python programlama temelleri
Başlarken
- Python, Spark ve Hadoop'i kurma
- Python'daki veri yapılarını anlama
- PySpark API'sini anlama
- HDFS ve MapReduce'u anlama
Spark ve Hadoop'in Python ile Entegrasyonu
- Python'da Spark RDD'yi uygulama
- MapReduce kullanarak veri işleme
- HDFS'de dağıtılmış veri kümeleri oluşturma
Machine Learning Spark MLlib ile
Big Data'ü Spark Streaming ile işleme
Öneren Sistemlerle Çalışma
Kafka, Sqoop, Kafka ve Flume ile Çalışma
Apache Mahout ile Spark ve Hadoop
Sorun Giderme
Özet ve Sonraki Adımlar
Kurs İçin Gerekli Önbilgiler
- Spark deneyimi ve Hadoop
- Python programlama deneyimi
Hedef Kitle
- Verim bilimcileri
- Geliştiriciler
Açık Eğitim Kursları 5 ve üzeri katılımcı gerektirir.
Python, Spark, and Hadoop for Big Data Eğitimi - Booking
Python, Spark, and Hadoop for Big Data Eğitimi - Enquiry
Python, Spark, and Hadoop for Big Data - Danışmanlık Talebi
Danışmanlık Talebi
Danışanlarımızın Yorumları (3)
The fact that we were able to take with us most of the information/course/presentation/exercises done, so that we can look over them and perhaps redo what we didint understand first time or improve what we already did.
Raul Mihail Rat - Accenture Industrial SS
Eğitim - Python, Spark, and Hadoop for Big Data
I liked that it managed to lay the foundations of the topic and go to some quite advanced exercises. Also provided easy ways to write/test the code.
Ionut Goga - Accenture Industrial SS
Eğitim - Python, Spark, and Hadoop for Big Data
The live examples
Ahmet Bolat - Accenture Industrial SS
Eğitim - Python, Spark, and Hadoop for Big Data
Yaklaşan Etkinlikler
İlgili Kurslar
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 SaatBu kurs, uygulamalarında yapay zekayı anlamak ve uygulamak isteyen geliştiricilere ve veri bilimcilerine yöneliktir. Özellikle veri analizi, dağıtık yapay zeka ve doğal dil işleme konularına odaklanmaktadır.
Big Data Analytics with Google Colab and Apache Spark
14 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), büyük veri işleme ve analitiği için Google Colab ve Apache Spark kullanmak isteyen orta seviyedeki veri bilimcileri ve mühendisleri hedefler.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Google Colab ve Spark kullanarak büyük bir veri ortamı kurmak.
- Apache Spark ile büyük veri kümelerini verimli bir şekilde işlemek ve analiz etmek.
- Büyük veriyi işbirliğine dayalı bir ortamda görselleştirmek.
- Apache Spark'u bulut tabanlı araçlarla entegre etmek.
Big Data Analytics in Health
21 SaatBüyük veri analitiği, korelasyonları, gizli kalıpları ve diğer faydalı bilgileri ortaya çıkarmak amacıyla büyük ve çeşitli veri kümelerinin incelenmesi sürecini içerir.
Sağlık sektörü, karmaşık ve heterojen tıbbi ve klinik verilerin büyük miktarlarına sahiptir. Sağlık verileri üzerinde büyük veri analitiği uygulamak, sağlık hizmetlerinin sunumunu iyileştirmek için öngörüler elde etme konusunda büyük bir potansiyel sunar. Ancak, bu veri kümelerinin büyüklüğü, analizlerde ve klinik ortamlara pratik uygulamalarda büyük zorluklar oluşturur.
Bu eğitmen liderliğindeki, canlı (uzaktan) eğitimde katılımcılar, bir dizi uygulamalı canlı laboratuvar egzersiziyle sağlık alanında büyük veri analitiği yapmayı öğreneceklerdir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Hadoop MapReduce ve Spark gibi büyük veri analitiği araçlarını kurmak ve yapılandırmak
- Tıbbi verilerin özelliklerini anlamak
- Tıbbi verilerle başa çıkmak için büyük veri tekniklerini uygulamak
- Sağlık uygulamaları bağlamında büyük veri sistemlerini ve algoritmalarını incelemek
Hedef Kitle
- Geliştiriciler
- Veri Bilimciler
Kurs Formatı
- Kısmen ders anlatımı, kısmen tartışma, egzersizler ve yoğun uygulamalı pratik.
Not
- Bu kurs için özelleştirilmiş bir eğitim talep etmek için lütfen bizimle iletişime geçerek düzenleme yapınız.
Introduction to Graph Computing
28 SaatBu eğitmen liderliğindeki canlı eğitimde, katılımcılar grafik verileri işleme teknolojilerini ve uygulama yaklaşımlarını Türkiye bölgesinde öğreneceklerdir. Amaç, gerçek dünyadaki nesneleri, özelliklerini ve ilişkilerini belirlemek, ardından bu ilişkileri modellemek ve Graph Computing (aynı zamanda Grafik Analitiği olarak da bilinir) yaklaşımını kullanarak bunları veri olarak işlemektir. Geniş bir genel bakışla başlayıp bir dizi vaka çalışması, uygulamalı alıştırma ve canlı dağıtım aracılığıyla belirli araçlara odaklanacağız.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Grafik verilerin nasıl kalıcı hale getirildiğini ve gezildiğini anlayabilmek.
- Belirli bir görev için en iyi çerçeveyi seçebilmek (grafik veritabanlarından toplu işleme çerçevelerine kadar).
- Hadoop, Spark, GraphX ve Pregel'i birçok makinede paralel olarak grafik hesaplaması yapmak için uygulayabilmek.
- Gerçek dünya büyük veri sorunlarını grafikler, süreçler ve geçişler açısından görebilmek.
Hadoop and Spark for Administrators
35 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), kuruluşları içindeki Hadoop kümelerini kurmak, dağıtmak ve yönetmek isteyen sistem yöneticilerine yöneliktir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Apache Hadoop'i kurun ve yapılandırın.
- Hadoop ekosistemindeki dört ana bileşeni anlayın: HDFS, MapReduce, YARN ve Hadoop Common.
- Hadoop Dağıtılmış Dosya Sistemi'ni (HDFS) kullanarak bir kümeyi yüzlerce veya binlerce düğüme ölçeklendirin.
- HDFS'yi, şirket içi Spark dağıtımları için depolama motoru olarak ayarlayın.
- Spark'ın Amazon S3 gibi alternatif depolama çözümlerine ve Redis, Elasticsearch, Couchbase, Aerospike vb. gibi NoSQL veritabanı sistemlerine erişmesini sağlayın.
- Bir Apache Hadoop kümesini sağlama, yönetme, izleme ve güvenliğini sağlama gibi yönetimsel görevleri yerine getirin.
Hortonworks Data Platform (HDP) for Administrators
21 SaatBu eğitmen liderliğindeki, canlı eğitimde Türkiye (çevrimiçi veya yerinde) Hortonworks Data Platform (HDP) tanıtılacak ve katılımcılar Spark + Hadoop çözümünün dağıtımı konusunda yönlendirilecektir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Hortonworks'ü kullanarak Hadoop'u büyük ölçekte güvenilir bir şekilde çalıştırmak.
- Hadoop'un güvenlik, yönetişim ve operasyon yeteneklerini Spark'ın çevik analitik iş akışlarıyla birleştirmek.
- Hortonworks'ü kullanarak bir Spark projesindeki her bir bileşeni araştırmak, doğrulamak, onaylamak ve desteklemek.
- Yapılandırılmış, yapılandırılmamış, hareket halindeki ve hareketsiz veriler dahil olmak üzere farklı veri türlerini işlemek.
Data Analysis with Hive/HiveQL
7 SaatBu kurs, Hive SQL dilinin (aynı zamanda: Hive HQL, SQL üzerinde Hive, HiveQL) Hive'den veri çıkaran kişiler için nasıl kullanılacağını kapsamaktadır.
Impala for Business Intelligence
21 SaatCloudera Impala is an open source massively parallel processing (MPP) SQL query engine for Apache Hadoop clusters.
Impala enables users to issue low-latency SQL queries to data stored in Hadoop Distributed File System and Apache Hbase without requiring data movement or transformation.
Audience
This course is aimed at analysts and data scientists performing analysis on data stored in Hadoop via Business Intelligence or SQL tools.
After this course delegates will be able to
- Extract meaningful information from Hadoop clusters with Impala.
- Write specific programs to facilitate Business Intelligence in Impala SQL Dialect.
- Troubleshoot Impala.
A Practical Introduction to Stream Processing
21 SaatBu eğitmen liderliğindeki, canlı eğitimde (Türkiye yerinde veya uzaktan), katılımcılar farklı Stream Processing çerçevelerini mevcut büyük veri depolama sistemleri ve ilgili yazılım uygulamaları ve mikro hizmetlerle nasıl kuracaklarını ve entegre edeceklerini öğreneceklerdir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Farklı Stream Processing çerçevelerini, örneğin Spark Streaming ve Kafka Streaming'i kurmak ve yapılandırmak.
- İş için en uygun çerçeveyi anlamak ve seçmek.
- Veriyi sürekli, eşzamanlı ve kayıt bazında işlemek.
- Stream Processing çözümlerini mevcut veritabanları, veri ambarları, veri gölleri vb. ile entegre etmek.
- En uygun akış işleme kütüphanesini kurumsal uygulamalar ve mikro hizmetlerle entegre etmek.
SMACK Stack for Data Science
14 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), büyük veri çözümleri için veri işleme platformları oluşturmak için S MAC K yığınını kullanmak isteyen veri bilimcilerine yöneliktir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Büyük verileri işlemek için bir veri hattı mimarisi uygulayın.
- Apache Mesos ve Docker ile bir küme altyapısı geliştirin.
- Spark ve Scala ile verileri analiz edin.
- Apache Cassandra ile yapılandırılmamış verileri yönetin.
Apache Spark Fundamentals
21 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), çok büyük miktarda veriyi işlemek için Apache Spark sistemini kurmak ve dağıtmak isteyen mühendislere yöneliktir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Apache Spark'ü kurun ve yapılandırın.
- Çok büyük veri kümelerini hızlı bir şekilde işleyin ve analiz edin.
- Apache Spark ve Hadoop MapReduce arasındaki farkı anlayın ve hangisini ne zaman kullanacağınızı bilin.
- Apache Spark'ü diğer makine öğrenimi araçlarıyla entegre edin.
Administration of Apache Spark
35 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), Spark kümelerini dağıtmak, sürdürmek ve optimize etmek isteyen başlangıç seviyesi ile orta seviye sistem yöneticilerine yöneliktir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Çeşitli ortamlarda Apache Spark'yi kurmak ve yapılandırmak.
- Küme kaynaklarını yönetmek ve Spark uygulamalarını izlemek.
- Spark kümelerinin performansını optimize etmek.
- Güvenlik önlemleri uygulamak ve yüksek kullanılabilirlik sağlamak.
- Yaygın Spark sorunlarını ayıklamak ve gidermek.
Python and Spark for Big Data (PySpark)
21 SaatBu eğitmen liderliğindeki, canlı eğitimde Türkiye, katılımcılar büyük verileri analiz etmek için Python ve Spark'ı birlikte nasıl kullanacaklarını uygulamalı egzersizler yaparak öğreneceklerdir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Python ile Spark'ı kullanarak Big Data analiz etmeyi öğreneceklerdir.
- Gerçek dünya senaryolarını taklit eden egzersizler üzerinde çalışacaklardır.
- PySpark kullanarak büyük veri analizi için farklı araç ve teknikleri kullanacaklardır.
Apache Spark MLlib
35 SaatMLlib, Spark’ın makine öğrenimi (ML) kütüphanesidir. Amacı, pratik makine öğrenimini ölçeklenebilir ve kolay hale getirmektir. Sınıflandırma, regresyon, kümeleme, işbirlikçi filtreleme, boyut azaltma gibi yaygın öğrenme algoritmaları ve yardımcı programlarının yanı sıra daha düşük seviyeli optimizasyon öncülleri ve daha yüksek seviyeli pipeline API’lerinden oluşur.
İki pakete ayrılır:
-
spark.mllib, RDD’ler üzerine inşa edilmiş orijinal API’yi içerir.
-
spark.ml, ML pipeline’ları oluşturmak için DataFrames üzerine inşa edilmiş daha yüksek seviyeli bir API sağlar.
Hedef Kitle
Bu kurs, Apache Spark için yerleşik bir Makine Öğrenimi Kütüphanesini kullanmak isteyen mühendisler ve geliştiricilere yöneliktir.