Apache Spark in the Cloud Eğitimi
Apache Spark'nin öğrenme eğrisi başlangıçta yavaş yükselir ve ilk sonuçları elde etmek için çok çaba gerektirir. Bu kursun amacı, bu zorlu başlangıcı atlatmanıza yardımcı olmaktır. Bu kursu tamamlayan katılımcılar, Apache Spark'ün temellerini anlayacak, RDD ile DataFrame arasındaki farkı net bir şekilde ayırt edebilecek, Python ve Scala API'lerini öğrenecek, yürütücüler ve görevler hakkında bilgi sahibi olacaklardır. Ayrıca en iyi uygulamaları takip ederek, bu kurs bulut dağıtımı, Databricks ve AWS'ye güçlü bir şekilde odaklanmaktadır. Öğrenciler ayrıca AWS EMR ve AWS Glue arasındaki farkları, AWS'nin en son Spark hizmetlerinden birini anlayacaklardır.
HEDEF KİTLE:
Veri Mühendisi, DevOps, Veri Bilimcisi
Eğitim İçeriği
Giriş:
- Apache Spark Hadoop Ekosisteminde
- Python ve Scala için kısa bir giriş
Temeller (teori):
- Mimari
- RDD
- Dönüşümler ve Eylemler
- Aşama, Görev, Bağımlılıklar
Databricks ortamını kullanarak temelleri anlama (uygulama çalışması):
- RDD API'sini kullanarak egzersizler
- Temel dönüşüm ve eylem fonksiyonları
- PairRDD
- Join
- Önbellekleme stratejileri
- DataFrame API'sini kullanarak egzersizler
- SparkSQL
- DataFrame: seç, filtrele, grupla, sırala
- UDF (Kullanıcı Tanımlı Fonksiyon)
- DataSet API'sine bakış
- Streaming
AWS ortamını kullanarak dağıtımı anlama (uygulama çalışması):
- AWS Glue'nun temelleri
- AWS EMR ve AWS Glue arasındaki farkları anlama
- Her iki ortamda örnek işler
- Artıları ve eksileri anlama
Ekstra:
- Apache Airflow düzenlemesine giriş
Kurs İçin Gerekli Önbilgiler
Programlama becerileri (tercihen Python, Scala)
SQL temelleri
Açık Eğitim Kursları 5 ve üzeri katılımcı gerektirir.
Apache Spark in the Cloud Eğitimi - Booking
Apache Spark in the Cloud Eğitimi - Enquiry
Apache Spark in the Cloud - Danışmanlık Talebi
Danışmanlık Talebi
Danışanlarımızın Yorumları (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Eğitim - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Eğitim - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Eğitim - Apache Spark in the Cloud
Yaklaşan Etkinlikler
İlgili Kurslar
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 SaatBu kurs, uygulamalarında yapay zekayı anlamak ve uygulamak isteyen geliştiricilere ve veri bilimcilerine yöneliktir. Özellikle veri analizi, dağıtık yapay zeka ve doğal dil işleme konularına odaklanmaktadır.
Big Data Analytics with Google Colab and Apache Spark
14 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), büyük veri işleme ve analitiği için Google Colab ve Apache Spark kullanmak isteyen orta seviyedeki veri bilimcileri ve mühendisleri hedefler.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Google Colab ve Spark kullanarak büyük bir veri ortamı kurmak.
- Apache Spark ile büyük veri kümelerini verimli bir şekilde işlemek ve analiz etmek.
- Büyük veriyi işbirliğine dayalı bir ortamda görselleştirmek.
- Apache Spark'u bulut tabanlı araçlarla entegre etmek.
Big Data Analytics in Health
21 SaatBüyük veri analitiği, korelasyonları, gizli kalıpları ve diğer faydalı bilgileri ortaya çıkarmak amacıyla büyük ve çeşitli veri kümelerinin incelenmesi sürecini içerir.
Sağlık sektörü, karmaşık ve heterojen tıbbi ve klinik verilerin büyük miktarlarına sahiptir. Sağlık verileri üzerinde büyük veri analitiği uygulamak, sağlık hizmetlerinin sunumunu iyileştirmek için öngörüler elde etme konusunda büyük bir potansiyel sunar. Ancak, bu veri kümelerinin büyüklüğü, analizlerde ve klinik ortamlara pratik uygulamalarda büyük zorluklar oluşturur.
Bu eğitmen liderliğindeki, canlı (uzaktan) eğitimde katılımcılar, bir dizi uygulamalı canlı laboratuvar egzersiziyle sağlık alanında büyük veri analitiği yapmayı öğreneceklerdir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Hadoop MapReduce ve Spark gibi büyük veri analitiği araçlarını kurmak ve yapılandırmak
- Tıbbi verilerin özelliklerini anlamak
- Tıbbi verilerle başa çıkmak için büyük veri tekniklerini uygulamak
- Sağlık uygulamaları bağlamında büyük veri sistemlerini ve algoritmalarını incelemek
Hedef Kitle
- Geliştiriciler
- Veri Bilimciler
Kurs Formatı
- Kısmen ders anlatımı, kısmen tartışma, egzersizler ve yoğun uygulamalı pratik.
Not
- Bu kurs için özelleştirilmiş bir eğitim talep etmek için lütfen bizimle iletişime geçerek düzenleme yapınız.
Introduction to Graph Computing
28 SaatBu eğitmen liderliğindeki canlı eğitimde, katılımcılar grafik verileri işleme teknolojilerini ve uygulama yaklaşımlarını Türkiye bölgesinde öğreneceklerdir. Amaç, gerçek dünyadaki nesneleri, özelliklerini ve ilişkilerini belirlemek, ardından bu ilişkileri modellemek ve Graph Computing (aynı zamanda Grafik Analitiği olarak da bilinir) yaklaşımını kullanarak bunları veri olarak işlemektir. Geniş bir genel bakışla başlayıp bir dizi vaka çalışması, uygulamalı alıştırma ve canlı dağıtım aracılığıyla belirli araçlara odaklanacağız.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Grafik verilerin nasıl kalıcı hale getirildiğini ve gezildiğini anlayabilmek.
- Belirli bir görev için en iyi çerçeveyi seçebilmek (grafik veritabanlarından toplu işleme çerçevelerine kadar).
- Hadoop, Spark, GraphX ve Pregel'i birçok makinede paralel olarak grafik hesaplaması yapmak için uygulayabilmek.
- Gerçek dünya büyük veri sorunlarını grafikler, süreçler ve geçişler açısından görebilmek.
Hadoop and Spark for Administrators
35 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), kuruluşları içindeki Hadoop kümelerini kurmak, dağıtmak ve yönetmek isteyen sistem yöneticilerine yöneliktir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Apache Hadoop'i kurun ve yapılandırın.
- Hadoop ekosistemindeki dört ana bileşeni anlayın: HDFS, MapReduce, YARN ve Hadoop Common.
- Hadoop Dağıtılmış Dosya Sistemi'ni (HDFS) kullanarak bir kümeyi yüzlerce veya binlerce düğüme ölçeklendirin.
- HDFS'yi, şirket içi Spark dağıtımları için depolama motoru olarak ayarlayın.
- Spark'ın Amazon S3 gibi alternatif depolama çözümlerine ve Redis, Elasticsearch, Couchbase, Aerospike vb. gibi NoSQL veritabanı sistemlerine erişmesini sağlayın.
- Bir Apache Hadoop kümesini sağlama, yönetme, izleme ve güvenliğini sağlama gibi yönetimsel görevleri yerine getirin.
Hortonworks Data Platform (HDP) for Administrators
21 SaatBu eğitmen liderliğindeki, canlı eğitimde Türkiye (çevrimiçi veya yerinde) Hortonworks Data Platform (HDP) tanıtılacak ve katılımcılar Spark + Hadoop çözümünün dağıtımı konusunda yönlendirilecektir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Hortonworks'ü kullanarak Hadoop'u büyük ölçekte güvenilir bir şekilde çalıştırmak.
- Hadoop'un güvenlik, yönetişim ve operasyon yeteneklerini Spark'ın çevik analitik iş akışlarıyla birleştirmek.
- Hortonworks'ü kullanarak bir Spark projesindeki her bir bileşeni araştırmak, doğrulamak, onaylamak ve desteklemek.
- Yapılandırılmış, yapılandırılmamış, hareket halindeki ve hareketsiz veriler dahil olmak üzere farklı veri türlerini işlemek.
A Practical Introduction to Stream Processing
21 SaatBu eğitmen liderliğindeki, canlı eğitimde (Türkiye yerinde veya uzaktan), katılımcılar farklı Stream Processing çerçevelerini mevcut büyük veri depolama sistemleri ve ilgili yazılım uygulamaları ve mikro hizmetlerle nasıl kuracaklarını ve entegre edeceklerini öğreneceklerdir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Farklı Stream Processing çerçevelerini, örneğin Spark Streaming ve Kafka Streaming'i kurmak ve yapılandırmak.
- İş için en uygun çerçeveyi anlamak ve seçmek.
- Veriyi sürekli, eşzamanlı ve kayıt bazında işlemek.
- Stream Processing çözümlerini mevcut veritabanları, veri ambarları, veri gölleri vb. ile entegre etmek.
- En uygun akış işleme kütüphanesini kurumsal uygulamalar ve mikro hizmetlerle entegre etmek.
SMACK Stack for Data Science
14 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), büyük veri çözümleri için veri işleme platformları oluşturmak için S MAC K yığınını kullanmak isteyen veri bilimcilerine yöneliktir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Büyük verileri işlemek için bir veri hattı mimarisi uygulayın.
- Apache Mesos ve Docker ile bir küme altyapısı geliştirin.
- Spark ve Scala ile verileri analiz edin.
- Apache Cassandra ile yapılandırılmamış verileri yönetin.
Apache Spark Fundamentals
21 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), çok büyük miktarda veriyi işlemek için Apache Spark sistemini kurmak ve dağıtmak isteyen mühendislere yöneliktir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Apache Spark'ü kurun ve yapılandırın.
- Çok büyük veri kümelerini hızlı bir şekilde işleyin ve analiz edin.
- Apache Spark ve Hadoop MapReduce arasındaki farkı anlayın ve hangisini ne zaman kullanacağınızı bilin.
- Apache Spark'ü diğer makine öğrenimi araçlarıyla entegre edin.
Administration of Apache Spark
35 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), Spark kümelerini dağıtmak, sürdürmek ve optimize etmek isteyen başlangıç seviyesi ile orta seviye sistem yöneticilerine yöneliktir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Çeşitli ortamlarda Apache Spark'yi kurmak ve yapılandırmak.
- Küme kaynaklarını yönetmek ve Spark uygulamalarını izlemek.
- Spark kümelerinin performansını optimize etmek.
- Güvenlik önlemleri uygulamak ve yüksek kullanılabilirlik sağlamak.
- Yaygın Spark sorunlarını ayıklamak ve gidermek.
Spark for Developers
21 SaatAMAÇ:
Bu kurs, Apache Spark'i tanıtacaktır. Öğrenciler, Spark'ın Big Data ekosistemine nasıl uyduğunu ve Spark'ı veri analizi için nasıl kullanacaklarını öğreneceklerdir. Kurs, etkileşimli veri analizi için Spark kabuğunu, Spark iç yapılarını, Spark API'lerini, Spark SQL'i, Spark akışını, makine öğrenimi ve GraphX'i kapsamaktadır.
HEDEF KİTLE:
Geliştiriciler / Veri Analistleri
Scaling Data Pipelines with Spark NLP
14 SaatTürkiye dilindeki bu eğitmen liderliğindeki canlı eğitim (çevrimiçi veya yerinde), Apache Spark üzerine kurulu Spark NLP'u kullanarak doğal dil metin işleme modelleri ve hatları geliştirmek, uygulamak ve ölçeklemek isteyen veri bilimcileri ve geliştiricilere yöneliktir.
Bu eğitimin sonunda katılımcılar;
- Spark NLP ile NLP boru hatlarının inşasına başlamak için gerekli geliştirme ortamını kurun.
- Spark NLP'un özelliklerini, mimarisini ve kullanım avantajlarını anlayın.
- Metin işlemeyi uygulamak için Spark NLP'da bulunan önceden eğitilmiş modelleri kullanın.
- Üretim düzeyindeki projeler için Spark NLP modellerin nasıl oluşturulacağını, eğitileceğini ve ölçeklendirileceğini öğrenin.
- Sınıflandırma, çıkarım ve duygu analizini gerçek dünya kullanım durumlarına (klinik veriler, müşteri davranışı içgörüleri vb.) uygulayın.
Python and Spark for Big Data (PySpark)
21 SaatBu eğitmen liderliğindeki, canlı eğitimde Türkiye, katılımcılar büyük verileri analiz etmek için Python ve Spark'ı birlikte nasıl kullanacaklarını uygulamalı egzersizler yaparak öğreneceklerdir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Python ile Spark'ı kullanarak Big Data analiz etmeyi öğreneceklerdir.
- Gerçek dünya senaryolarını taklit eden egzersizler üzerinde çalışacaklardır.
- PySpark kullanarak büyük veri analizi için farklı araç ve teknikleri kullanacaklardır.
Python, Spark, and Hadoop for Big Data
21 SaatBu eğitmen liderliğindeki, canlı eğitim (Türkiye çevrimiçi veya yerinde), büyük ve karmaşık veri kümelerini işlemek, analiz etmek ve dönüştürmek için Spark, Hadoop ve Python'yı kullanmak ve entegre etmek isteyen geliştiricilere yöneliktir.
Bu eğitimin sonunda katılımcılar şunları yapabilecektir:
- Spark, Hadoop ve Python ile büyük veri işlemeye başlamak için gerekli ortamı kurmak.
- Spark ve Hadoop'in özelliklerini, temel bileşenlerini ve mimarisini anlamak.
- Büyük veri işleme için Spark, Hadoop ve Python'yı nasıl entegre edeceğini öğrenmek.
- Spark ekosistemindeki araçları (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka ve Flume) keşfetmek.
- Netflix, YouTube, Amazon, Spotify ve Google gibi işbirlikçi filtreleme öneri sistemleri oluşturmak.
- Apache Mahout'u kullanarak makine öğrenimi algoritmalarını ölçeklendirmek.
Apache Spark MLlib
35 SaatMLlib, Spark’ın makine öğrenimi (ML) kütüphanesidir. Amacı, pratik makine öğrenimini ölçeklenebilir ve kolay hale getirmektir. Sınıflandırma, regresyon, kümeleme, işbirlikçi filtreleme, boyut azaltma gibi yaygın öğrenme algoritmaları ve yardımcı programlarının yanı sıra daha düşük seviyeli optimizasyon öncülleri ve daha yüksek seviyeli pipeline API’lerinden oluşur.
İki pakete ayrılır:
-
spark.mllib, RDD’ler üzerine inşa edilmiş orijinal API’yi içerir.
-
spark.ml, ML pipeline’ları oluşturmak için DataFrames üzerine inşa edilmiş daha yüksek seviyeli bir API sağlar.
Hedef Kitle
Bu kurs, Apache Spark için yerleşik bir Makine Öğrenimi Kütüphanesini kullanmak isteyen mühendisler ve geliştiricilere yöneliktir.