Eğitim İçeriği

Reinforcement Learning'e İnsan Geribildirimi ile Giriş (RLHF)

  • RLHF nedir ve neden önemli?
  • Supervised fine-tuning yöntemleriyle karşılaştırma
  • Günümüz AI sistemlerinde RLHF uygulamaları

İnsan Geribildirim ile Ödül Modelleme

  • İnsan geribildirimin toplanması ve yapılandırılması
  • Ödül modellerinin oluşturulması ve eğitilmesi
  • Ödül model etkinliğinin değerlendirilmesi

Yakın Politika Optimizasyonu (PPO) ile Eğitim

  • RLHF için PPO algoritmalarının genel bakışı
  • Ödül modelleriyle PPO uygulaması
  • İteratif ve güvenli model fine-tuning'i

Dil Modellerinin Pratik Fine-Tuning

  • RLHF iş akışları için verisetlerinin hazırlanması
  • RLHF kullanarak küçük bir LLM'nin elden fine-tuning'u
  • Zorluklar ve azaltma stratejileri

RLHF'yi Üretim Sistemlerine Ölçekleme

  • Bilgi altyapısı ve hesaplama düşünceleri
  • Kalite kontrolü ve sürekli geribildirim döngüleri
  • Yükleyip bakımı için en iyi uygulamalar

Etiği Düşünçeler ve Bias Azaltma

  • İnsan geribildirimi içinde etik risklerin ele alınması
  • Bias algılama ve düzeltme stratejileri
  • Hizmet verimliliğinin sağlanması ve güvenli çıktılar

Mesleki Çalışmalar ve Gerçek Hayat Örnekleri

  • Mesleki çalışma: RLHF ile ChatGPT'nın fine-tuning'u
  • Diğer başarılı RLHF yüklemeleri
  • Öğrendikler ve sektör bilgileri

Özet ve Sonraki Adımlar

Kurs İçin Gerekli Önbilgiler

  • Supervised and reinforcement learning temel konseplerini anlamak
  • Model ayarlaması ve sinir ağ mimarisine deneyim sahibi olmak
  • Python programlama ve derin öğrenme çerçevelerine (örn., TensorFlow, PyTorch) aşinalık

Hedef Kitle

  • Machine Learning Mühendisleri
  • AI Araştırmacıları
 14 Saat

Katılımcı Sayısı


Kişi Başına Fiyat

Yaklaşan Etkinlikler

İlgili Kategoriler