Qureos

Find The RightJob.

Senior ML Engineer (Multimodal speech ve LLM Sistemleri)

Senior ML Engineer (Multimodal speech ve LLM Sistemleri)


Uzaktan | Tam Zamanlı | Yüksek Başarımlı Hesaplama (HPC)


Biz Kimiz?

Bankacılık, Sigortacılık ve Sağlık gibi dünyanın veri hassasiyeti en yüksek sektörleri için "ses öncelikli" (voice-first) yapay zeka uygulamaları geliştiriyoruz. Veri gizliliğinin her şeyden önemli olduğu bir çağda; güvenlik veya hızdan ödün vermeyen, yüksek performanslı ve yerel olarak barındırılan (locally-hosted) yapay zeka sistemleri oluşturma konusunda uzmanlaşıyoruz.


Rol Hakkında

Performans ve hassasiyet konusunda tutkulu bir Kıdemli ML Mühendisi arıyoruz. Özellikle Konuşma (STT/TTS) ve Büyük Dil Modellerinin (LLM) kesişim noktasına odaklanarak, multimodal modellerimizin tüm yaşam döngüsünü yöneteceksiniz. Bu rol, sadece OpenAI API'lerini çağıranlara göre değil; binlerce saatlik ses verisi için veri boru hatları (data pipelines) tasarlayabilen, en yeni NVIDIA GPU'larda model ince ayarı (fine-tuning) yapabilen ve çıkarım (inference) süreçlerini milisaniye düzeyinde optimize edebilen mühendisler içindir.


Temel Sorumluluklar

  • Konuşma ve Multimodal Pipeline: STT (Konuşmadan Metne) ve TTS (Metinden Konuşmaya) mimarileri için sağlam ön eğitim (pre-training) ve ince ayar (fine-tuning) pipelineları inşa etmek ve sürdürmek.
  • LLM Finetune: SFT, LoRA ve QLoRA yöntemlerini kullanarak finans ve tıp alanındaki uzmanlık bilgileri için LLM'lerin finetune süreçlerine liderlik etmek.
  • Ses İçin Büyük Veri: Devasa multimodal veri setlerini (ses + metin) işlemek, temizlemek ve zenginleştirmek için veri boru hatları mimarisi oluşturmak ve ölçeklendirmek.
  • Yerel İnference: Müşterilerimiz için %100 veri egemenliği sağlayarak; modelleri vLLM veya TensorRT-LLM kullanarak yerel olarak dağıtmak ve sunmak.
  • Donanım Optimizasyonu: Blackwell ve Hopper kümelerimizden tam kapasiteyle yararlanmak. VRAM gereksinimlerini hesaplamak, KV önbellek (cache) optimizasyonu yapmak ve çeşitli kuantizasyon seviyelerinde (FP8, INT8, AWQ) saniye başına token (tokens/second) miktarını maksimize etmekten sorumlu olacaksınız.
  • Reliablity: Yüksek derecede regüle edilen ortamlarda model doğruluğunu ve güvenliğini sağlamak için değerlendirme çerçeveleri (evaluation frameworks) oluşturmak.


Gerekli Teknik Nitelikler

  • Deneyim: ML Mühendisliği alanında, özellikle NLP ve Konuşma (Speech) odaklı 3+ yıl deneyim.
  • Ses Uzmanlığı: Ses sinyal işleme ve güncel mimariler (örneğin Whisper, Wav2Vec veya Transformer/difüzyon tabanlı TTS) konusunda derin deneyim.
  • GPU Tecrübesi: NVIDIA GPU mimarisi hakkında uzman düzeyinde bilgi. Bir modeli profillemeyi ve farklı batch boyutları ile bağlam pencereleri (context windows) için VRAM yükünü hesaplamayı bilmelisiniz.
  • Hosting (Serving): Modelleri vLLM veya benzeri yüksek veri akışlı çıkarım motorlarıyla yerel olarak çalıştırma konusunda kapsamlı deneyim.
  • Ölçeklenebilir Eğitim: Multi-node GPU kümelerinde (H100/H200) uzun süreli eğitim işlerini yönetme becerisi.
  • Veri Mühendisliği: Python yetkinliği ve büyük ölçekli ses veri setlerini işlemek için deneyim.
  • Güvenlik Odaklı Yaklaşım: Y apay zekayı "air-gapped" (fiziksel olarak izole edilmiş) veya yüksek güvenlikli özel bulut ortamlarında konuşlandırmanın inceliklerine hakimiyet.


Tercih Edilen Nitelikler

  • Unsloth veya benzeri LLM ince ayar kütüphanelerinde deneyim.
  • Yerelleştirilmiş RAG sistemleri için vektör veritabanları (Qdrant, Milvus) hakkında bilgi.
  • Regüle edilen sektörlerde (FinTek, Sağlık Teknolojileri veya Kamu Teknolojileri) geçmiş deneyim.


Ne Sunuyoruz?

  • Önce Uzaktan (Remote-First) Kültür: En verimli olduğunuz yerden çalışın.
  • Hesaplama Gücü: Eğitim ve çıkarım görevleriniz için NVIDIA Blackwell ve Hopper serisi GPU'lara doğrudan erişim.
  • Etki: Toplumun en hassas sektörlerinde kullanıcı gizliliğini koruyan yapay zekalar inşa edin.


© 2026 Qureos. All rights reserved.