Wiss. Mitarbeiter*in (d/m/w) - Entgeltgruppe 13 TV-L Berliner Hochschulen (ID: 194174, de) - Stellenangebote - Stellenticket Humboldt-Universität zu Berlin

Technische Universität Berlin - Fakultät IV - Institut für Telekommunikationssysteme / FG Verteilte Systeme und Betriebssysteme (DOS)

Bei der Technischen Universität Berlin ist/sind folgende Stelle/n zu besetzen:

Wiss. Mitarbeiter*in (d/m/w) - Entgeltgruppe 13 TV-L Berliner Hochschulen

unter dem Vorbehalt der Mittelbewilligung; Teilzeitbeschäftigung ist ggf. möglich

Aufgabenbeschreibung:

Mitarbeit in Forschung und Lehre im Fachgebiet Verteilte Systeme und Betriebssysteme; Veröffentlichung von Forschungsergebnissen.

Große Sprachmodelle (LLMs) liegen im Trend. Die zunehmende Modellgröße erfordert jedoch die Entwicklung und Bereitstellung komplexerer IT-Infrastrukturen. Aufgrund von Speicherbeschränkungen wird zunehmend ein verteiltes LLM-Training durchgeführt, welches jedoch große und komplexe IT-Infrastrukturen erfordert. Dadurch steigt auch die Ausfallwahrscheinlichkeit einzelner Komponenten, die wiederum zu höheren Betriebskosten und Ressourcenverschwendung führt. Eine effektive Fehlerüberwachung erfordert daher ein umfassendes Verständnis der IT-Infrastruktur unter Berücksichtigung des Zusammenspiels von Metriken aus Inter-/Intra-Host-Netzwerken CPUs, NPUs, GPUs, Kommunikationsmuster sowie den Besonderheiten eines LLM-Trainings. Ziel dieses Projekts ist die Entwicklung eines Frameworks zur Erkennung und Vorhersage von Fehler in großen Sprachmodellen, insbesondere in Mixture of Experts-Architekturen. Dies basiert auf einer umfassenden Analyse und dem Verständnis von Fehlermechanismen in Kommunikations-, Rechen- und Speicherkomponenten während des Trainings und der Inferenz.

Wir konzentrieren uns auf folgende Themen: Verständnis und Analyse der während des LLM-Trainings generierten Signale, Simulation von Szenarien durch Hinzufügen von synthetisch generierten Fehlern, Verständnis von Wechselwirkungen zwischen Komponenten in großen Kl-Infrastrukturen, Überwachung und Interpretation von Daten aus der physikalischen Schicht (Hardware), der Datenschicht (Speicherung und Übertragung), der Rechenschicht und der Anwendungsschicht (Modelle). Unser Ziel ist es, gemeinsame Repräsentationen aus den verschiedenen Systemdatenquellen zu erlernen, um Anomalien und deren Ursachen zu erkennen. Dies beinhaltet die Entwicklung einer allgemeinen Methode, die Implementierung eines Prototyps im Kontext bestehender Open-Source-Systeme sowie die experimentelle Evaluierung des Prototyps mit Testdaten aus experimentellen und Produktionsdaten.

Die Möglichkeit zur Promotion ist gegeben.

Erwartete Qualifikationen:

Erfolgreich abgeschlossenes wissenschaftliches Hochschulstudium (Master, Diplom oder Äquivalent) in Informatik mit Spezialisierung auf Betrieb komplexer IT-Infrastrukturen und Maschinelles Lernen
Erfahrung mit Statistiksoftware, Monitoring-Tools und Betriebssystemen
Erfahrung mit ML-Methoden für Erkennungs- und Klassifizierungsaufgaben
Erfahrung im Umgang mit großen Clustersystemen
Aufbau und Betrieb von Containern (z. B. Singularity, Docker)
Erfahrung mit TensorFlow/PyTorch/Keras
Gute Deutsch- und/oder Englischkenntnisse sind erforderlich; Bereitschaft, die jeweils fehlenden Sprachkenntnisse zu erwerben

Wünschenswert:

Interesse an der Systementwicklung und dem Betrieb groß angelegter Softwarearchitekturen sowie die Bereitschaft, aktuelle Forschungsergebnisse in die Praxis umzusetzen
Erfahrung im Verfassen und Publizieren wissenschaftlicher Arbeiten
Vertraut mit Methoden und Methodiken aus dem Bereich der Zeitreihenanalyse
Erfahrung und Interesse an den Themen KI und KI-Infrastrukturen
Erfahrung im Umgang mit erklärbaren Methoden des maschinellen Lernens und Daten aus heterogenen Quellen
Erfahrung in der Entwicklung zugänglicher Technologien
Interesse an Projektmanagement und agilen Entwicklungsmethoden

Hinweise zur Bewerbung:

Ihre schriftliche Bewerbung richten Sie bitte unter Angabe der Kennziffer mit den üblichen Unterlagen (Lebenslauf, Notenliste, ggf. Nachweise von Sprachkenntnissen) an die Technische Universität Berlin, Herrn Prof. Odej Kao: odej.kao@tu-berlin.de.

Mit der Abgabe einer Onlinebewerbung geben Sie als Bewerber*in Ihr Einverständnis, dass Ihre Daten elektronisch verarbeitet und gespeichert werden. Wir weisen darauf hin, dass bei ungeschützter Übersendung Ihrer Bewerbung auf elektronischem Wege keine Gewähr für die Sicherheit übermittelter persönlicher Daten übernommen werden kann. Datenschutzrechtliche Hinweise zur Verarbeitung Ihrer Daten gem. DSGVO finden Sie auf der Webseite der Personalabteilung: https://www.abt2-t.tu-berlin.de/menue/themen_a_z/datenschutzerklaerung/ oder Direktzugang: 214041.

Zur Wahrung der Chancengleichheit zwischen Frauen und Männern sind Bewerbungen von Frauen mit der jeweiligen Qualifikation ausdrücklich erwünscht. Schwerbehinderte werden bei gleicher Eignung bevorzugt berücksichtigt. Die TU Berlin schätzt die Vielfalt ihrer Mitglieder und verfolgt die Ziele der Chancengleichheit. Bewerbungen von Menschen aller Nationalitäten und mit Migrationshintergrund sind herzlich willkommen.

Technische Universität Berlin - Die Präsidentin - Institut für Telekommunikationssysteme, FG Verteilte Systeme und Betriebssysteme, Prof. Dr. Odej Kao, Sekr. EN 22, Einsteinufer 17, 10587 Berlin

Fakten

ID: 194174

Anzahl Angestellte:

ca. 7000

Standort:

Charlottenburg, Berlin (Berlin, Deutschland)

Kategorie:

Graduierten-Stelle
Wiss. Mitarbeiter*in

Kategorie (TU Berlin):

Wiss. Mitarbeiter*in ohne Lehraufgaben

Dauer:

befristet bis 30.06.2027

Stellenumfang:

100% Arbeitszeit; Teilzeitbeschäftigung ggf. möglich

Beginn frühestens:

01.07.2025

Vergütung:

Entgeltgruppe E13

Aufgabengebiet:

Forschung

Studienrichtung:

Informatik

Bildungsabschluss:

Master, Diplom oder Äquivalent

Aktionen

Link zum Angebot

X
Kurzlink zum Angebot: Link per E-Mail:

Bewerben

Bewerbungsfrist:: 30.05.2025
Kennziffer:: IV-195/25
per E-Mail:: odej.kao@tu-berlin.de
per Post:: Technische Universität Berlin
- Die Präsidentin -
ausschließlich per E-Mail / only by email

Kontakt

Kontakt-Person:: Prof. Dr. Kao

Stellenticket Humboldt-Universität zu Berlin

Blätter-Navigation

Angebot 14 von 300 vom 16.05.2025, 09:27

Technische Universität Berlin - Fakultät IV - Institut für Telekommunikationssysteme / FG Verteilte Systeme und Betriebssysteme (DOS)