Imbalanced Data
Eines der häufigsten Probleme beim Trainieren von Machine Learning Modellen sind unbalancierte Daten, also ein Datensatz, in dem die Klassen stark ungleich verteilt sind. Wenn …
Data Science, Machine Learning, AI
Eines der häufigsten Probleme beim Trainieren von Machine Learning Modellen sind unbalancierte Daten, also ein Datensatz, in dem die Klassen stark ungleich verteilt sind. Wenn …
In den meisten Machine-Learning-Projekt kommt irgendwann der Moment, an dem die Datenaufbereitung unübersichtlich wird: Man hat mehrere Schritte zur Vorverarbeitung, unterschiedliche Feature-Typen und Modelle, die …
In diesem Beitrag soll ein einfacher (offline) Feature Store erstellt werden. Features sollen versioniert, getestet und nachvollziehbar in einer Datenbank abgelegt werden und können dann …
Wer schon einmal versucht hat, manuell in der Google Cloud Ressourcen anzulegen, weiß: Klickt man sich durch die Weboberfläche, wird es schnell unübersichtlich.Die Lösung heißt …
Ziel beim Machine Learning ist es ein Modell zu trainieren, dass auch auf neuen, bisher ungesehenen Daten funktioniert. Cross Validation ist eine zuverlässige Methode der …
Wenn man Machine-Learning-Modelle trainiert, ist die Wahl der richtigen Metrik zur Modellbewertung entscheidend. Unterschiedliche Aufgaben (z. B. Klassifikation vs. Regression) erfordern unterschiedliche Metriken – und …
Polars ist eine moderne DataFrame-Bibliothek für Python, die auf Apache Arrow basiert. Sie wurde mit Fokus auf Performance, Speichereffizienz und Parallelisierung entwickelt. Während Pandas nach …
REST APIs gehören heute zu den wichtigsten Bausteinen moderner Data-Science- und Machine-Learning-Systeme. Sie ermöglichen es, Modelle, Datenpipelines und Analysen als skalierbare, wiederverwendbare Services bereitzustellen – …
Google Cloud Platform (GCP) ist ein leistungsfähiges, aber komplexes Ökosystem. Besonders Einsteiger verlieren sich leicht in Projekten, Service Accounts und Berechtigungen. In diesem Blog wird …
Immer mehr Machine-Learning-Modelle laufen produktiv und generieren kontinuierlich neue Vorhersagen. Damit steigt der Bedarf, diese Predictions, Features und Labels in Echtzeit zu erfassen, zu überwachen …