- Wir gestalten Software
- State Of The Art Lösungen für Ihr Business
Computer Vision
als Motor
effizienter
Distributionsprozesse
Achtung KI!
AI, KI, ML, LLM, LVM, CNN. Der KI-Hype geht um. Und er macht auch keinen Bogen um Regale und Verkaufsflächen im Einzelhandel. Für Interessierte haben wir mal eine kleine Zusammenfassung zum aktuellen Stand der Technik:
Hintergrund
Jede nachhaltige Vertriebsstrategie für FMC-Güter beginnt mit einer einfachen, aber entscheidenden Frage:
Wie sieht es draußen im Regal, auf der Verkaufsfläche oder im Kühlschrank mit meinen Produkten wirklich aus?
Denn auch wenn nackte Verkaufsdaten transparent zur Verfügung stehen, bleibt ein zentrales Puzzleteil unsichtbar:
Wie sind meine Produkte tatsächlich platziert – und wie viel Aufmerksamkeit bekommen sie?
Hersteller müssen daher regelmäßig selbst nachsehen – nicht aus übertriebener Neugier, sondern weil Sichtbarkeit im Regal nun einmal Markenpräsenz bedeutet.
Wir haben uns deshalb mal umgeschaut und diverse Technologien / Anbieter in Hinblick auf 4 Herausforderungen, die jeder FMCG-Produzent hat, untersucht:
a) Welche meiner Produkte stehen aktuell im Markt?
b) Welche Produkte sind Out Of Stock?
c) Wie ist das Facing, also die tatsächliche Sichtbarkeit im Regal oder der Strecke?
d) Welche Zusatzinformationen sind relevant – Preis, MHD, Aktionshinweise?
Und um es gleich vorwegzunehmen:
Die eine, vollautomatische KI-Lösung, die sämtliche Produkte sekundenschnell erkennt, bewertet und gleich noch den Kaffee kocht – gibt es (noch) nicht.
Aber: Die Entwicklung schreitet – wie schon beschrieben – rasant voran. Zeit also, einen realistischen Blick auf den Status quo und die Zukunftsperspektiven zu werfen.
Vorgehensweisen
Wie gelangt man an die notwendigen Daten? Dazu haben wir mal Möglichkeiten mit unterschiedlichen Automatisierungsgraden aufgeführt:
a) Verkaufsdaten
Man arbeitet mit unvollständigen Handelsdaten – effizient, aber mit erheblichen Blindspots. Insbesondere bei Abverkauf über Großhandel, also indirekter Belieferung. Informationen über das Facing: Fehlanzeige.
b) Statistische Erhebung
Klassische Marktforschung: viele Zahlenreihen, wenig Detailgenauigkeit.
c) Manuelle Erhebung
Mitarbeitende zählen, fotografieren, tippen – teils digital, teils mit Stift und Papier.
Ergebnis: korrekt, aber extrem aufwendig.
d) Barcode-basierte Erhebung
Beschleunigt den Prozess, reduziert Fehler – aber Facing, Preise und Zusatzinfos bleiben Handarbeit.
e) Asynchrone KI-gestützte Bildauswertung
Regalbilder werden zur Analyse an einen Cloud-Dienst gesendet.
Das Ergebnis kommt später – zu spät, wenn der Außendienst längst im nächsten Markt ist. Echtzeitfähig? Noch nicht. Zuverlässigkeit? Hm.
f) Synchrone Bilderkennungsverfahren
Optimierte KI-Systeme sind inzwischen sehr schnell und erkennen in Sekundenbruchteilen die aus einem Bild – oder aus einem Video – erfassten relevanten Merkmale. Insbesondere die sogenannte On Device Recognition, bei der die Erkennungslogik lokal auf dem mobilen Endgerät des Benutzers ihren Dienst verrichtet, ermöglicht Verarbeitung nahezu in Echtzeit und bei Bedarf auch ohne Internetverbindung.
Visuelle Produktklassifizierung
Aktuelle multimodale KI-Systeme – etwa OpenAI GPT-5, Google Gemini oder entsprechende Modelle von AWS und Microsoft Azure – können komplexe visuelle Analysen durchführen und dabei zunehmend auch kontextuelle Zusammenhänge verstehen.
Daneben gibt es eine Vielzahl spezialisierter Anbieter mit branchenspezifisch trainierten Modellen.
Wer tiefer einsteigen möchte: 👉 huggingface.co bietet eine umfangreiche Übersicht offener Modelle und Frameworks. (Vorsicht: technisch!!)
Eines haben alle Modelle gemeinsam:
Die Qualität der Ergebnisse steht und fällt mit den Trainingsdaten.
Je breiter, vielfältiger und sauberer das Datenset – desto besser die Klassifizierung.
Herausforderungen in der Praxis
a) Unterschiedliche technische Schwerpunkte
Manche Systeme erkennen Produkte zuverlässig, andere fokussieren auf „Boxing“, also das reine Abgrenzen von Verpackungen – eine wichtige Grundlage für die Facing-Erkennung, aber noch ohne Produktwissen.
b) Edge vs. Cloud
Klassische KI läuft in der Cloud. Das heißt: Ohne Internetverbindung keine Ergebnisse.
Edge-Modelle hingegen verarbeiten Daten direkt auf dem Endgerät des Anwenders, deshalb der Begriff „On Device Recognition“: Schneller, unabhängiger und oft datenschutzfreundlicher.
c) Training vs. „Out of the Box“
Viele Nutzer erwarten ChatGPT-ähnliche Einfachheit – also sofortige Ergebnisse ohne Trainingsaufwand.
Doch visuelle Modelle benötigen spezialisierte Datensätze und viel Rechenleistung.
Als (grobe) Faustregel gilt:
- Einfache Aufgaben: 50–200 Bilder pro Klasse
- Mittlere Komplexität: 300–1.000 Bilder pro Klasse
- Komplexe Szenarien: 1.000–10.000+ Bilder
Mittels Transfer Learning (also Nutzung eines vortrainierten Modells) lassen sich diese Anforderungen deutlich reduzieren. Aber: Ohne effizientes Training kein gutes Ergebnis!
d) Verschiedene Gebindeformen
Einzelprodukte wie Tüten oder Flaschen erkennt KI zuverlässig.
Schwieriger wird es bei Getränkekisten oder Kartonware im Cash-&-Carry-Bereich. Immer, wenn man den Namen oder den Barcode des Produktes auf dem Foto / Video erkennen kann, funktioniert auch die KI-Bilderkennung relativ gut.
Deshalb:
- Regale mit gutem Blick auf Fronten lassen sich mit heutigen CV-Pipelines robust auswerten
- Paletten/Kisten/Kartonware sind anspruchsvoller (Okklusion, geringe Textur). Hier existiert tatsächlich noch Luft nach oben. Meist wird hier weniger mit KI in der Erkennung als mit Barcodeerkennung des GTIN / des SSCC (Serial Shipping Container Code) gearbeitet.
e) Neue Produkte
Ohne Trainingsdaten kein Wiedererkennen – neue Artikel sind für die KI zunächst Fremdlinge. Die meisten im Markt befindlichen Systeme greifen hier zurück auf den GTIN des Artikels oder die SSCC bei Palettenware, um auch ohne ausreichende Trainingsdaten zuverlässige Ergebnisse liefern zu können. Heißt aber auch: Es muss in diesem Fall der einzelne Artikel separat erhoben werden.
f) Bildqualität und Okklusion
Beleuchtung und Reflexion oder verwackelte Bilder beeinflussen die Erkennungsrate massiv. Okklusion bedeutet (teil-) verdeckte Artikel. Z.B. durch aufgerissene Kartonagen, Aufkleber auf dem Produkt oder ein verdeckender Fremdartikel.
g) „Wenn ich wüsste, was ich nicht weiß“
KI-Systeme neigen zum Halluzinieren:
Sie erkennen vermeintlich bekannte Muster, wo keine sind. Und so erkennt die KI unter Umständen Produkte, die dort gar nicht vorhanden sind. KI-Systeme sind schlecht darin, sich selbst einzugestehen, dass sie etwas nicht wissen.
100 % Genauigkeit ist daher illusorisch – Nacharbeit bleibt erforderlich.
Aktuelle Lösungen am Markt
Eine kleine Liste bestehender Anbieter ohne Anspruch auf Vollständigkeit…
| Anbieter | Besonderheiten |
| Scandit | ShelfView zur Regal- und Planogramm-Erkennung per Smartphone oder stationärem System https://www.scandit.com/de/ |
| ShelfWise | Kombination aus mobiler Audit-App und In-Store-Monitoring mit KI https://shelfwise.ai/en/ |
| OmniShelf | Echtzeitdaten zur Regaloptimierung und Produktverfügbarkeit https://www.omnishelf.io/en |
| Retano VeriShelf AI | Kontrolle von Layouts, Lücken und Compliance-Parametern https://retano.ai/solutions/retano-verishelf-ai |
| Trax | KI-basierte Shelf-Audit-Plattform für Verfügbarkeit, Promotions und Abweichungen https://traxretail.com/de/ |
Fazit
Lassen Sie uns die entscheidenden Fragen abschließend noch einmal betrachten:
a) Welche Produkte stehen im Markt?
→ Gute Sichtverhältnisse, bekannte Artikel: sehr zuverlässige Ergebnisse.
→ Kisten, Kartons, ungünstige Beleuchtung: Qualität sinkt deutlich.
b) Welche Produkte sind Out of Stock?
→ Lässt sich durch Vergleich mit vorherigen Erhebungen oder mit Planogrammdaten gut identifizieren und wird auch in der Praxis bereits genutzt. Zumindest in der Regalanalyse.
c) Wie ist das Facing?
→ Grundsätzlich erkennbar, aber je nach Regalhöhe und Kameraausrichtung eingeschränkt. Bei Kisten/Palettenplatzierungen unterliegt die Facing-Erkennung den gleichen Regeln wie die Produkterkennung selbst. Es wird kompliziert.
d) Details wie Preis, MHD, Zusatzinfos?
→ MHD: Ist die Information sichtbar am zu identifizierenden Produkt, dann ist auch eine MHD-Erkennung per Kamera durchführbar. In der Praxis scheitert dies meist an einer ungünstigen Platzierung des MHD Labels, die eine Lesbarkeit aus der Distanz wie beim Fotografieren nicht erlaubt.
→ Preise: Preiseinformationen – in Form von Metoschildern oder Regaletiketten – werden in der Regel per OCR gelesen und dann manuell dem erkannten Produkt zugeordnet. Ein in der Praxis eingesetztes Verfahren.
KEINE der Herausforderungen von 1 – 4 lässt sich heute zuverlässig zu 100% lösen.
Für ein durchgängiges, vollautomatisches Monitoring zu 100% ist der Markt für KI noch nicht reif. Auch künftig wird es Parameter geben, die manuell erfasst werden müssen – etwa Mindesthaltbarkeitsdaten oder individuelle Promotion. Und nicht überall, wo KI draufsteht, ist auch KI drin. Eine hohe Zuverlässigkeit entsteht erst durch Kombination von KI und „Legacy“ Technologien wie OCR oder Barcodeerkennung.
Dennoch können KI-unterstütze Applikationen am Point Of Sale die Qualität deutlich verbessern und gleichzeitig Zeit sparen. Aber erst durch intelligente Kombination von KI, Prozessdesign und menschlicher Kontrolle entsteht ein System, das in der Praxis wirklich überzeugt.
