Visuelle Suche und Objektenerkennung in Fotos von Evergreen 8 Visuelle Suche und Objektenerkennung in Fotos von Evergreen 9 Visuelle Suche und Objektenerkennung in Fotos von Evergreen 10

Visuelle Suche und Erkennung von grafischen Objekten: das richtige Produkt in wenigen Sekunden

Die visuelle Suche (Visual Search) ist eine mächtige Entwicklung auf dem Konsumgütermarkt. Der Konsument fotografiert ein Objekt oder richtet seine Kamera darauf. Anschließend findet das spezielle Programm in ein paar Sekunden die gewünschte Ware im Internet-Shop mit dem entsprechenden Preis und den Produktdetails.

Von einiger Zeit hat ein langjähriger Kunde von uns, dessen Firma sich mit Fernbedienungen befasst, einen Service unter dem Namen „Produkte mit Fotos finden“ eingeführt. Zu diesem Zweck sollte der Kunde ein Foto seines nicht funktionierenden Gerätes machen und dieses Foto dann an die Firma schicken. Ausgehend davon, musste nun ein ausreichend erfahrener Sachbearbeiter herausfinden, um welches Gerät es sich auf dem Foto handelt, das benötigte Modell suchen und dem Kunden die passende Option vorschlagen.

Visuelle suche

Dieser Ansatz verfügt über eine offensichtliche Herausforderung – menschliches Versagen bzw. Personalerfahrung. Zum Beispiel, ist nur ein erfahrener Mitarbeiter dazu fähig, eine Fernbedienung zu erkennen, deren Beschriftung sich mit der Zeit gelöst hat oder bei der möglicherweise schon eine Hand voll Tasten fehlen. Eine absolute Hemmung jeglicher Expansionspläne und dieses Dilemma lässt sich auf sämtliche Branchen übertragen: Autozubehör, Textilindustrie etc.

Eine Künstliche Intelligenz für das Erkennen von Objekten Programmieren: Wie haben wir es der Maschine Beigebracht?

Um die Idee der Objekterkennung in der Realität umzusetzen, haben wir uns bei der Konzeptions der selbstlernenden KI an neuronalen Lernprozessen orientiert. Zuerst haben wir das Ausgangsmaterial vorbereitet. In diesem Fall wurden mehr als 40 Tausend Bilder eines konkreten Objektes in verschiedenen Positionen und mit verschiedensten Hintergründen aufgenommen. Ein Teil der Fotos wurde manuell gemacht, die meisten wurden aber in einem Virtual-Studio im halbautomatischen Modus generiert.


Die erste Lernstufe dauerte 3 Wochen. Das Ergebnis war für uns nicht befriedigend, weil das Netzwerk nur die unter idealen Bedingungen aufgenommenen Bilder erkannte. Schatten, Blendungen oder perspektivische Verzerrungen führten zu einem kritischen Verlust an Erkennungspräzision, deswegen haben wir die zweite Stufe des KNN-Lernens gestartet.

Ausgehend davon, dass ein Kunde in den meisten Fällen ein Foto mit dem Handy aufnehmen würde, haben wir während der Vorbereitung und im Laufe des Netz-Lernverfahrens mehrere Faktoren berücksichtigt, wie:

  • Zu helle oder schwache Beleuchtung
  • Schlechter Blickwinkel
  • Abgenutzte Tasten und Schriften
  • Schlechter Hintergrund
  • Fotos mit Perspektive

Die zweite Lernstufe dauerte noch einige Wochen. Wir haben mehr Material für das Lernen vorbereitet und auch den Ansatz Programmieransatz geändert wodurch die KI wesentlich weniger abhängig von der Qualität der Fotos war als zuvor.

Technologien, mit welchen das Programm für Objekterkennung entwickelt werden kann

  • TensorFlow – ein Framework für maschinelles Lernen, mit dem wir ein neuronales Netz entwickelt haben. Wir haben das Faster-RCNN-Inception-V2-Modell verwendet, das für das Weiterlernen mit unserem Material optimal geeignet ist.

  • Google Cloud Vision, Soundex – für die Schrifterkennung haben wir API Google Cloud Vision benutzt, und für die beste Treffer-Suche unter den potentiellen Ergebnissen wurden Volltextsuche, Levinstein-Distanz und Soundex benutzt. Soundex ist ein phonetischer Algorithmus der Indizierung der Wörter und Phrasen nach ihrem Klang in englischer Sprache.

Wie kann die Visuelle Suche in Bestehende Systeme Integriert werden?

Das von uns entwickelte Bilderkennungssystem ist im Grunde ein API-Service und kann unkompliziert in einen Chatbot, eine Webseite, eine mobile Anwendung und in die internen Systeme des Unternehmens integriert werden. Ressourcen können dadurch sowohl intern gespart werden als auch bei den angebotenen Services, was einen riesigen Wettbewerbsvorteil mit sich zieht. Die Bestellung wird gleich nach dem Abschluss an die Versandabteilung übergeben und kann kurzfristig versendet werden.

Wenn Sie gewagte Ideen für das API-Programmieren haben und ein Bilderkennungssystem brauchen (für die Erkennung verschiedener Objekte oder menschlicher Gesichter), können Sie sich gerne bei uns melden.

10.01.2019
Рейтинг: 0 / 5 (0)
Möchten Sie Ihr Projekt oder Ihre Auftragsentwicklung besprechen?
Senden