Die visuelle Suche (Visual Search) ist eine mächtige Entwicklung auf dem Konsumgütermarkt. Der Konsument fotografiert ein Objekt oder richtet darauf seine Kamera. Das spezielle Programm findet in ein paar Sekunden die gewünschte Ware im Internet-Shop und berichtet ihre Preis und Eigenschaften.

Von einiger Zeit hat einen von unseren Kunden, die Fernbedienungfirma einen Service unter dem Namen „Produkte mit Fotos finden“ eingeführt. Zu diesem Zweck sollte der Kunde ein Foto seines nicht funktionierenden Gerätes machen und es dem Manager senden. Danach würde sich ein erfahrener Manager darüber überlegen, „was genau zugesandt wurde“, nach einem benötigten Modell suchen und dem Kunden die gewünschte Option vorschlagen.

Visuelle suche

Dieser Ansatz verfügt über eine offensichtliche Herausforderung – menschliches Versagen bzw. Personalerfahrung. Zum Beispiel, ist nur ein erfahrener Manager dazu fähig, eine Fernbedienung zu erkennen, die von einem Hund angeknabbert ist, die Tasten halb gefressen. Oder ein Autozubehör. Nur ein Spezialist mit Erfahrung kann anhand des Bildes feststellen, was für ein Insekt Sie gestochen hat. Vor kurzer Zeit eingestellter Mitarbeiter ist so einer Aufgabe nicht gewachsen – man soll diesen noch längere Zeit ausbilden.

Programmieren des kunstintellektes für objekterkennung. Wie haben wir es die maschine gelehrt

Um die Objekterkennung in Bildern aus einer Idee Realität zu verwandeln, haben wir solch eine Weise des maschinellen Lernens benutzt, wie Lernen der künstlichen neuronalen Netzwerke. Zuerst haben wir das Ausgangsmaterial vorbereitet. In diesem Fall wurden mehr als 40 Tausend Bilder eines konkreten Objektes in verschiedenen Positionen und mit verschiedensten Hintergründen aufgenommen. Ein Teil der Fotos wurde manuell gemacht, die meisten wurden aber in einem Virtual-Studio im halbautomatischen Modus generiert.
Die erste Lernstufe dauerte 3 Wochen. In dieser Zeit ist das neuronale Netz mehr als 3 Millionen Schritte gelaufen. Das Ergebnis war für uns nicht befriedigend, weil das Netzwerk nur die unter den idealen Bedingungen aufgenommenen Bilder erkannte hat. Jeder Schatten, Blendung oder perspektivische Verzerrung führten zu einem kritischen Verlust an Erkennungspräzision, deswegen haben wir die zweite Stufe des KNN-Lernens angefangen.

Ausgehend davon, dass ein Kunde in den meisten Fällen ein Foto mit dem Handy aufnehmen würde, haben wir während der Vorbereitung und im Laufe des Netz-Lernverfahrens mehrere Faktoren berücksichtigt wie:

    • Zu helle oder schwache Beleuchtung
    • Schlechter Blickwinkel
    • Abgenutzte Tasten und Schriften
    • Schlechter Hintergrund
    • Fotos mit Perspektive

Die zweite Lernstufe dauerte noch einige Wochen. Wir haben mehr Material für das Lernen vorbereitet, haben auch den Ansatz geändert, so ist das Netz noch 300 Tausend Schritte gelaufen und hat diesmal ein gutes Ergebnis gezeigt, wesentlich weniger anfällig für die Qualität der ursprünglichen Bildern als zuvor.

Technologien, mit welchen das programm für die objekterkennung entwickelt wird

  • TensorFlow – ein Framework für maschinelles Lernen, mit dem wir ein neuronales Netz entwickelt haben. Wir haben das Faster-RCNN-Inception-V2-Modell verwendet, das für das Weiterlernen mit unserem Material optimal geeignet ist.

  • Google Cloud Vision, Soundex – für die Schrifterkennung haben wir API Google Cloud Vision benutzt, und für die beste Treffer-Suche unter den potentiellen Ergebnissen wurden Volltextsuche, Levinstein-Distanz und Soundex benutzt. Soundex ist ein phonetischer Algorithmus der Indizierung der Wörter und Phrasen nach ihrem Klang in englischer Sprache.

Wie kann man die visuelle suche in die bestehenden systeme integriert werden

Das von uns entwickelte Bilderkennungssystem ist im Grunde ein API-Service und kann leicht in einem Chatbot, Webseite, mobiler Anwendungen und in die Innensysteme des Unternehmens integriert werden. Dies wird dem Unternehmen ermöglichen, als ein völlig automatisierter Prozess ohne menschlichen Eingriff zu funktionieren. Die Bestellung wird gleich nach dem Abschluss an die Versandabteilung übergeben und kann kurzfristig versendet werden.


Wenn Sie gewagte Ideen für das API-Programmieren haben und ein Bilderkennungssystem brauchen (für die Erkennung verschiedener Objekten oder menschlicher Gesichter), können Sie sich gerne bei uns melden.

10.01.2019
Рейтинг: 0 / 5 (0)