KI-basiertes neuronales Netzwerk für die Klassifizierung von Bildern
Einleitung
In einer Zeit, in der technologischer Fortschritt und digitale Innovation exponentiell zunehmen, verlieren die einst prägenden physischen Begrenzungen von Rechenleistung und Speicherkapazität zunehmend an Bedeutung. Maschinelles Lernen 2,5 und Künstliche Intelligenz (KI) revolutionieren die Verarbeitung und Interpretation von Informationen in einer Welt, die von diesen bahnbrechenden Technologien geprägt ist. Ein herausragendes Beispiel dieser Entwicklung ist die Entfaltung künstlicher neuronaler Netze 8-11 im Bereich der Bildklassifizierung.
Diese künstlichen neuronalen Netze 12-14, die sich vom menschlichen Gehirn inspirieren lassen, haben sich als äußerst leistungsfähige Werkzeuge erwiesen, um komplexe visuelle Daten zu analysieren und zu verstehen. Durch die Vernetzung von Millionen künstlicher Neuronen sind diese Netzwerke in der Lage, Muster zu erkennen, zu erlernen und Entscheidungen zu treffen – eine Fähigkeit, die bis vor Kurzem als rein menschlich betrachtet wurde.
Einfache Logik bezieht sich auf die Fähigkeit, logische Prinzipien und Schlussfolgerungen anzuwenden. Dies umfasst die Verarbeitung von Informationen auf der Grundlage von klaren, vordefinierten Regeln, wobei logisches Denken oft auf spezifischen Algorithmen und formalen Strukturen basiert 1. Diese Form der Logik findet Anwendung in verschiedenen Bereichen wie Mathematik, Informatik und formalen Systemen.
Auf der anderen Seite ist Intelligenz ein breiteres Konzept, das die Fähigkeit zur Anpassung an neue Situationen, das Lösen von Problemen, das Lernen aus Erfahrungen und die Anwendung von Wissen auf verschiedene Kontexte umfasst. Intelligenz 18 geht über einfache logische Operationen hinaus und beinhaltet oft kreative Problemlösung, emotionale Intelligenz, soziale Kompetenz und eine Vielzahl von kognitiven Fähigkeiten. Sowohl Menschen als auch Tiere zeigen Intelligenz in ihrer Fähigkeit, flexibel auf ihre Umgebung zu reagieren und komplexe Probleme zu bewältigen. Insgesamt ist einfache Logik eine spezifische Fähigkeit, während Intelligenz ein umfassenderes und komplexeres Konzept ist, das verschiedene Aspekte des Denkens und Verhaltens umfasst.
Es ist zu erkennen, welche Herausforderungen an die Maschine gestellt werden, sollte es auf eine künstliche Weise solche Intelligenz wie der Mensch anstreben. Um es zu verdeutlichen, manche Begriffe wie 'verstehen' erhalten unterschiedliche Konnotationen, wenn es um Computer geht 7,8. Dies kann sich in sofortigen Reaktionen manifestieren oder in das Langzeitgedächtnis umgewandelt werden, wo es persistiert. Informationen zu bestimmten Ereignissen sollen verschiedene Gewichtungen und Bedeutungen haben, die dann angewendet werden, wenn sie erneut benötigt werden.
Die verschiedenen Techniken, die dafür verwendet werden, fallen unter den Bereich des maschinellen Lernens als Teil der künstlichen Intelligenz, der auch bei der Erkennung von Formen in Bildern Anwendung findet 2,15. Ohne diese Erkennung wäre es nicht möglich, ein Bild zu klassifizieren, genauer gesagt, ein Image. Bei der Klassifizierung geht es jedoch über die Frage hinaus, ob wir vordefinierte Figuren oder Formen sehen oder nicht. Vielmehr geht es darum, welche Bedeutung wir darin erkennen. Zum Beispiel wird sich ein Computer, wenn hunderte oder tausende Fahrräder nebeneinander stehen, eher als 'Parkplatz für Fahrräder' zusätzlich klassifizieren lassen als 'nur' Fahrräder, da im Alltag normalerweise nicht so viele Fahrräder nebeneinander stehen, selbst nicht im Geschäft 16. Was wird dann den Unterschied ausmachen? Die Anzahl oder auch andere Objekte, die daneben stehen, wie etwa eine Kasse? Ob dies auch andere Assoziationen hervorrufen kann, hängt vom Lernprozess und der Verfügbarkeit der Erfahrungen ab, die die Maschine, das System, bereits gemacht hat – ähnlich wie in unserem Gehirn, wo die Frage 'Habe ich das schon woanders gesehen?' in einem Suchprozess und durch Sortierung und Bewertung aller vorhandenen Ergebnisse beantwortet wird.
Sich vorzustellen, diese Punkte und Orientierungen weiterzuverfolgen, offenbart den Schwierigkeitsgrad beim Versuch, eine Maschine dazu zu bringen, das menschliche Gehirn und seine Fähigkeiten nachzuahmen. Doch auch das menschliche Gehirn muss durch Training viele Informationen sammeln, verschiedene Prozesse und Denkweisen erlernen, bevor es in der Lage ist, wenn auch nicht fehlerfrei, Schlussfolgerungen und Konsequenzen zu ziehen. Dieser Prozess beginnt bei der Geburt und endet praktisch nie. Es ist daher nachvollziehbar, dass auch Maschinen einen kontinuierlichen Lernprozess benötigen. Aus dem Ozean der Daten und Informationen können unzählige Situationen und Bedürfnisse entstehen, die im Voraus nicht zu kalkulieren sind und teilweise dynamisch und in Echtzeit analysiert und berechnet werden müssen. Dabei wird bei Bedarf auf statistische Daten zugegriffen, die qualifiziert, kategorisiert und teilweise bereits mit Werten für Gewichtungen und Metadaten angereichert sind. Ohne die Verwendung von implementierten, generischen und spezialisierten Methoden und Modellen wäre ein solches Vorhaben nicht möglich. An dieser Stelle kommen Techniken des Big Data 19 und der künstlichen Intelligenz zum Einsatz, genauer gesagt die Abbildung von künstlichen neuronalen Netzen.
Die Anwendungsbereiche für künstliche neuronale Netze erstrecken sich über diverse Branchen, von der Medizin bis zur Automobilindustrie. Besonders beeindruckend ist ihr Potenzial im Bereich der Bildklassifizierung 5. Durch das Training dieser Netze mit umfangreichen Datensätzen erlangen sie die Fähigkeit, eine riesige Anzahl von Objekten, Gesichtern oder Szenarien zu erkennen und zu differenzieren. Dieser Fortschritt hat nicht nur die Effizienz automatisierter Systeme gesteigert, sondern auch den Weg für innovative Anwendungen in der Bilderkennung geebnet. Dort, wo die physischen Grenzen der Vernetzung, Rechenleistung und Speicherkapazität überwunden sind, bleiben nur die Grenzen unserer Fantasie übrig.
Das Neuron, als kleinste funktionelle Einheit im Nervensystem, verfügt über mehrere „Andockstellen“ für Inputs und gibt einen Output in Form eines Axons ab. Wenn die Auswertung der Informationen an den Andockstellen bestimmte berechnete Werte erreicht, erfolgt ein Impuls durch das Axon. Die Art der Informationen und die Berechnungsmethoden sind spezifisch und unterscheiden sich von Fall zu Fall. Diese Beschreibung neigt bereits dazu, sich von unserem biologischen Ziel zu entfernen. Hierbei würden wir uns auf die Synapse, Rezeptoren, die chemische Übertragung von Acetylcholin und die Umwandlung in elektrischen Strom konzentrieren.
Die Bedeutung des Pulses im Axon, also des Outputs dieser Berechnungen, ist individuell festgelegt. Die Relevanz für diese Zelle wird im System vorgegeben. Die Konstrukte, die sich an den Rezeptoren bilden, die Eingänge und die durchgeführten Berechnungen variieren je nach dem abgebildeten Netzwerk solcher Einheiten in Form von Neuronen. Diese Neuronen sind in geordneten Schichten miteinander verbunden, wobei jede Schicht eine Ansammlung von Bäumen als abstrakte Datenstruktur bildet. Insgesamt entsteht ein Wald von Bäumen und Wäldern von Wäldern von Bäumen 1, die statisch oder dynamisch zusammengeführt, sortiert, gefiltert, erweitert und reduziert werden können. Es werden Suchpfade und kritische Pfade berechnet, lineare Maximum-Minimum-Probleme gelöst, die kürzeste Strecke berechnet, und Evaluierungen von heroischen Formeln sowie praktisch allem, was die Informatik im Hintergrund leisten kann, werden nach Zweck und Ziel angewendet. Dies jedoch fällt bereits nicht mehr in den Rahmen der Einleitung.
Im Zusammenhang mit der Bilderkennung 9 lässt sich anhand einiger Beispiele verdeutlichen 5, dass selbst eine kurze, gekrümmte Linie 6,9 als Darstellung einer Tischdecke, der Ecke eines Treppenhauses oder dem Spritzschutz eines Fahrrads identifiziert werden kann 2. Gleichzeitig könnte eine lebhafte Aufnahme mit hell-dunkel-orange leuchtenden Pixelgruppen in einer Ecke als Ausbruch eines Feuers in einer Produktionslinie interpretiert werden, während ein blitzartiger, kurzer Lichtreflex von einer Schutzbrille eines Mitarbeiters keinen Alarm auslöst. Bei der Gestaltung künstlerischer Bilder könnten schattierte und dunklere Farbtöne gewählt werden, insbesondere wenn im Hintergrund ein Bild eines Denkmals mit Menschenansammlung und Regenschirmen zu erkennen ist.
Die Fähigkeit Künstlicher Neuronaler Netze, konkreter die Convolutional Neural Network (CNN) 3-4, zur Bewältigung komplexer Aufgaben wie Bildklassifizierung 17 eröffnet faszinierende Perspektiven für die Zukunft. In einer Welt, die von maschinellem Lernen geprägt ist, könnten wir uns in naher Zukunft an einem Punkt befinden, an dem die Simulation künstlerischer Fähigkeiten eines begabten Menschen konkrete Formen annimmt und möglicherweise sogar übertrifft.
Gehen wir nun zur Erläuterung der Theorie und der technischen Grundlagen für die Darstellung und Anwendung künstlicher neuronaler Netzwerke über.
Literaturverzeichnis
[1] S. Borm, “Algorithmen und Datenstrukturen”.
[2] “Computer Vision,” Wikipedia. Jan. 03, 2024. Accessed: Feb. 15, 2024. [Online]. Available: https://de.wikipedia.org/w/index.php?title=Computer_Vision&oldid=240814415
[3] “Convolutional Neural Network,” Wikipedia. Jan. 17, 2024. Accessed: Feb. 15, 2024. [Online]. Available: https://de.wikipedia.org/w/index.php?title=Convolutional_Neural_Network&oldid=241275810
[4] “Convolutional Neural Network (CNN): Alles, was Du wissen solltest.” Accessed: Feb. 15, 2024. [Online]. Available: https://datascientest.com/de/convolutional-neural-network-2
[5] F. Alvi, “Deep Learning For Computer Vision: Essential Models and Practical Real-World Applications,” OpenCV. Accessed: Feb. 15, 2024. [Online]. Available:
https://opencv.org/blog/deep-learning-with-computer-vision/
[6] “How Google Cracked House Number Identification in Street View,” MIT Technology Review. Accessed: Feb. 15, 2024. [Online]. Available: https://www.technologyreview.com/2014/01/06/251579/how-google-cracked-house-number-identification-in-street-view/
[7] “Java Deep Learning Tutorial: So bauen Sie ein neuronales Netzwerk auf.” Accessed: Feb. 15, 2024. [Online]. Available: https://www.computerwoche.de/a/so-bauen-sie-ein-neuronales-netzwerk-auf,3613718
[8] “Künstliche Intelligenz (KI) und maschinelles Lernen - Fraunhofer IKS,” Fraunhofer-Institut für Kognitive Systeme IKS. Accessed: Feb. 15, 2024. [Online]. Available: https://www.iks.fraunhofer.de/de/themen/kuenstliche-intelligenz.html
[9] H. Bunke, Künstliche Intelligenz in Bild- und Sprachanalyse. Springer-Verlag, 2013.
[10] R. T. Kreutzer and M. Sirrenberg, Künstliche Intelligenz verstehen: Grundlagen – Use-Cases – unternehmenseigene KI-Journey. Springer-Verlag, 2019.
[11] B. W. Wirtz and J. C. Weyerer, “Künstliche Intelligenz: Erscheinungsformen, Nutzungspotenziale und Anwendungsbereiche,” WIST, vol. 48, no. 10, pp. 4–10, 2019, doi: 10.15358/0340-1650-2019-10-4.
[12] B. Alex, Künstliche neuronale Netze in Management-Informationssystemen: Grundlagen und Einsatzmöglichkeiten. Springer-Verlag, 2013.
[13] “Künstliches neuronales Netz,” Wikipedia. Dec. 26, 2023. Accessed: Feb. 15, 2024. [Online]. Available: https://de.wikipedia.org/w/index.php?title=K%C3%BCnstliches_neuronales_Netz&oldid=240536747
[14] M. Traeger et al., “Künstliche neuronale Netze,” Der Anaesthesist, vol. 52, no. 11, pp. 1055–1061, Nov. 2003, doi: 10.1007/s00101-003-0576-x.
[15] S. Fuchs and R. Hoffmann, Mustererkennung 1992: 14. DAGM-Symposium, Dresden, 14.–16. September 1992. Springer-Verlag, 2013.
[16] M. Christen et al., Wenn Algorithmen für uns entscheiden: Chancen und Risiken der künstlichen Intelligenz. vdf Hochschulverlag AG, 2020.
[17] W. Penman, J. Babu, and A. Raghunathan, “What Values Do ImageNet-trained Classifiers Enact?”.
[18] “Intelligenz,” Wikipedia. Jan. 22, 2024. Accessed: Feb. 16, 2024. [Online]. Available: https://de.wikipedia.org/w/index.php?title=Intelligenz&oldid=241429358
[19] “Big Data,” Wikipedia. Nov. 01, 2023. Accessed: Feb. 16, 2024. [Online]. Available: https://de.wikipedia.org/w/index.php?title=Big_Data&oldid=238693351