Data Science Glossar
Die wichtigsten Begriffe
B
Bilderkennung erfolgt durch Software, die auf Data-Mining-Algorithmen baut. Die Bilderkennungssoftware ist dazu in der Lage, Elemente auf Bildern untereinander zu unterscheiden und sie im nächsten Schritt zu klassifizieren. Die Algorithmen, auf die sich diese Technologie stützt, sind z.B. neuronale Netzwerke. Die Bilderkennung findet Anwendung bei:
- Gesichtserkennung
- Apps zur Bestimmung von Pflanzen-, Tier-, oder Pilzarten anhand von Bildern usw.
- Übertragung von eingescannter Handschrift in digitalen Text
Bilderkennung ermöglicht die Nutzung und Weiterverarbeitung von Informationen aus Bildern. In Unternehmen kann eine Bilderkennung beispielsweise Prozesse der Qualitätssicherung automatisieren, indem Risse oder Beschädigungen in Produkten automatisch erkannt werden.
C
Clustering ist eine Form des unüberwachten Lernens. Dabei werden Daten durch einen Algorithmus segmentiert und anhand ähnlicher Eigenschaften in Gruppen (Cluster) eingeteilt. Jeder Datenpunkt stellt dabei nur einen Teil des Clusters dar. Unterschiedliche Clustering-Methoden sind beispielsweise:
- K-Means-Clustering
- Hierarchisches Clustering
- Density Based Spacial Clustering von Anwendungen mit Rauschen (DBSCAN)
Mit Hilfe der Clusteranalyse können Unternehmen Muster in Datensätzen identifizieren. Die Aufbereitung und Segmentierung von Datenmengen ermöglicht diverse Anwendungsfälle. So lassen sich dadurch Kundengruppen sortieren, um Angebote gezielt auf die Nachfrage anzupassen oder auch um Arbeitsprozesse durch erkannte Muster zu optimieren.
D
Data Mining beschreibt im Allgemeinen die Verarbeitung und das Untersuchen großer Daten- oder Informationssätze auf verborgene Muster, Erkenntnisse und Strukturen. Dazu kommen Prozesse und Methoden aus diversen Feldern zum Einsatz:
• Maschinelles Lernen
• Statistik
• Datenbanksysteme
Data Mining ist ein wichtiger Schritt im Prozess der Datenverarbeitung und hilft dabei, nützliche Informationen für die Analyse der Datensätze zu sammeln. Für Unternehmen ist Data Mining deshalb interessant, weil es verdeckte Potentiale, Trends und Erkenntnisse in vorhandenen Daten aufzeigt und auch bis dahin unbekannte Querverbindungen in den Daten offenlegen kann.
Ähnliche Themen:
Text Mining, Web Mining, Bilderkennung
Bei der deskriptiven Analytik handelt es sich um eine Datenanalyse, die als Grundlage Echtzeitdaten verwendet, um spezifische Fragen zu beantworten. Gekennzeichnet ist sie durch traditionelle Business Intelligence und Visualisierungen wie:
- Kreisdiagramme
- Balkendiagramme
- Tabellen
Die grafische Darstellung der Ergebnisse hilft dabei, komplexe Daten auf ansprechende und leicht verständliche Weise darzustellen.
Die deskriptive Analytik nutzt Datenaggregation und Data Mining, um Erkenntnisse über die Vergangenheit zu gewinnen. Die genannten Methoden ermöglichen es, Korrelationen zwischen den einzelnen Datensätzen zu gewinnen, welche sonst verborgen bleiben würden.
I
Industrie 4.0 bezeichnet eine Entwicklung der Digitalisierung in Richtung Automatisierung und zum Datenaustausch in der Fertigungstechnik. Auch als vierte industrielle Revolution bezeichnet, handelt es sich dabei um auf Algorithmen basierende Mechanismen in cyber-physischen Systemen. Diese ermöglichen die Vernetzung zwischen physischen Maschinen und Softwarekomponenten innerhalb eines Systems, um Fertigungsprozesse zu optimieren.
Beispiele hierfür sind:
- Automatisierte Gewächshäuser
- Umweltüberwachung
- Autonome Fahrzeugsysteme
Unternehmen profitieren auf vielfältige Weise von Maßnahmen der Industrie 4.0:
- Effizienzsteigerung in der Produktion
- Produktionskosten senken
- Höhere Flexibilität
- Effizientes Monitoring
O
Bei offenen Daten (Open Data) handelt es sich um die Idee, dass bestimtme Datensätze für die Öffentlichkeit frei zugänglich sein sollten. Das bedeutet, dass keine Patente oder Urheberrechte nötig sind, um die Daten selbst zu nutzen und zu veröffentlichen.
Beispiele für offene Datenquellen sind:
- Humangenomprojekt
- Dataverse-Netzwerk
- Offene staatliche Daten (z.B. GovData in Deutschland)
Unternehmen können in vielfältiger Weise von freien Datenportalen profitieren, um eigene Prozesse zu optimieren sowie Innovationen voranzutreiben. Umgekehrt können Unternehmen ebenso Datensätzen als offene Daten zur Verfügung stellen. Dies erhöht die Transparenz und kann durch die Beteiligung Dritter Denkanstöße für die weitere Entwicklung von Prozessen und Produkten geben.