Data Science Glossar
Die wichtigsten Begriffe
A
Eine Anwendungsprogrammierschnittstelle (API, engl. Application Programming Interfaces) ermöglicht die Kommunikation zwischen verschiedenen Anwendungen. Die API definiert eine bestimmte Struktur und die Syntax wie Anwendungen miteinander kommunizieren und Daten austauschen können.
APIs finden in vielen verschiedenen Bereichen Anwendung:
- Als Schnittstelle zwischen verschiedenen Business Intelligence Tools innerhalb einer Organisation: So können Daten aus verschiedenen Quellen oder Bereichen gesammelt und kombiniert werden, um einen umfassenden Überblick über das Unternehmen zu erhalten.
- Als Dienst, der das Smartphone mit dem Internet verbindet: Hierbei ermöglicht die API den Zugriff auf das Netzwerk und stellt sicher, dass die Kommunikation reibungslos abläuft.
Für Internetseiten die Informationen aus anderen Quellen zusammenfassen, wie z.B. Reiseseiten die verschiedene Angebote von Flügen und Hotels zusammenzufassen: Hierbei greifen die Webseiten auf Daten von verschiedenen Anbietern zu und kombinieren diese zu einer umfassenden Übersicht für den Kunden.
B
Bilderkennung erfolgt durch Software, die auf Data-Mining-Algorithmen baut. Die Bilderkennungssoftware ist dazu in der Lage, Elemente auf Bildern untereinander zu unterscheiden und sie im nächsten Schritt zu klassifizieren. Die Algorithmen, auf die sich diese Technologie stützt, sind z.B. neuronale Netzwerke. Die Bilderkennung findet Anwendung bei:
- Gesichtserkennung
- Apps zur Bestimmung von Pflanzen-, Tier-, oder Pilzarten anhand von Bildern usw.
- Übertragung von eingescannter Handschrift in digitalen Text
Bilderkennung ermöglicht die Nutzung und Weiterverarbeitung von Informationen aus Bildern. In Unternehmen kann eine Bilderkennung beispielsweise Prozesse der Qualitätssicherung automatisieren, indem Risse oder Beschädigungen in Produkten automatisch erkannt werden.
Eine Blockchain ist eine Art dezentrales, digitales Hauptbuch, das Transaktionen aufzeichnet. Es ist eine kontinuierlich wachsende Liste von Datensätzen, die mit Kryptographie und Kryptowährung verbunden sind und auf vielen Computern verteilt gespeichert werden.
Jeder Block in der Blockchain enthält Informationen wie Transaktionsdaten, einen kryptografischen Hash (Schlüssel) des vorherigen Blocks und einen Zeitstempel.
Die Blockchain-Technologie garantiert einen sicheren und vertrauenswürdigen Austausch von Informationen, da die Daten nach ihrer Speicherung nicht mehr verändert werden können.
Die Technologie hat Anwendungen in verschiedenen Bereichen, wie z. B.:
- Finanztransaktionen
- Versicherungen
- Gesundheitswesen
- Supply Chain Management
Business Intelligence bezieht sich auf eine Vielzahl von Tools, Anwendungen und Methoden, die einem Unternehmen bei der Sammlung und Analyse von Daten aus internen oder externen Quellen helfen. Ziel ist es, durch diese Datenanalysetechniken wertvolle Informationen zu gewinnen und Entscheidungsprozesse zu unterstützen.
Business Intelligence wird am häufigsten bei der Visualisierung von Daten eingesetzt, um Informationen übersichtlich darzustellen und Entscheidungen auf der Grundlage von Fakten zu treffen.
Business Intelligence ist in unterschiedlichsten Branchen vertreten, wie zum Beispiel:
- im Finanzwesen
- im Marketing
- im Supply-Chain-Management
Durch die Verwendung von Business Intelligence können Unternehmen ihre Prozesse optimieren und ihre Effizienz steigern.
C
Clustering ist eine Form des unüberwachten Lernens. Dabei werden Daten durch einen Algorithmus segmentiert und anhand ähnlicher Eigenschaften in Gruppen (Cluster) eingeteilt. Jeder Datenpunkt stellt dabei nur einen Teil des Clusters dar. Unterschiedliche Clustering-Methoden sind beispielsweise:
- K-Means-Clustering
- Hierarchisches Clustering
- Density Based Spacial Clustering von Anwendungen mit Rauschen (DBSCAN)
Mit Hilfe der Clusteranalyse können Unternehmen Muster in Datensätzen identifizieren. Die Aufbereitung und Segmentierung von Datenmengen ermöglicht diverse Anwendungsfälle. So lassen sich dadurch Kundengruppen sortieren, um Angebote gezielt auf die Nachfrage anzupassen oder auch um Arbeitsprozesse durch erkannte Muster zu optimieren.
D
Data Mining beschreibt im Allgemeinen die Verarbeitung und das Untersuchen großer Daten- oder Informationssätze auf verborgene Muster, Erkenntnisse und Strukturen. Dazu kommen Prozesse und Methoden aus diversen Feldern zum Einsatz:
• Maschinelles Lernen
• Statistik
• Datenbanksysteme
Data Mining ist ein wichtiger Schritt im Prozess der Datenverarbeitung und hilft dabei, nützliche Informationen für die Analyse der Datensätze zu sammeln. Für Unternehmen ist Data Mining deshalb interessant, weil es verdeckte Potentiale, Trends und Erkenntnisse in vorhandenen Daten aufzeigt und auch bis dahin unbekannte Querverbindungen in den Daten offenlegen kann.
Ähnliche Themen:
Text Mining, Web Mining, Bilderkennung
Data Engineers bauen Datenpipelines – sie sind dafür verantwortlich, Daten für den Verbrauch zu bereinigen, aufzubereiten und zu optimieren. Dieser Prozess wird als ETL (Extrahieren, Transformieren und Laden) bezeichnet. Dadurch erschaffen sie die notwendige Infrastruktur, sodass es überhaupt möglich ist die Daten später zu analysieren und zu bewerten.
Ein Data Scientist ist nur so gut wie die Daten, auf die er Zugriff hat. Deshalb sind Data Engineers genauso wichtig wie Data Scientists, wenn es darum geht, Entscheidungen auf der Grundlage von Daten zu treffen. Sie stellen sicher, dass die Daten, die ein Data Scientist analysiert, korrekt und vollständig sind, und dass sie in einer Form vorliegen, die es dem Data Scientist ermöglicht, aussagekräftige Erkenntnisse zu gewinnen.
Zu möglichen Aufgaben eines Data Engineers gehören:
- die Bereinigung der unstrukturierten Datenmengen
- die Aufbereitung der Datenmengen im richtigen Format
- die Schaffung der Infrastruktur zur Analyse der Daten
- die Implementierung von Datenbanken
- die Verwaltung von Cloud-Plattformen
- die Entwicklung von APIs
- die Sicherstellung der Datenqualität
Ein Data Lake oder Datensee ist ein Ansatz zur Speicherung von Daten, die zu einem unbekannten Zeitpunkt benötigt werden könnten. Ein Data Lake enthält große Mengen an Rohdaten, einschließlich strukturierter, halbstrukturierter oder unstrukturierter Datensätze.
Im Gegensatz zu einem traditionellen Data Warehouse, bei dem die Struktur und die Anforderungen an die verfügbaren Daten im Voraus definiert werden, erfolgt die Definition bei einem Data Lake erst dann, wenn die Daten benötigt und extrahiert werden. Dadurch ist es möglich, eine Vielzahl von Datenquellen zu speichern, ohne im Vorfeld die Struktur oder das Format dieser Daten kennen zu müssen.
Ein Data Lake implementiert eine einzige Speicherlösung für alle Unternehmensdaten, einschließlich Rohdaten und umgewandelte Daten. Ziel ist es, alle potentiell benötigten Daten zu sammeln und sie später bei Bedarf zu transformieren und zu analysieren. So können Unternehmen ihre Daten in einer zentralen Quelle speichern, die leicht zugänglich und sich flexibel an veränderte Anforderungen anpassen lässt.
Data Scientists sind auf die Organisation und Analyse von großen Datenmengen mithilfe von Software spezialisiert. Zunächst sind sie damit beschäftigt die vorhandenen Daten in mehreren Schritten aufzubereiten:
- Data Collection
- Data Cleaning
- Data Exploration
Anschließend nutzen sie verschiedene auf maschinellem Lernen basierende Verfahren und Werkzeuge, um aus den bereitgestellten Daten Erkenntnisse zu gewinnen.
Das wichtigste Ziel eines Data Scientists ist es, eine Entscheidungsgrundlage zu erstellen, die auf den vorher aufbereiteten Daten basiert. Daraus ergeben sich Prognosen bestimmter Prozesse für die Zukunft, die wiederum Empfehlungen ermöglichen.
Die genauen Aufgabenbereiche eines Data Scientists sind vielfältig und variieren je nach Branche, Unternehmen und Projekt.
Mögliche Einsatzfelder eines Data Scientists sind unter anderem:
- die Entwicklung von Modellen zur Vorhersage von Trends oder des Nutzerverhaltens, bspw. eines Online-Shops
- die Identifizierung von Risiken und Chancen für strategische Entscheidungen in Unternehmen
- die Optimierung unternehmensrelevanter Prozesse
- die Analyse von medizinischen Daten zur Entwicklung neuer Behandlungsmethoden
Eine Data Staging Area ist ein Speicherort für Sammlungen von Transaktionsdaten, die dauerhaft gespeichert und verwaltet werden können.
Im Kontext eines Data Warehouses fungiert sie häufig als Zwischenablage/Staging-Bereich.
Der Fokus der Data Staging Area liegt darauf, eine hohe Leistungsfähigkeit und die Ausführung von zahlreichen Abfragen bei kleinen Datenmengen zu ermöglichen.
Zu Vorteilen einer Data Staging Area zählen:
- schnelle Abfragen für Echtzeit-Transaktionsverarbeitung
- höhere Datenintegrität und -sicherheit als andere Speicherlösungen
Nachteile der Data Staging Area sind:
- höhere Preise als andere Speicherlösungen
- möglicherweise höhere Wartungen erforderlich
Ein Data Warehouse ist ein zentraler Speicherort für Daten, die für bestimmte Anwendungen benötigt werden. Diese werden anschließend für Aufgaben transformiert. Dabei werden sowohl aktuelle als auch historische Daten zu quantitativen Metriken in strukturierte Datentabellen umgewandelt, die hauptsächlich für Berichte und Analysen verwendet werden.
In einem Data Warehouse werden die Daten an einem einzigen zentralen Ort gespeichert, um einen schnellen und einfachen Zugriff zu ermöglichen. Auf diese Weise wird vermieden, dass Daten über mehrere Systeme hinweg verstreut und schwer zugänglich sind.
Als Kernkomponente von Business Intelligence (BI) fungiert ein Data Warehouse als zentrales Repository für integrierte Datenbanken und andere Quellen wie Transaktionssysteme.
Beispiele für Data-Warehouse-Software-Lösungen sind:
- AWS Redshift
- SAP Data Warehouse
- Oracle Warehouse Builder.
Ein Data Warehouse ist eine wichtige Ressource für Unternehmen, die eine fundierte Entscheidungsfindung und eine effektive BI-Strategie umsetzen möchten.
Data Wrangling ist der Prozess der Aufbereitung von Rohdaten für die weitere Verarbeitung und Analyse. Die Daten werden aus verschiedenen Quellen für die Verwendung in Datenanalysesystemen oder Machine-Learning-Modellen vorbereitet.
Zu den Aufgaben des Data Wrangling gehören beispielsweise:
- Importieren / Exportieren in und aus bestimmten Formaten
- Zugriff auf Daten verschiedener Quellen und Zusammenführung dieser Daten
- Anpassen der Datentypen
- Umwandlung von Datumsformaten und Einheiten, die Vereinheitlichung von Schreibweisen und Formaten
- Entfernen bzw. Auffüllen von nicht benötigten oder nicht vorhandenen Daten (fehlende Werte, Duplikate und Ausreißer)
- Gruppieren / Sortieren von Daten
- Erstellung von Hierarchien und Gruppierungen
Data Wrangling ist ein elementarer Schritt in der Datenanalyse und ein wesentlicher Bestandteil von Big-Data-Projekten. Datenwissenschaftler verbringen oft viel Zeit damit, diese grundlegende explorative Datenanalyse durchzuführen, bevor sie tatsächlich den Wert ihrer Daten nutzen können. Das Motto Garbage in, Garbage out (GIGO) betont, wie wichtig es ist, ungenaue oder fehlerhafte Daten im Data Wrangling-Prozess zu bereinigen, da die Qualität der Analyseergebnisse direkt von der Qualität der zugrunde liegenden Daten abhängt. Ohne sorgfältiges Data Wrangling können falsche oder irreführende Erkenntnisse entstehen, was zu unzuverlässigen Schlussfolgerungen führt.
Die Automatisierung von Data Wrangling kann dazu beitragen, ohne Programmiertechniken den manuellen Aufwand bei der Datenaufbereitung zu reduzieren und die Effizienz zu steigern.
Datenwissenschaft (Data Science) ist ein interdisziplinäres Gebiet, das faktenbasierte, datengetriebene Entscheidungsprozesse ermöglicht. Sie kombiniert wissenschaftliche Methoden, Verfahren, Algorithmen und Systeme, um Wissen und Erkenntnisse aus Daten in verschiedenen Formen zu gewinnen.
Datenwissenschaftler arbeiten in der Regel mit großen Datensätzen, die von Unternehmen, Regierungsbehörden und Forschungseinrichtungen gesammelt werden. Neben der Expertise in der Statistik sowie dem Umgang mit Daten, müssen Data Scientists ebenso diese Daten verstehen und auswerten können.
Die Datenwissenschaft ist eng mit der Statistik verbunden und wird oft als Schlagwort für alle damit verbundenen Themen verwendet, wie z. B.:
- statistische Programmierung
- Data Mining
- maschinelles Lernen
Der Einsatz von maschinellem Lernen in der Datenwissenschaft hat in den letzten Jahren stark zugenommen und wird heute als eine der wichtigsten Methoden zur Gewinnung von Erkenntnissen aus Daten betrachtet, beispielsweise für Bereiche wie:
- Wirtschaft
- Politik
- Gesundheitsversorgung
- Bildung
Dateningestion beschreibt den Prozess des Zugriffs auf und des Imports von Daten zur unmittelbaren Verwendung oder Speicherung in einer Datenbank. Sie ist ein wichtiger Bestandteil des Aufbaus einer Datenpipeline, die für die Analyse und Verarbeitung von Daten erforderlich ist. Denn der Großteil der Daten ist unstrukturiert, weshalb Data Scientists sie für die weitere Arbeit vereinheitlichen und strukturieren müssen.
Die Dateneingabe kann aus verschiedenen Quellen erfolgen, wie zum Beispiel:
- CSV-Dateien
- Excel
- Webscraping (HTTP-Einträge)
- Dateien von einem FTP-Server
- In seltenen Fällen SQL
- leicht zugängliche Daten aus offenen Datenquellen
Ziel der Dateningestion ist es, Daten in einem bestimmten Format und einer bestimmten Struktur zu speichern, um sie für spätere Analysen und Verarbeitungen zugänglich zu machen.
- Die Daten werden auf mögliche Fehler oder Inkonsistenzen geprüft (z.B. NaN (Not a Number) = fehlende Werte)
- Falls Daten fehlen oder fehlerhaft vorhanden sind, werden diese korrigiert (z.B. Outliner durch einen Mittelwert ersetzen).
- Die Daten werden in das vorhandene Datenmodell integriert.
Eine effektive Dateningestion ist für Unternehmen und Organisationen entscheidend, um ihre Daten effektiv zu nutzen und wertvolle Erkenntnisse daraus zu gewinnen.
Das Extrahieren von Daten ist ein Teil des ETL (Extrahieren, Transformieren, Laden). Der ETL-Prozess ist eine wichtige Grundlage für die Datenvorbereitung und Integration.
Um Daten zu extrahieren, werden verschiedene Quellen abgefragt und ausgelesen, wie z.B.:
- Datenbanken
- Dateien
- externe Websites
Hierbei können unterschiedliche Technologien oder Tools wie Datenbankabfragesprachen oder Web-Scraper zum Einsatz kommen.
Im letzten Schritt des ETL-Prozesses werden die transformierten Daten in eine Datenbank oder ein anderes Speichermedium geladen. Hierbei wird in der Regel auch eine Überprüfung der Datenqualität durchgeführt, um sicherzustellen, dass die geladenen Daten vollständig und korrekt sind.
Die Datentransformation gehört zum ETL-Prozess (Extrahieren, Transformieren, Laden). Dieser bildet den Grundbaustein für die Datenverarbeitung und Integration.
Nach dem Extrahieren der Daten folgt oft das Umwandeln in das gewünschte Format. Dies dient der Weiterverarbeitung und der Analyse. Hierbei können verschiedene Transformationsprozesse notwendig sein, wie z.B.:
- Entfernen von Duplikaten
- Umwandlung von Daten in einheitliche Formate
- Zusammenführung von Daten aus verschiedenen Quellen
Bei der deskriptiven Analytik handelt es sich um eine Datenanalyse, die als Grundlage Echtzeitdaten verwendet, um spezifische Fragen zu beantworten. Gekennzeichnet ist sie durch traditionelle Business Intelligence und Visualisierungen wie:
- Kreisdiagramme
- Balkendiagramme
- Tabellen
Die grafische Darstellung der Ergebnisse hilft dabei, komplexe Daten auf ansprechende und leicht verständliche Weise darzustellen.
Die deskriptive Analytik nutzt Datenaggregation und Data Mining, um Erkenntnisse über die Vergangenheit zu gewinnen. Die genannten Methoden ermöglichen es, Korrelationen zwischen den einzelnen Datensätzen zu gewinnen, welche sonst verborgen bleiben würden.
F
Feature Engineering ist ein wesentlicher Bestandteil des maschinellen Lernens . Daten die z.B. zur Vorhersage von bestimmten Phänomenen oder für Entscheidungen genutzt werden, beinhalten für jede Untersuchungseinheit verschiedenen Features. Ein Feature ist eine einzelne messbare Eigenschaft, ein Attribut oder ein Merkmal einer solchen Untersuchungseinheit, die diese beschreibt und charakterisiert. Algorithmen des maschinellen Lernens benötigen Features, um Muster zu erkennen, Zusammenhänge zu erkennen, zu klassifizieren oder Vorhersagen zu treffen.
Daher ist Feature Engineering, d.h. die Generierung und Auswahl informativer, charakteristischer und unabhängiger Features ein entscheidendes Element für gute Ergebnisse. Um Features zu generieren wird Fachwissen sowie verschiedene Methoden genutzt, die beispielsweise auf verschiedene Datenquellen zugreifen (z.B. Wetterdatenbanken) und basierend auf gegebenen Informationen neue Features generieren.
I
Industrie 4.0 bezeichnet eine Entwicklung der Digitalisierung in Richtung Automatisierung und zum Datenaustausch in der Fertigungstechnik. Auch als vierte industrielle Revolution bezeichnet, handelt es sich dabei um auf Algorithmen basierende Mechanismen in cyber-physischen Systemen. Diese ermöglichen die Vernetzung zwischen physischen Maschinen und Softwarekomponenten innerhalb eines Systems, um Fertigungsprozesse zu optimieren.
Beispiele hierfür sind:
- Automatisierte Gewächshäuser
- Umweltüberwachung
- Autonome Fahrzeugsysteme
Unternehmen profitieren auf vielfältige Weise von Maßnahmen der Industrie 4.0:
- Effizienzsteigerung in der Produktion
- Produktionskosten senken
- Höhere Flexibilität
- Effizientes Monitoring
K
Klassifizierung ist eine Art des überwachten Lernens in der künstlichen Intelligenz, die es ermöglicht, die Kategorie einer neuen Beobachtung anhand früherer Beobachtungen mit bereits zugewiesenen Kategorien zu identifizieren.
Das Ergebnis dieser Prozesse sind Etiketten, die den neuen Beobachtungen zugeordnet werden können. Einige Beispiele für Klassifizierung sind:
- Die Bilderkennung, bei der entschieden wird, ob es sich bei einem Bild um eine Katze oder einen Hund handelt
- Die Vorhersage, ob ein Reifen in den nächsten 1000 Meilen versagt
- Die Entscheidung, ob ein 5-Euro-Gutschein oder 20% Rabatt mehr Kunden anzieht
- Die Diagnose, ob ein Patient aufgrund seiner beobachteten Symptome an einer bestimmten Krankheit leidet
Künstliche Intelligenz (KI) bezieht sich auf die Fähigkeit von Maschinen, Intelligenz zu zeigen, die der natürlichen Intelligenz von Menschen und Tieren ähnelt. KI-Systeme können eine Vielzahl von Fähigkeiten haben, darunter:
- menschliche Sprache zu verstehen
- strategische Spiele zu spielen
- autonom zu fahren
Der Begriff “Künstliche Intelligenz” ist sehr vage und hat sich in den letzten 50 Jahren ständig weiterentwickelt. Heutzutage umfasst KI eine Vielzahl von Technologien und Methoden, die auf komplexen Algorithmen und riesigen Datensätzen basieren und in vielen Bereichen eingesetzt werden, z. B. in der Medizin und Finanzindustrie.
M
Bei Microservices handelt es sich um ein Architekturmuster in der Softwareentwicklung, bei der die eine Anwendung / Software aus einer Sammlung von kleinen unabhängigen Diensten besteht. Das heißt eine Anwendung wird in mehrere kleine Dienste strukturiert. Diese verschiedenen kleinen Dienste oder auch Microservices kommunizieren untereinander mittels klar definierter APIs .
Microservice-Architekturen erleichtern es, diese zu verstehen sowie die Anwendung zu skalieren und weiterzuentwickeln. Durch die Microservice-Architektur können Teams, gleichzeitig an verschiedenen Komponenten, d.h. Microservices der Anwendung, arbeiten. Dies erhöht die Skalierbarkeit, erleichtert die Umsetzung neuer Konzepte im bestehenden Code und senkt die Herausforderungen bei Weiterentwicklungen. Microservices ermöglichen es entsprechend der jeweiligen Aufgabe das beste Tool zur Lösung auszuwählen.
Die Mustererkennung beschäftigt sich mit der automatischen Identifikation von Gesetzmäßigkeiten, verborgener Zusammenhänge und Regelmäßigkeiten in Daten, beispielsweise aus Bildern, Texten oder Messdaten.
Ziel ist es, bisher unbekannte und nicht direkt ersichtliche Muster und Interaktionen in den Daten zu erkennen und daraus neue Informationen zu gewinnen die unter Anderem zur Vorhersage oder Klassifizierung genutzt werden können. Zur Mustererkennung können je nach Fragestellung oder Datentyp verschiedene Algorithmen angewendet werden.
N
Natural Language Processing (NLP; deutsch: Natürliche Sprachverarbeitung) oder auch Computerlinguistik ist ein Forschungsfeld der Künstlichen Intelligenz, das sich damit beschäftigt, wie Computer menschliche Sprache verstehen und verarbeiten können. Ziel von NLP ist es, eine nahtlose Kommunikation zwischen Menschen und Computern zu ermöglichen, indem Texte oder gesprochene Sprache von Computern verarbeitet werden können.
Erfolgreiches NLP beinhaltet:
- Extrahieren von Informationen aus Texten und Sprache und Verwendung für weitere Analysen oder Aktionen.
- Erkennung von Mustern und Zusammenhängen in Sprache, um beispielsweise Antworten auf Fragen zu generieren oder automatisierte Übersetzungen durchzuführen.
Beispiele für die Anwendung von NLP im Alltag sind unter anderem:
- Sprachassistenten
- Übersetzer
- Suchmaschinen
- Chatbots
- E-Mail-Filter
Ein künstliches neuronales Netzwerk ist eine synthetische Struktur, die sich an der Funktionsweise von biologischen neuronalen Netzwerken orientiert.
Es besteht aus einer enormen Menge von Knotenpunkten in Form künstlicher Neuronen, die über Verbindungen miteinander kommunizieren. Die Verbindungen werden während eines Trainingsprozesses optimiert, indem die Abweichungen zwischen den Ausgabewerten des Netzes und den tatsächlichen Werten minimiert werden.
Aufgrund der enormen Komplexität dieser Strukturen kann der Mensch, der das Netzwerk programmiert, in der Regel nur den Input- und Output-Prozess verstehen.
Künstliche neuronale Netze finden eine Vielzahl von Anwendungen, wie zum Beispiel die Betrugserkennung bei Kreditkarten oder die autonome Steuerung von Fahrzeugen.
O
Bei offenen Daten (Open Data) handelt es sich um die Idee, dass bestimtme Datensätze für die Öffentlichkeit frei zugänglich sein sollten. Das bedeutet, dass keine Patente oder Urheberrechte nötig sind, um die Daten selbst zu nutzen und zu veröffentlichen.
Beispiele für offene Datenquellen sind:
- Humangenomprojekt
- Dataverse-Netzwerk
- Offene staatliche Daten (z.B. GovData in Deutschland)
Unternehmen können in vielfältiger Weise von freien Datenportalen profitieren, um eigene Prozesse zu optimieren sowie Innovationen voranzutreiben. Umgekehrt können Unternehmen ebenso Datensätzen als offene Daten zur Verfügung stellen. Dies erhöht die Transparenz und kann durch die Beteiligung Dritter Denkanstöße für die weitere Entwicklung von Prozessen und Produkten geben.
P
Bei der prädiktiven Analytik handelt es sich um Methoden zur Vorhersage künftiger Ereignisse und Trends. Sie verwendet statistische Modelle und Prognosetechniken, um Vorhersagen über die Zukunft zu treffen. Die Algorithmen verwenden historische Daten und leiten Muster ab, um Erkenntnisse für die Zukunft zu gewinnen. Durch die prädiktive Analytik verschiebt sich somit die Sichtweise im Vergleich zu retrospektiven Ansätzen von rückwärtsschauend zu vorausblickend.
Die prädiktive Analytik baut sowohl auf den Ergebnissen der deskriptiven Analyse als auch auf denen der diagnostischen Analyse auf. Sie verwendet die historischen Daten, um abzuleiten was und warum etwas passiert, um Vorhersagen für die Zukunft zu treffen. Daher findet sie häufig in folgenden Bereichen Verwendung:
• Kundenidentifikation
• Leistungsvorhersagen
• Wettervorhersagen
Die präskriptive Analytik ist eine Datenanalyse, die Auswirkungen von Entscheidungen bewertet, die in der Zukunft getroffen werden könnten. Dazu verwendet sie Optimierungs- und Simulationsalgorithmen. Ähnlich wie bei der prädiktiven und deskriptiven Analytik werden Datensätze gewonnen, die anschließend bei der Entscheidungsfindung helfen und Handlungsalternativen aufzeigen. Die Simulation der Ereignisse erfolgt mittels Methoden wie Machine Learning oder Künstlicher Intelligenz.
Die folgenden Bereiche nutzen Methoden der präskriptiven Analytik:
- Preismodellierungen
- Prozess- und Produktoptimierungen
- Gesundheitswesen
R
Reinforcement Learning (dt. Verstärkungslernen) ist ein Verfahren des maschinellen Lernens. Bei diesem Ansatz lernt die Maschine Aufgaben zu lösen, ohne dass ein Mensch eingreift oder sie explizit für diese Aufgabe programmiert ist.
Dies geschieht dadurch, dass die Maschine in Interaktion mit einer dynamischen Umgebung lernt eine definierte Belohnungsmetrik für die Aufgabe zu maximieren. Das heißt, die Maschine lernt selbstständig eine Strategie, um eine Aufgabe zu lösen. Der Maschine wird dabei nicht vorgezeigt welche Aktion in welcher Situation die beste zum Lösen der Aufgabe ist, sondern sie erhält durch die Interaktion der Umwelt zu bestimmten Zeitpunkten eine Belohnung (die auch negativ sein kann). Basierend auf dieser Rückmeldung wird die Strategie dann weiter angepasst und versucht die Belohnung weiter zu maximieren.
Beispielalgorithmen für Verstärkungslernen sind:
- Monte-Carlo-Methoden
- Temporal Difference Learning
- Reinforcement Learning findet Anwendung in verschiedenen Bereichen, darunter:
- Robotik: Roboter erlernen Strategien zum Lösen von Aufgaben in realen Arbeits-Umgebungen autonom.
- Autonomes Fahren: Ein Fahrzeug lernt eigenständig die beste Route zwischen Hindernissen zu wählen
S
Signalverarbeitung ist ein wichtiger Teil der Analyse von Daten in Form von Texten oder Zeitreihen sowie Audio-, Bild- oder Videodaten.
Die Daten, in diesem Kontext auch als Signale bezeichnet, werden so verarbeitet, dass aus ihnen aussagekräftige Variablen extrahiert und strukturiert werden können. Dies umfasst beispielsweise die Verarbeitungsschritte wie Filterung, Mustererkennung oder Komprimierung.
Basierend auf diesem Auswertungsverfahren können weitere Datenanalysen und Anwendungen des maschinellen Lernens erfolgen. Die Signalverarbeitung wird in verschiedensten Bereichen angewendet, von der Musikproduktion bis hin zur medizinischen Diagnostik.
Der statistische Rückschluss ist eine leistungsstarke Methode, um aus begrenzten Datenmengen aussagekräftige Schlussfolgerungen zu ziehen. Mittels statistischer Verfahren, wie z.B. der Analyse von Wahrscheinlichkeitsverteilungen, wird von einer Stichprobe auf die Gesamtheit geschlossen. Das heißt, es werden Daten aus einer begrenzten Anzahl von Beobachtungen analysiert und mithilfe statistischer Modelle verallgemeinert.
Durch die Analyse einer repräsentativen Stichprobe können Muster, Trends und Zusammenhänge identifiziert werden, die auf die gesamte Population übertragen werden können.
Diese Methode ermöglicht fundierte Entscheidungen in verschiedenen Bereichen wie Kundenverhalten, Marketingeffizienz und Prozessoptimierung.
Strukturierte Daten sind methodisch organisiert und leicht zugänglich, während unstrukturierte Daten keine klare Ordnung haben und eine tiefere Analyse erfordern. Die Strukturierung von Daten bezieht sich in diesem Kontext auf die Organisation innerhalb eines Datensatzes und beschreibt den Grad der Ordnung und Kategorisierung. Bei strukturierten Daten werden die Datenpunkte in klar definierte Kategorien unterteilt und durch Tags oder Felder gekennzeichnet.
Diese methodische Strukturierung ermöglicht eine reibungslose Speicherung, Abfrage und Analyse von Daten, wodurch Unternehmen schnell auf präzise Informationen zugreifen können.
Durch die Organisation und Strukturierung der Daten können diese leichter verarbeitet, gespeichert, gesucht und analysiert werden, wodurch Unternehmen schnell und effizient auf präzise Informationen zugreifen können.
Eine Smart City beschreibt ein städtisches Gebiet, in dem durch die intelligente Nutzung von Daten das urbane Leben effizienter, nachhaltiger und komfortabler gestaltet wird.
Durch die Integration von verschiedenen Arten der elektronischen Datenerfassung und -verarbeitung sowie die Integration von fortschrittlichen Technologien können Städte Verkehrsflüsse optimieren, Energie sparen, Umweltauswirkungen minimieren und Bürgerbeteiligung fördern.
Mögliche Anwendungsbereiche für Smart-City-Technologien sind:
- Verkehrsmanagement: Datenanalysen ermöglichen die Überwachung von Verkehrsflüssen in Echtzeit, was zu einer reibungsloseren Mobilität beiträgt.
- Energieeffizienz: Smart Cities nutzen Daten, um den Energieverbrauch zu überwachen und Ressourcen effizienter einzusetzen.
- Umweltschutz: Durch Sensordaten können Umweltverschmutzung und -belastung in konstant überwacht und analysiert werden, um nachhaltige Maßnahmen zu ergreifen.
Bürgerbeteiligung: Der Einsatz von verschiedensten Kommunikationstechnologien ermöglicht eine aktivere Beteiligung der Bürger an Stadtplanung und -verwaltung.
T
Text Mining ist auch als Textanalyse bekannt und umfasst die Anwendung von Data-Mining-Techniken zur lexikalischen Analyse von Texten. Hierbei werden große Mengen von Texten analysiert, um wertvolle Informationen zu extrahieren.
Durch die Identifizierung von Worthäufigkeitsverteilungen und Mustern kann Text Mining helfen, wichtige Erkenntnisse aus unstrukturierten Daten zu gewinnen.
Die resultierenden Erkenntnisse können in verschiedenen Bereichen eingesetzt werden, wie zum Beispiel:
- Marktforschung
- Kundenfeedback
- Forensik
Tiefes Lernen, auch bekannt als Deep Learning, ist ein Teil der Methoden des maschinellen Lernens. Im Gegensatz zu aufgabenspezifischen Algorithmen basiert es auf Lernalgorithmen, die auf großen Datensätzen trainiert werden.
Deep Learning wird verwendet, um neuronale Netze zu erstellen, die in der Lage sind, komplexe Zusammenhänge und Muster in den Daten zu erkennen. Es wird bei der Verarbeitung von Big Data eingesetzt.
TensorFlow ist eine von Google Brain Team entwickelte Open-Source-Softwarebibliothek für numerische Hochleistungsberechnungen. Die Architektur von TensorFlow ist umfangreich, aber flexibel, so dass es auf verschiedenen Plattformen und Infrastrukturen wie Desktops, Clustern und mobilen Geräten eingesetzt werden kann.
Die Bibliothek wird häufig in Anwendungen des maschinellen Lernens wie neuronalen Netzen eingesetzt. Darüber hinaus ermöglicht die neue TensorFlow.js-Bibliothek die Erstellung von Browseranwendungen mit JavaScript, wodurch TensorFlow-Anwendungen nun auch im Webumgebungen eingesetzt werden können.
U
Es gibt verschiedene Techniken des unüberwachten Lernens. Beispiele für Algorithmen sind:
- Clustering
- Neuronale Netzwerke
- Dimensionsreduktion
- Hauptkomponentenanalyse (PCA)
- Assoziationsanalyse
Unüberwachtes Lernen hat eine Vielzahl von Anwendungen in der Datenanalyse, zum Beispiel in:
- der Bild- und Spracherkennung
- der Kundensegmentierung
- der Betrugserkennung
- dem Identitätsmanagement
- der Anomalieerkennung
Überwachtes Lernen (supervised learning) ist ein Teil des maschinellen Lernens (machine learning). Das Lernverfahren besteht aus einem Algorithmus, der mit gut beschrifteten Daten versehen wird. Das bedeutet, dass das richtige Ausgangsergebnis oder die erwartete Antwort bereits vorgegeben ist. Die Vorhersagen werden jedoch nicht von der Maschine gemacht, sie dient lediglich der Verifizierung bekannter Fakten. Das Verfahren dient als Lerngrundlage für künftige Datenverarbeitungen und um Entscheidungen zu unterstützen.
Beispiele für Algorithmen des überwachten Lernens sind:
- Naive Bayes
- Entscheidungsbäume
- Lineare Regression
- Logistische Regression
Überwachtes Lernen findet sich z. B. in folgenden Anwendungsbereichen:
- In der Risikobewertung
- Bei Vorhersagen finanzieller Ereignisse
Unstrukturierte Daten sind Daten, die keine klare Struktur oder Formatierung aufweisen. Diese Daten sind für Maschinen schwer verständlich, da sie nicht in Datenbanken oder Tabellen eingeordnet werden können. Um unstrukturierte Daten für eine maschinelle Verarbeitung nutzbar zu machen, müssen sie zunächst in strukturierte Daten umgewandelt werden.
Beispiele für unstrukturierte Daten sind:
- Spam-Mails
- Feeds von sozialen Medien
- digitale Bilder, Audios oder Videos
Die meisten Daten, die heutzutage generiert werden, sind unstrukturiert, was die Herausforderung bei der Verarbeitung von Big Data erhöht.
W
Web-Mining ist eine Technik, die Data-Mining-Methoden nutzt, um Muster und Zusammenhänge aus dem World Wide Web zu extrahieren. Ziel ist es, Websites zu kategorisieren und zu analysieren, um eine strukturierte Übersicht zu erstellen.
Zu klassischen Web-Mining Tools zählen beispielsweise:
- Web Crawling
- Data Mining
- Text Mining
- Machine Learning
Durch Web-Mining kann man beispielsweise Informationen wie die Ähnlichkeit oder Beziehung zwischen verschiedenen Websites gewinnen. Diese Informationen können in vielen Bereichen nützlich sein, wie zum Beispiel bei der:
- Analyse von Benutzerverhalten im Web
- Optimierung von Suchmaschinen
- Vorhersage von Trends im E-Commerce
Der Prozess der Wissensentdeckung in Datenbanken (Knowledge Discovery in Databases – KDD) besteht aus mehreren Teilschritten, mit dem Ziel, nützliches Wissen aus großen Datensätzen zu extrahieren:
- Datenauswahl
- Festlegung der Zieldaten
- Vorbearbeitung der Zieldaten
- Umwandlung der vorbearbeiteten Daten
- Datenanalyse der transformierten Daten
- Muster-Erstellung der Daten
- Auswertung anhand von Interpretation und Analyse
Z
Die Zeitreihenanalyse hat historisch betrachtet eine lange Tradition in der Statistik und ist daher ein wichtiger Bestandteil der Datenwissenschaft.
Typische Anwendungsgebiete sind:
- Wettervorhersagen
- Aktienmarktanalysen
- Verkaufsprognosen