Data Science Glossar

Die wichtigsten Begriffe

Das Data Science Glossar

Schnelleinstieg / Navigation

#A / #B / #C / #D / #F / #I / #K / #M / #N / #P / #R / #T / #S / #O / #U / #W / #Z

A

Anwendungsprogrammierschnittstelle (API)

Eine Anwendungsprogrammierschnittstelle (API, engl. Application Programming Interfaces) ermöglicht die Kommunikation zwischen verschiedenen Anwendungen. Die API definiert eine bestimmte Struktur und die Syntax wie Anwendungen miteinander kommunizieren und Daten austauschen können.

APIs finden in vielen verschiedenen Bereichen Anwendung:

Als Schnittstelle zwischen verschiedenen Business Intelligence Tools innerhalb einer Organisation: So können Daten aus verschiedenen Quellen oder Bereichen gesammelt und kombiniert werden, um einen umfassenden Überblick über das Unternehmen zu erhalten.
Als Dienst, der das Smartphone mit dem Internet verbindet: Hierbei ermöglicht die API den Zugriff auf das Netzwerk und stellt sicher, dass die Kommunikation reibungslos abläuft.

Für Internetseiten die Informationen aus anderen Quellen zusammenfassen, wie z.B. Reiseseiten die verschiedene Angebote von Flügen und Hotels zusammenzufassen: Hierbei greifen die Webseiten auf Daten von verschiedenen Anbietern zu und kombinieren diese zu einer umfassenden Übersicht für den Kunden.

B

Bilderkennung

Bilderkennung erfolgt durch Software, die auf Data-Mining-Algorithmen baut. Die Bilderkennungssoftware ist dazu in der Lage, Elemente auf Bildern untereinander zu unterscheiden und sie im nächsten Schritt zu klassifizieren. Die Algorithmen, auf die sich diese Technologie stützt, sind z.B. neuronale Netzwerke. Die Bilderkennung findet Anwendung bei:

Gesichtserkennung
Apps zur Bestimmung von Pflanzen-, Tier-, oder Pilzarten anhand von Bildern usw.
Übertragung von eingescannter Handschrift in digitalen Text

Bilderkennung ermöglicht die Nutzung und Weiterverarbeitung von Informationen aus Bildern. In Unternehmen kann eine Bilderkennung beispielsweise Prozesse der Qualitätssicherung automatisieren, indem Risse oder Beschädigungen in Produkten automatisch erkannt werden.

Blockchain

Eine Blockchain ist eine Art dezentrales, digitales Hauptbuch, das Transaktionen aufzeichnet. Es ist eine kontinuierlich wachsende Liste von Datensätzen, die mit Kryptographie und Kryptowährung verbunden sind und auf vielen Computern verteilt gespeichert werden.

Jeder Block in der Blockchain enthält Informationen wie Transaktionsdaten, einen kryptografischen Hash (Schlüssel) des vorherigen Blocks und einen Zeitstempel.

Die Blockchain-Technologie garantiert einen sicheren und vertrauenswürdigen Austausch von Informationen, da die Daten nach ihrer Speicherung nicht mehr verändert werden können.

Die Technologie hat Anwendungen in verschiedenen Bereichen, wie z. B.:

Finanztransaktionen
Versicherungen
Gesundheitswesen
Supply Chain Management

Business Intelligence

Business Intelligence bezieht sich auf eine Vielzahl von Tools, Anwendungen und Methoden, die einem Unternehmen bei der Sammlung und Analyse von Daten aus internen oder externen Quellen helfen. Ziel ist es, durch diese Datenanalysetechniken wertvolle Informationen zu gewinnen und Entscheidungsprozesse zu unterstützen.

Business Intelligence wird am häufigsten bei der Visualisierung von Daten eingesetzt, um Informationen übersichtlich darzustellen und Entscheidungen auf der Grundlage von Fakten zu treffen.

Business Intelligence ist in unterschiedlichsten Branchen vertreten, wie zum Beispiel:

im Finanzwesen
im Marketing
im Supply-Chain-Management

Durch die Verwendung von Business Intelligence können Unternehmen ihre Prozesse optimieren und ihre Effizienz steigern.

C

Clustering

Clustering ist eine Form des unüberwachten Lernens. Dabei werden Daten durch einen Algorithmus segmentiert und anhand ähnlicher Eigenschaften in Gruppen (Cluster) eingeteilt. Jeder Datenpunkt stellt dabei nur einen Teil des Clusters dar. Unterschiedliche Clustering-Methoden sind beispielsweise:

K-Means-Clustering
Hierarchisches Clustering
Density Based Spacial Clustering von Anwendungen mit Rauschen (DBSCAN)

Mit Hilfe der Clusteranalyse können Unternehmen Muster in Datensätzen identifizieren. Die Aufbereitung und Segmentierung von Datenmengen ermöglicht diverse Anwendungsfälle. So lassen sich dadurch Kundengruppen sortieren, um Angebote gezielt auf die Nachfrage anzupassen oder auch um Arbeitsprozesse durch erkannte Muster zu optimieren.

D

Data Mining

Data Mining beschreibt im Allgemeinen die Verarbeitung und das Untersuchen großer Daten- oder Informationssätze auf verborgene Muster, Erkenntnisse und Strukturen. Dazu kommen Prozesse und Methoden aus diversen Feldern zum Einsatz:

• Maschinelles Lernen
• Statistik
• Datenbanksysteme

Data Mining ist ein wichtiger Schritt im Prozess der Datenverarbeitung und hilft dabei, nützliche Informationen für die Analyse der Datensätze zu sammeln. Für Unternehmen ist Data Mining deshalb interessant, weil es verdeckte Potentiale, Trends und Erkenntnisse in vorhandenen Daten aufzeigt und auch bis dahin unbekannte Querverbindungen in den Daten offenlegen kann.

Ähnliche Themen:
Text Mining, Web Mining, Bilderkennung

Data Engineer

Data Engineers bauen Datenpipelines – sie sind dafür verantwortlich, Daten für den Verbrauch zu bereinigen, aufzubereiten und zu optimieren. Dieser Prozess wird als ETL (Extrahieren, Transformieren und Laden) bezeichnet. Dadurch erschaffen sie die notwendige Infrastruktur, sodass es überhaupt möglich ist die Daten später zu analysieren und zu bewerten.

Ein Data Scientist ist nur so gut wie die Daten, auf die er Zugriff hat. Deshalb sind Data Engineers genauso wichtig wie Data Scientists, wenn es darum geht, Entscheidungen auf der Grundlage von Daten zu treffen. Sie stellen sicher, dass die Daten, die ein Data Scientist analysiert, korrekt und vollständig sind, und dass sie in einer Form vorliegen, die es dem Data Scientist ermöglicht, aussagekräftige Erkenntnisse zu gewinnen.

Zu möglichen Aufgaben eines Data Engineers gehören:

die Bereinigung der unstrukturierten Datenmengen
die Aufbereitung der Datenmengen im richtigen Format
die Schaffung der Infrastruktur zur Analyse der Daten
die Implementierung von Datenbanken
die Verwaltung von Cloud-Plattformen
die Entwicklung von APIs
die Sicherstellung der Datenqualität

Data Lake / Datensee

Ein Data Lake oder Datensee ist ein Ansatz zur Speicherung von Daten, die zu einem unbekannten Zeitpunkt benötigt werden könnten. Ein Data Lake enthält große Mengen an Rohdaten, einschließlich strukturierter, halbstrukturierter oder unstrukturierter Datensätze.

Im Gegensatz zu einem traditionellen Data Warehouse, bei dem die Struktur und die Anforderungen an die verfügbaren Daten im Voraus definiert werden, erfolgt die Definition bei einem Data Lake erst dann, wenn die Daten benötigt und extrahiert werden. Dadurch ist es möglich, eine Vielzahl von Datenquellen zu speichern, ohne im Vorfeld die Struktur oder das Format dieser Daten kennen zu müssen.

Ein Data Lake implementiert eine einzige Speicherlösung für alle Unternehmensdaten, einschließlich Rohdaten und umgewandelte Daten. Ziel ist es, alle potentiell benötigten Daten zu sammeln und sie später bei Bedarf zu transformieren und zu analysieren. So können Unternehmen ihre Daten in einer zentralen Quelle speichern, die leicht zugänglich und sich flexibel an veränderte Anforderungen anpassen lässt.

Data Scientist

Data Scientists sind auf die Organisation und Analyse von großen Datenmengen mithilfe von Software spezialisiert. Zunächst sind sie damit beschäftigt die vorhandenen Daten in mehreren Schritten aufzubereiten:

Data Collection
Data Cleaning
Data Exploration

Anschließend nutzen sie verschiedene auf maschinellem Lernen basierende Verfahren und Werkzeuge, um aus den bereitgestellten Daten Erkenntnisse zu gewinnen.

Das wichtigste Ziel eines Data Scientists ist es, eine Entscheidungsgrundlage zu erstellen, die auf den vorher aufbereiteten Daten basiert. Daraus ergeben sich Prognosen bestimmter Prozesse für die Zukunft, die wiederum Empfehlungen ermöglichen.

Die genauen Aufgabenbereiche eines Data Scientists sind vielfältig und variieren je nach Branche, Unternehmen und Projekt.
Mögliche Einsatzfelder eines Data Scientists sind unter anderem:

die Entwicklung von Modellen zur Vorhersage von Trends oder des Nutzerverhaltens, bspw. eines Online-Shops
die Identifizierung von Risiken und Chancen für strategische Entscheidungen in Unternehmen
die Optimierung unternehmensrelevanter Prozesse
die Analyse von medizinischen Daten zur Entwicklung neuer Behandlungsmethoden

Data Staging Area

Eine Data Staging Area ist ein Speicherort für Sammlungen von Transaktionsdaten, die dauerhaft gespeichert und verwaltet werden können.

Im Kontext eines Data Warehouses fungiert sie häufig als Zwischenablage/Staging-Bereich.

Der Fokus der Data Staging Area liegt darauf, eine hohe Leistungsfähigkeit und die Ausführung von zahlreichen Abfragen bei kleinen Datenmengen zu ermöglichen.

Zu Vorteilen einer Data Staging Area zählen:

schnelle Abfragen für Echtzeit-Transaktionsverarbeitung
höhere Datenintegrität und -sicherheit als andere Speicherlösungen

Nachteile der Data Staging Area sind:

höhere Preise als andere Speicherlösungen
möglicherweise höhere Wartungen erforderlich

Data Warehouse

Ein Data Warehouse ist ein zentraler Speicherort für Daten, die für bestimmte Anwendungen benötigt werden. Diese werden anschließend für Aufgaben transformiert. Dabei werden sowohl aktuelle als auch historische Daten zu quantitativen Metriken in strukturierte Datentabellen umgewandelt, die hauptsächlich für Berichte und Analysen verwendet werden.

In einem Data Warehouse werden die Daten an einem einzigen zentralen Ort gespeichert, um einen schnellen und einfachen Zugriff zu ermöglichen. Auf diese Weise wird vermieden, dass Daten über mehrere Systeme hinweg verstreut und schwer zugänglich sind.

Als Kernkomponente von Business Intelligence (BI) fungiert ein Data Warehouse als zentrales Repository für integrierte Datenbanken und andere Quellen wie Transaktionssysteme.

Beispiele für Data-Warehouse-Software-Lösungen sind:

AWS Redshift
SAP Data Warehouse
Oracle Warehouse Builder.

Ein Data Warehouse ist eine wichtige Ressource für Unternehmen, die eine fundierte Entscheidungsfindung und eine effektive BI-Strategie umsetzen möchten.

Data Wrangling

Data Wrangling ist der Prozess der Aufbereitung von Rohdaten für die weitere Verarbeitung und Analyse. Die Daten werden aus verschiedenen Quellen für die Verwendung in Datenanalysesystemen oder Machine-Learning-Modellen vorbereitet.

Zu den Aufgaben des Data Wrangling gehören beispielsweise:

Importieren / Exportieren in und aus bestimmten Formaten
Zugriff auf Daten verschiedener Quellen und Zusammenführung dieser Daten
Anpassen der Datentypen
Umwandlung von Datumsformaten und Einheiten, die Vereinheitlichung von Schreibweisen und Formaten
Entfernen bzw. Auffüllen von nicht benötigten oder nicht vorhandenen Daten (fehlende Werte, Duplikate und Ausreißer)
Gruppieren / Sortieren von Daten
Erstellung von Hierarchien und Gruppierungen

Data Wrangling ist ein elementarer Schritt in der Datenanalyse und ein wesentlicher Bestandteil von Big-Data-Projekten. Datenwissenschaftler verbringen oft viel Zeit damit, diese grundlegende explorative Datenanalyse durchzuführen, bevor sie tatsächlich den Wert ihrer Daten nutzen können. Das Motto Garbage in, Garbage out (GIGO) betont, wie wichtig es ist, ungenaue oder fehlerhafte Daten im Data Wrangling-Prozess zu bereinigen, da die Qualität der Analyseergebnisse direkt von der Qualität der zugrunde liegenden Daten abhängt. Ohne sorgfältiges Data Wrangling können falsche oder irreführende Erkenntnisse entstehen, was zu unzuverlässigen Schlussfolgerungen führt.

Die Automatisierung von Data Wrangling kann dazu beitragen, ohne Programmiertechniken den manuellen Aufwand bei der Datenaufbereitung zu reduzieren und die Effizienz zu steigern.

Datenwissenschaft

Datenwissenschaft (Data Science) ist ein interdisziplinäres Gebiet, das faktenbasierte, datengetriebene Entscheidungsprozesse ermöglicht. Sie kombiniert wissenschaftliche Methoden, Verfahren, Algorithmen und Systeme, um Wissen und Erkenntnisse aus Daten in verschiedenen Formen zu gewinnen.

Datenwissenschaftler arbeiten in der Regel mit großen Datensätzen, die von Unternehmen, Regierungsbehörden und Forschungseinrichtungen gesammelt werden. Neben der Expertise in der Statistik sowie dem Umgang mit Daten, müssen Data Scientists ebenso diese Daten verstehen und auswerten können.
Die Datenwissenschaft ist eng mit der Statistik verbunden und wird oft als Schlagwort für alle damit verbundenen Themen verwendet, wie z. B.:

statistische Programmierung
Data Mining
maschinelles Lernen

Der Einsatz von maschinellem Lernen in der Datenwissenschaft hat in den letzten Jahren stark zugenommen und wird heute als eine der wichtigsten Methoden zur Gewinnung von Erkenntnissen aus Daten betrachtet, beispielsweise für Bereiche wie:

Wirtschaft
Politik
Gesundheitsversorgung
Bildung

Dateningestion

Dateningestion beschreibt den Prozess des Zugriffs auf und des Imports von Daten zur unmittelbaren Verwendung oder Speicherung in einer Datenbank. Sie ist ein wichtiger Bestandteil des Aufbaus einer Datenpipeline, die für die Analyse und Verarbeitung von Daten erforderlich ist. Denn der Großteil der Daten ist unstrukturiert, weshalb Data Scientists sie für die weitere Arbeit vereinheitlichen und strukturieren müssen.

Die Dateneingabe kann aus verschiedenen Quellen erfolgen, wie zum Beispiel:

CSV-Dateien
Excel
Webscraping (HTTP-Einträge)
Dateien von einem FTP-Server
In seltenen Fällen SQL
leicht zugängliche Daten aus offenen Datenquellen

Ziel der Dateningestion ist es, Daten in einem bestimmten Format und einer bestimmten Struktur zu speichern, um sie für spätere Analysen und Verarbeitungen zugänglich zu machen.

Die Daten werden auf mögliche Fehler oder Inkonsistenzen geprüft (z.B. NaN (Not a Number) = fehlende Werte)
Falls Daten fehlen oder fehlerhaft vorhanden sind, werden diese korrigiert (z.B. Outliner durch einen Mittelwert ersetzen).
Die Daten werden in das vorhandene Datenmodell integriert.

Eine effektive Dateningestion ist für Unternehmen und Organisationen entscheidend, um ihre Daten effektiv zu nutzen und wertvolle Erkenntnisse daraus zu gewinnen.

Daten extrahieren

Das Extrahieren von Daten ist ein Teil des ETL (Extrahieren, Transformieren, Laden). Der ETL-Prozess ist eine wichtige Grundlage für die Datenvorbereitung und Integration.

Um Daten zu extrahieren, werden verschiedene Quellen abgefragt und ausgelesen, wie z.B.:

Datenbanken
Dateien
externe Websites

Hierbei können unterschiedliche Technologien oder Tools wie Datenbankabfragesprachen oder Web-Scraper zum Einsatz kommen.

Daten laden

Das Laden von Daten zählt neben Extrahieren und Transformieren zum ETL-Prozess. Dieser ist die Voraussetzung für erfolgreiche Datenvorbereitung und Integration.

Im letzten Schritt des ETL-Prozesses werden die transformierten Daten in eine Datenbank oder ein anderes Speichermedium geladen. Hierbei wird in der Regel auch eine Überprüfung der Datenqualität durchgeführt, um sicherzustellen, dass die geladenen Daten vollständig und korrekt sind.

Daten transformieren

Die Datentransformation gehört zum ETL-Prozess (Extrahieren, Transformieren, Laden). Dieser bildet den Grundbaustein für die Datenverarbeitung und Integration.

Nach dem Extrahieren der Daten folgt oft das Umwandeln in das gewünschte Format. Dies dient der Weiterverarbeitung und der Analyse. Hierbei können verschiedene Transformationsprozesse notwendig sein, wie z.B.:

Entfernen von Duplikaten
Umwandlung von Daten in einheitliche Formate
Zusammenführung von Daten aus verschiedenen Quellen

Deskriptive Analytik

Bei der deskriptiven Analytik handelt es sich um eine Datenanalyse, die als Grundlage Echtzeitdaten verwendet, um spezifische Fragen zu beantworten. Gekennzeichnet ist sie durch traditionelle Business Intelligence und Visualisierungen wie:

Kreisdiagramme
Balkendiagramme
Tabellen

Die grafische Darstellung der Ergebnisse hilft dabei, komplexe Daten auf ansprechende und leicht verständliche Weise darzustellen.

Die deskriptive Analytik nutzt Datenaggregation und Data Mining, um Erkenntnisse über die Vergangenheit zu gewinnen. Die genannten Methoden ermöglichen es, Korrelationen zwischen den einzelnen Datensätzen zu gewinnen, welche sonst verborgen bleiben würden.

F

Feature Engineering

Feature Engineering ist ein wesentlicher Bestandteil des maschinellen Lernens . Daten die z.B. zur Vorhersage von bestimmten Phänomenen oder für Entscheidungen genutzt werden, beinhalten für jede Untersuchungseinheit verschiedenen Features. Ein Feature ist eine einzelne messbare Eigenschaft, ein Attribut oder ein Merkmal einer solchen Untersuchungseinheit, die diese beschreibt und charakterisiert. Algorithmen des maschinellen Lernens benötigen Features, um Muster zu erkennen, Zusammenhänge zu erkennen, zu klassifizieren oder Vorhersagen zu treffen.

Daher ist Feature Engineering, d.h. die Generierung und Auswahl informativer, charakteristischer und unabhängiger Features ein entscheidendes Element für gute Ergebnisse. Um Features zu generieren wird Fachwissen sowie verschiedene Methoden genutzt, die beispielsweise auf verschiedene Datenquellen zugreifen (z.B. Wetterdatenbanken) und basierend auf gegebenen Informationen neue Features generieren.

I

Industrie 4.0.

Industrie 4.0 bezeichnet eine Entwicklung der Digitalisierung in Richtung Automatisierung und zum Datenaustausch in der Fertigungstechnik. Auch als vierte industrielle Revolution bezeichnet, handelt es sich dabei um auf Algorithmen basierende Mechanismen in cyber-physischen Systemen. Diese ermöglichen die Vernetzung zwischen physischen Maschinen und Softwarekomponenten innerhalb eines Systems, um Fertigungsprozesse zu optimieren.

Beispiele hierfür sind:

Automatisierte Gewächshäuser
Umweltüberwachung
Autonome Fahrzeugsysteme

Unternehmen profitieren auf vielfältige Weise von Maßnahmen der Industrie 4.0:

Effizienzsteigerung in der Produktion
Produktionskosten senken
Höhere Flexibilität
Effizientes Monitoring

K

Klassifizierung

Klassifizierung ist eine Art des überwachten Lernens in der künstlichen Intelligenz, die es ermöglicht, die Kategorie einer neuen Beobachtung anhand früherer Beobachtungen mit bereits zugewiesenen Kategorien zu identifizieren.

Das Ergebnis dieser Prozesse sind Etiketten, die den neuen Beobachtungen zugeordnet werden können. Einige Beispiele für Klassifizierung sind:

Die Bilderkennung, bei der entschieden wird, ob es sich bei einem Bild um eine Katze oder einen Hund handelt
Die Vorhersage, ob ein Reifen in den nächsten 1000 Meilen versagt
Die Entscheidung, ob ein 5-Euro-Gutschein oder 20% Rabatt mehr Kunden anzieht
Die Diagnose, ob ein Patient aufgrund seiner beobachteten Symptome an einer bestimmten Krankheit leidet

Künstliche Intelligenz (KI)

Künstliche Intelligenz (KI) bezieht sich auf die Fähigkeit von Maschinen, Intelligenz zu zeigen, die der natürlichen Intelligenz von Menschen und Tieren ähnelt. KI-Systeme können eine Vielzahl von Fähigkeiten haben, darunter:

menschliche Sprache zu verstehen
strategische Spiele zu spielen
autonom zu fahren

Der Begriff “Künstliche Intelligenz” ist sehr vage und hat sich in den letzten 50 Jahren ständig weiterentwickelt. Heutzutage umfasst KI eine Vielzahl von Technologien und Methoden, die auf komplexen Algorithmen und riesigen Datensätzen basieren und in vielen Bereichen eingesetzt werden, z. B. in der Medizin und Finanzindustrie.

M

Microservices

Bei Microservices handelt es sich um ein Architekturmuster in der Softwareentwicklung, bei der die eine Anwendung / Software aus einer Sammlung von kleinen unabhängigen Diensten besteht. Das heißt eine Anwendung wird in mehrere kleine Dienste strukturiert. Diese verschiedenen kleinen Dienste oder auch Microservices kommunizieren untereinander mittels klar definierter APIs .

Microservice-Architekturen erleichtern es, diese zu verstehen sowie die Anwendung zu skalieren und weiterzuentwickeln. Durch die Microservice-Architektur können Teams, gleichzeitig an verschiedenen Komponenten, d.h. Microservices der Anwendung, arbeiten. Dies erhöht die Skalierbarkeit, erleichtert die Umsetzung neuer Konzepte im bestehenden Code und senkt die Herausforderungen bei Weiterentwicklungen. Microservices ermöglichen es entsprechend der jeweiligen Aufgabe das beste Tool zur Lösung auszuwählen.

Mustererkennung

Die Mustererkennung beschäftigt sich mit der automatischen Identifikation von Gesetzmäßigkeiten, verborgener Zusammenhänge und Regelmäßigkeiten in Daten, beispielsweise aus Bildern, Texten oder Messdaten.

Ziel ist es, bisher unbekannte und nicht direkt ersichtliche Muster und Interaktionen in den Daten zu erkennen und daraus neue Informationen zu gewinnen die unter Anderem zur Vorhersage oder Klassifizierung genutzt werden können. Zur Mustererkennung können je nach Fragestellung oder Datentyp verschiedene Algorithmen angewendet werden.

N

Natural Language Processing (NLP)

Natural Language Processing (NLP; deutsch: Natürliche Sprachverarbeitung) oder auch Computerlinguistik ist ein Forschungsfeld der Künstlichen Intelligenz, das sich damit beschäftigt, wie Computer menschliche Sprache verstehen und verarbeiten können. Ziel von NLP ist es, eine nahtlose Kommunikation zwischen Menschen und Computern zu ermöglichen, indem Texte oder gesprochene Sprache von Computern verarbeitet werden können.

Erfolgreiches NLP beinhaltet:

Extrahieren von Informationen aus Texten und Sprache und Verwendung für weitere Analysen oder Aktionen.
Erkennung von Mustern und Zusammenhängen in Sprache, um beispielsweise Antworten auf Fragen zu generieren oder automatisierte Übersetzungen durchzuführen.

Beispiele für die Anwendung von NLP im Alltag sind unter anderem:

Sprachassistenten
Übersetzer
Suchmaschinen
Chatbots
E-Mail-Filter

Neurales Netzwerk

Ein künstliches neuronales Netzwerk ist eine synthetische Struktur, die sich an der Funktionsweise von biologischen neuronalen Netzwerken orientiert.

Es besteht aus einer enormen Menge von Knotenpunkten in Form künstlicher Neuronen, die über Verbindungen miteinander kommunizieren. Die Verbindungen werden während eines Trainingsprozesses optimiert, indem die Abweichungen zwischen den Ausgabewerten des Netzes und den tatsächlichen Werten minimiert werden.

Aufgrund der enormen Komplexität dieser Strukturen kann der Mensch, der das Netzwerk programmiert, in der Regel nur den Input- und Output-Prozess verstehen.

Künstliche neuronale Netze finden eine Vielzahl von Anwendungen, wie zum Beispiel die Betrugserkennung bei Kreditkarten oder die autonome Steuerung von Fahrzeugen.

O

Offene Daten

Bei offenen Daten (Open Data) handelt es sich um die Idee, dass bestimtme Datensätze für die Öffentlichkeit frei zugänglich sein sollten. Das bedeutet, dass keine Patente oder Urheberrechte nötig sind, um die Daten selbst zu nutzen und zu veröffentlichen.

Beispiele für offene Datenquellen sind:

Humangenomprojekt
Dataverse-Netzwerk
Offene staatliche Daten (z.B. GovData in Deutschland)

Unternehmen können in vielfältiger Weise von freien Datenportalen profitieren, um eigene Prozesse zu optimieren sowie Innovationen voranzutreiben. Umgekehrt können Unternehmen ebenso Datensätzen als offene Daten zur Verfügung stellen. Dies erhöht die Transparenz und kann durch die Beteiligung Dritter Denkanstöße für die weitere Entwicklung von Prozessen und Produkten geben.

P

Prädiktive Analytik

Bei der prädiktiven Analytik handelt es sich um Methoden zur Vorhersage künftiger Ereignisse und Trends. Sie verwendet statistische Modelle und Prognosetechniken, um Vorhersagen über die Zukunft zu treffen. Die Algorithmen verwenden historische Daten und leiten Muster ab, um Erkenntnisse für die Zukunft zu gewinnen. Durch die prädiktive Analytik verschiebt sich somit die Sichtweise im Vergleich zu retrospektiven Ansätzen von rückwärtsschauend zu vorausblickend.

Die prädiktive Analytik baut sowohl auf den Ergebnissen der deskriptiven Analyse als auch auf denen der diagnostischen Analyse auf. Sie verwendet die historischen Daten, um abzuleiten was und warum etwas passiert, um Vorhersagen für die Zukunft zu treffen. Daher findet sie häufig in folgenden Bereichen Verwendung:

• Kundenidentifikation
• Leistungsvorhersagen
• Wettervorhersagen

Präskriptive Analytik

Die präskriptive Analytik ist eine Datenanalyse, die Auswirkungen von Entscheidungen bewertet, die in der Zukunft getroffen werden könnten. Dazu verwendet sie Optimierungs- und Simulationsalgorithmen. Ähnlich wie bei der prädiktiven und deskriptiven Analytik werden Datensätze gewonnen, die anschließend bei der Entscheidungsfindung helfen und Handlungsalternativen aufzeigen. Die Simulation der Ereignisse erfolgt mittels Methoden wie Machine Learning oder Künstlicher Intelligenz.

Die folgenden Bereiche nutzen Methoden der präskriptiven Analytik:

Preismodellierungen
Prozess- und Produktoptimierungen
Gesundheitswesen

R

Reinforcement Learning

Reinforcement Learning (dt. Verstärkungslernen) ist ein Verfahren des maschinellen Lernens. Bei diesem Ansatz lernt die Maschine Aufgaben zu lösen, ohne dass ein Mensch eingreift oder sie explizit für diese Aufgabe programmiert ist.

Dies geschieht dadurch, dass die Maschine in Interaktion mit einer dynamischen Umgebung lernt eine definierte Belohnungsmetrik für die Aufgabe zu maximieren. Das heißt, die Maschine lernt selbstständig eine Strategie, um eine Aufgabe zu lösen. Der Maschine wird dabei nicht vorgezeigt welche Aktion in welcher Situation die beste zum Lösen der Aufgabe ist, sondern sie erhält durch die Interaktion der Umwelt zu bestimmten Zeitpunkten eine Belohnung (die auch negativ sein kann). Basierend auf dieser Rückmeldung wird die Strategie dann weiter angepasst und versucht die Belohnung weiter zu maximieren.

Beispielalgorithmen für Verstärkungslernen sind:

Monte-Carlo-Methoden
Temporal Difference Learning
Reinforcement Learning findet Anwendung in verschiedenen Bereichen, darunter:
Robotik: Roboter erlernen Strategien zum Lösen von Aufgaben in realen Arbeits-Umgebungen autonom.
Autonomes Fahren: Ein Fahrzeug lernt eigenständig die beste Route zwischen Hindernissen zu wählen

S

Signalverarbeitung

Signalverarbeitung ist ein wichtiger Teil der Analyse von Daten in Form von Texten oder Zeitreihen sowie Audio-, Bild- oder Videodaten.

Die Daten, in diesem Kontext auch als Signale bezeichnet, werden so verarbeitet, dass aus ihnen aussagekräftige Variablen extrahiert und strukturiert werden können. Dies umfasst beispielsweise die Verarbeitungsschritte wie Filterung, Mustererkennung oder Komprimierung.

Basierend auf diesem Auswertungsverfahren können weitere Datenanalysen und Anwendungen des maschinellen Lernens erfolgen. Die Signalverarbeitung wird in verschiedensten Bereichen angewendet, von der Musikproduktion bis hin zur medizinischen Diagnostik.

Statistischer Rückschluss

Der statistische Rückschluss ist eine leistungsstarke Methode, um aus begrenzten Datenmengen aussagekräftige Schlussfolgerungen zu ziehen. Mittels statistischer Verfahren, wie z.B. der Analyse von Wahrscheinlichkeitsverteilungen, wird von einer Stichprobe auf die Gesamtheit geschlossen. Das heißt, es werden Daten aus einer begrenzten Anzahl von Beobachtungen analysiert und mithilfe statistischer Modelle verallgemeinert.

Durch die Analyse einer repräsentativen Stichprobe können Muster, Trends und Zusammenhänge identifiziert werden, die auf die gesamte Population übertragen werden können.

Diese Methode ermöglicht fundierte Entscheidungen in verschiedenen Bereichen wie Kundenverhalten, Marketingeffizienz und Prozessoptimierung.

Strukturierte Daten

Strukturierte Daten sind methodisch organisiert und leicht zugänglich, während unstrukturierte Daten keine klare Ordnung haben und eine tiefere Analyse erfordern. Die Strukturierung von Daten bezieht sich in diesem Kontext auf die Organisation innerhalb eines Datensatzes und beschreibt den Grad der Ordnung und Kategorisierung. Bei strukturierten Daten werden die Datenpunkte in klar definierte Kategorien unterteilt und durch Tags oder Felder gekennzeichnet.

Diese methodische Strukturierung ermöglicht eine reibungslose Speicherung, Abfrage und Analyse von Daten, wodurch Unternehmen schnell auf präzise Informationen zugreifen können.

Durch die Organisation und Strukturierung der Daten können diese leichter verarbeitet, gespeichert, gesucht und analysiert werden, wodurch Unternehmen schnell und effizient auf präzise Informationen zugreifen können.

Smart City

Eine Smart City beschreibt ein städtisches Gebiet, in dem durch die intelligente Nutzung von Daten das urbane Leben effizienter, nachhaltiger und komfortabler gestaltet wird.

Durch die Integration von verschiedenen Arten der elektronischen Datenerfassung und -verarbeitung sowie die Integration von fortschrittlichen Technologien können Städte Verkehrsflüsse optimieren, Energie sparen, Umweltauswirkungen minimieren und Bürgerbeteiligung fördern.

Mögliche Anwendungsbereiche für Smart-City-Technologien sind:

Verkehrsmanagement: Datenanalysen ermöglichen die Überwachung von Verkehrsflüssen in Echtzeit, was zu einer reibungsloseren Mobilität beiträgt.
Energieeffizienz: Smart Cities nutzen Daten, um den Energieverbrauch zu überwachen und Ressourcen effizienter einzusetzen.
Umweltschutz: Durch Sensordaten können Umweltverschmutzung und -belastung in konstant überwacht und analysiert werden, um nachhaltige Maßnahmen zu ergreifen.

Bürgerbeteiligung: Der Einsatz von verschiedensten Kommunikationstechnologien ermöglicht eine aktivere Beteiligung der Bürger an Stadtplanung und -verwaltung.

T

Text Mining

Text Mining ist auch als Textanalyse bekannt und umfasst die Anwendung von Data-Mining-Techniken zur lexikalischen Analyse von Texten. Hierbei werden große Mengen von Texten analysiert, um wertvolle Informationen zu extrahieren.

Durch die Identifizierung von Worthäufigkeitsverteilungen und Mustern kann Text Mining helfen, wichtige Erkenntnisse aus unstrukturierten Daten zu gewinnen.

Die resultierenden Erkenntnisse können in verschiedenen Bereichen eingesetzt werden, wie zum Beispiel:

Marktforschung
Kundenfeedback
Forensik

Tiefes Lernen

Tiefes Lernen, auch bekannt als Deep Learning, ist ein Teil der Methoden des maschinellen Lernens. Im Gegensatz zu aufgabenspezifischen Algorithmen basiert es auf Lernalgorithmen, die auf großen Datensätzen trainiert werden.

Deep Learning wird verwendet, um neuronale Netze zu erstellen, die in der Lage sind, komplexe Zusammenhänge und Muster in den Daten zu erkennen. Es wird bei der Verarbeitung von Big Data eingesetzt.

TensorFlow

TensorFlow ist eine von Google Brain Team entwickelte Open-Source-Softwarebibliothek für numerische Hochleistungsberechnungen. Die Architektur von TensorFlow ist umfangreich, aber flexibel, so dass es auf verschiedenen Plattformen und Infrastrukturen wie Desktops, Clustern und mobilen Geräten eingesetzt werden kann.

Die Bibliothek wird häufig in Anwendungen des maschinellen Lernens wie neuronalen Netzen eingesetzt. Darüber hinaus ermöglicht die neue TensorFlow.js-Bibliothek die Erstellung von Browseranwendungen mit JavaScript, wodurch TensorFlow-Anwendungen nun auch im Webumgebungen eingesetzt werden können.

U

Unüberwachtes Lernen

Unüberwachtes Lernen ist ein Lernverfahren innerhalb des maschinellen Lernens. Hierbei besteht das Ziel darin, die Struktur von Daten zu erlernen, ohne irgendeine Art von Label als Ausgabe reproduzieren zu müssen. Das bedeutet, dass der Maschine nicht gesagt wird, was die Daten bedeuten. Sie muss demnach selbst lernen, Muster zu erkennen und Vorhersagen auf der Grundlage der gegebenen Daten zu treffen.

Es gibt verschiedene Techniken des unüberwachten Lernens. Beispiele für Algorithmen sind:

Clustering
Neuronale Netzwerke
Dimensionsreduktion
Hauptkomponentenanalyse (PCA)
Assoziationsanalyse

Unüberwachtes Lernen hat eine Vielzahl von Anwendungen in der Datenanalyse, zum Beispiel in:

der Bild- und Spracherkennung
der Kundensegmentierung
der Betrugserkennung
dem Identitätsmanagement
der Anomalieerkennung

Überwachtes Lernen

Überwachtes Lernen (supervised learning) ist ein Teil des maschinellen Lernens (machine learning). Das Lernverfahren besteht aus einem Algorithmus, der mit gut beschrifteten Daten versehen wird. Das bedeutet, dass das richtige Ausgangsergebnis oder die erwartete Antwort bereits vorgegeben ist. Die Vorhersagen werden jedoch nicht von der Maschine gemacht, sie dient lediglich der Verifizierung bekannter Fakten. Das Verfahren dient als Lerngrundlage für künftige Datenverarbeitungen und um Entscheidungen zu unterstützen.

Beispiele für Algorithmen des überwachten Lernens sind:

Naive Bayes
Entscheidungsbäume
Lineare Regression
Logistische Regression

Überwachtes Lernen findet sich z. B. in folgenden Anwendungsbereichen:

In der Risikobewertung
Bei Vorhersagen finanzieller Ereignisse

Unstrukturierte Daten

Unstrukturierte Daten sind Daten, die keine klare Struktur oder Formatierung aufweisen. Diese Daten sind für Maschinen schwer verständlich, da sie nicht in Datenbanken oder Tabellen eingeordnet werden können. Um unstrukturierte Daten für eine maschinelle Verarbeitung nutzbar zu machen, müssen sie zunächst in strukturierte Daten umgewandelt werden.

Beispiele für unstrukturierte Daten sind:

Spam-Mails
Feeds von sozialen Medien
digitale Bilder, Audios oder Videos

Die meisten Daten, die heutzutage generiert werden, sind unstrukturiert, was die Herausforderung bei der Verarbeitung von Big Data erhöht.

W

Web Mining

Web-Mining ist eine Technik, die Data-Mining-Methoden nutzt, um Muster und Zusammenhänge aus dem World Wide Web zu extrahieren. Ziel ist es, Websites zu kategorisieren und zu analysieren, um eine strukturierte Übersicht zu erstellen.

Zu klassischen Web-Mining Tools zählen beispielsweise:

Web Crawling
Data Mining
Text Mining
Machine Learning

Durch Web-Mining kann man beispielsweise Informationen wie die Ähnlichkeit oder Beziehung zwischen verschiedenen Websites gewinnen. Diese Informationen können in vielen Bereichen nützlich sein, wie zum Beispiel bei der:

Analyse von Benutzerverhalten im Web
Optimierung von Suchmaschinen
Vorhersage von Trends im E-Commerce

Wissensentdeckung in Datenbanken (KDD)

Der Prozess der Wissensentdeckung in Datenbanken (Knowledge Discovery in Databases – KDD) besteht aus mehreren Teilschritten, mit dem Ziel, nützliches Wissen aus großen Datensätzen zu extrahieren:

Datenauswahl
Festlegung der Zieldaten
Vorbearbeitung der Zieldaten
Umwandlung der vorbearbeiteten Daten
Datenanalyse der transformierten Daten
Muster-Erstellung der Daten
Auswertung anhand von Interpretation und Analyse

Z

Zeitreihenanalyse

Die Zeitreihenanalyse ist eine Sammlung von Methoden zur Untersuchung von zeitlich geordneten Datenreihen . Diese Technik wird verwendet, um aussagekräftige Statistiken zu erstellen und zukünftige Werte innerhalb der Zeitreihe vorherzusagen.

Die Zeitreihenanalyse hat historisch betrachtet eine lange Tradition in der Statistik und ist daher ein wichtiger Bestandteil der Datenwissenschaft.

Typische Anwendungsgebiete sind:

Wettervorhersagen
Aktienmarktanalysen
Verkaufsprognosen

Stefanie Supper
CEO

Termin buchen?

Hier klicken!