RES123 Knowledge Discovery und Data Mining


Emmanuel Müller ist Inhaber des Lehrstuhls für Knowledge Discovery und Data Mining am Hasso Plattner Institut und Leiter der entsprechenden Fachgruppe am Geoforschungszentrum Potsdam. Er forscht an Algorithmen, mit deren Hilfe sich in großen Datenmengen bisher unbekannte Zusammenhänge finden lassen.

Darin: Wissen, Algorithmen, Maschinelles Lernen, Schwangerschaftswerbung nach Data Mining, GenomanalyseGraphenLineare AlgebraYouth Academy, StandardabweichungNeuronale NetzeDeep Learning, Random Forest, Open-HPI: Big Data Analytics

Download: mp3 (32 MB)     m4a (26 MB)     opus (17 MB)    

Veröffentlicht am 24.11.2017
Dauer: 1 Stunde 8 Minuten
Lizenz: CC-BY 4.0

Mehr zum Thema:
RES122 Mal kurz zu Knowledge Discovery

Themen:   Big Data   HPI   Informatik   Mathematik   GFZ   Computer  

Diese Folge zitieren: Holger Klein/Helmholtz-Gemeinschaft: Resonator-Podcast: "RES123 Knowledge Discovery und Data Mining". 24.11.2017, https://resonator-podcast.de/2017/res123-knowledge-discovery-und-data-mining/ (CC-BY 4.0)

Mit diesem Button kannst Du diese Podcast-Episode zu einer Kurationsliste der Podcast-Suchmaschine FYYD hinzufügen. Dazu musst Du Dich auf fyyd.de einloggen:

4 Gedanken zu „RES123 Knowledge Discovery und Data Mining“

  1. Ein Graph ist eigentlich nur eine Menge von Dingen, gennant “Knoten”, die jeweils miteinander verbunden sein koennen. Die Verbindungen nennt man dann “Kanten” und mathematisch drueckt man so eine Verbindung als Paarung von zwei Knoten aus.

    Ein anschauliches Beispiel waere ein Schienennetz der Bahn. Die Knoten sind hier die Bahnhoefe und die Kanten sind die Strecken die direkt zwischen den verschiedenen Bahnhoefen verlaufen. Ein Beispiel fuer einen Knoten ist also “Saarbruecken Hbf” und eine Kante waere beispielsweise das Paar {“Saarbruecken Hbf”, “Kaiserslautern Hbf”}.

    Man kann sich dann noch eine ganze Reihe von Verfeinerungen dieses Modells einfallen lassen, die helfen die Situation besser zu beschreiben. In dem obigen Beispiel ist das Paar das die Kante ausmacht erstmal nicht geordnet, es macht also formal keinen Unterschied ob wir {“Saarbruecken Hbf”, “Kaiserslautern Hbf”} sagen oder {“Kaiserslautern Hbf”, “Saarbruecken Hbf”}. Wir meinen in beiden Faellen die selbe Strecke.
    Wenn es jetzt so waere, dass die Strecke nur in eine Richtung befahren wuerde, koennten wir das im Graph auch abbilden indem wir jetzt darauf bestehen, dass die Kanten eine Richtung bekommen. Dann wuerde z.B. {“Saarbruecken Hbf”, “Kaiserslautern Hbf”} nur die Verbindung von Saarbruecken Richtung Kaiserslautern bezeichnen und {“Kaiserslautern Hbf”, “Saarbruecken Hbf”} waere die Gegenrichtung (die in unserem Beispielfall dann nicht im Graph enthalten waere). Ein solcher Graph heisst dann “gerichteter Graph”.
    Wenn man jetzt noch abbilden will wie lang die Fahrten auf den Strecken laut Fahrplan dauern sollen kann man an jeder Verbindungsstrecke im Graph die Fahrtzeit vermerken. Das nennt man dann eine Gewichtung der Kanten.

    Der Nutzen des Ganzen liegt darin, dass man dann z.B. formal darueber nachdenken kann welche Pfade (Ketten von Verbindungsstrecken) es im Graph (Streckennetz) gibt und welche die zeitlich optimale Strecke von Saarbruecken nach Leipzig waere. Und weil man alles ganz formal gemacht hat kann man das dann auch einem Computer beibringen.

    Diese ganzen Verfeinerungen machen nicht in jeder durch Graphen modellierbaren Situation Sinn. Aber das Basismodell von einer Menge von Dingen die paarweise in Beziehung zueinander stehen koennen findet sich andauernd in der Welt.

  2. Zu dem Thema mit dem schwangeren Mädchen und dem Datamining des Drogeriemarkts:

    https://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/#40c5e3646668

    Die Drogeriemarktkette hatte also über Datamining herausgefunden, dass Frauen, die bestimmte Körperlotionen und Nahrungsergänzungsmittel kaufen, mit erhöhter Wahrscheinlichkeit neun Monate später beginnen, Babyartikel zu kaufen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.