Emmanuel Müller ist Inhaber des Lehrstuhls für Knowledge Discovery und Data Mining am Hasso Plattner Institut und Leiter der entsprechenden Fachgruppe am Geoforschungszentrum Potsdam. Er forscht an Algorithmen, mit deren Hilfe sich in großen Datenmengen bisher unbekannte Zusammenhänge finden lassen.
Darin: Wissen, Algorithmen, Maschinelles Lernen, Schwangerschaftswerbung nach Data Mining, Genomanalyse, Graphen, Lineare Algebra, Youth Academy, Standardabweichung, Neuronale Netze, Deep Learning, Random Forest, Open-HPI: Big Data Analytics
Download: mp3 (32 MB) m4a (26 MB) opus (17 MB)Veröffentlicht am 24.11.2017
Dauer:
1 Stunde
8 Minuten
Lizenz: CC-BY 4.0
Downloads: 39.217
Mehr zum Thema:
122 Mal kurz zu Knowledge Discovery
200 RES200 Die Nationale Forschungsdaten-Infrastruktur
Diese Folge zitieren: Holger Klein/Helmholtz-Gemeinschaft: Resonator-Podcast: "123 Knowledge Discovery und Data Mining". 24.11.2017, https://resonator-podcast.de/2017/res123-knowledge-discovery-und-data-mining/ (CC-BY 4.0)
Ein Graph ist eigentlich nur eine Menge von Dingen, gennant „Knoten“, die jeweils miteinander verbunden sein koennen. Die Verbindungen nennt man dann „Kanten“ und mathematisch drueckt man so eine Verbindung als Paarung von zwei Knoten aus.
Ein anschauliches Beispiel waere ein Schienennetz der Bahn. Die Knoten sind hier die Bahnhoefe und die Kanten sind die Strecken die direkt zwischen den verschiedenen Bahnhoefen verlaufen. Ein Beispiel fuer einen Knoten ist also „Saarbruecken Hbf“ und eine Kante waere beispielsweise das Paar {„Saarbruecken Hbf“, „Kaiserslautern Hbf“}.
Man kann sich dann noch eine ganze Reihe von Verfeinerungen dieses Modells einfallen lassen, die helfen die Situation besser zu beschreiben. In dem obigen Beispiel ist das Paar das die Kante ausmacht erstmal nicht geordnet, es macht also formal keinen Unterschied ob wir {„Saarbruecken Hbf“, „Kaiserslautern Hbf“} sagen oder {„Kaiserslautern Hbf“, „Saarbruecken Hbf“}. Wir meinen in beiden Faellen die selbe Strecke.
Wenn es jetzt so waere, dass die Strecke nur in eine Richtung befahren wuerde, koennten wir das im Graph auch abbilden indem wir jetzt darauf bestehen, dass die Kanten eine Richtung bekommen. Dann wuerde z.B. {„Saarbruecken Hbf“, „Kaiserslautern Hbf“} nur die Verbindung von Saarbruecken Richtung Kaiserslautern bezeichnen und {„Kaiserslautern Hbf“, „Saarbruecken Hbf“} waere die Gegenrichtung (die in unserem Beispielfall dann nicht im Graph enthalten waere). Ein solcher Graph heisst dann „gerichteter Graph“.
Wenn man jetzt noch abbilden will wie lang die Fahrten auf den Strecken laut Fahrplan dauern sollen kann man an jeder Verbindungsstrecke im Graph die Fahrtzeit vermerken. Das nennt man dann eine Gewichtung der Kanten.
Der Nutzen des Ganzen liegt darin, dass man dann z.B. formal darueber nachdenken kann welche Pfade (Ketten von Verbindungsstrecken) es im Graph (Streckennetz) gibt und welche die zeitlich optimale Strecke von Saarbruecken nach Leipzig waere. Und weil man alles ganz formal gemacht hat kann man das dann auch einem Computer beibringen.
Diese ganzen Verfeinerungen machen nicht in jeder durch Graphen modellierbaren Situation Sinn. Aber das Basismodell von einer Menge von Dingen die paarweise in Beziehung zueinander stehen koennen findet sich andauernd in der Welt.
Danke, das bringt etwas Licht in die nicht beantwortete Frage im Podcast.
Zu dem Thema mit dem schwangeren Mädchen und dem Datamining des Drogeriemarkts:
https://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/#40c5e3646668
Die Drogeriemarktkette hatte also über Datamining herausgefunden, dass Frauen, die bestimmte Körperlotionen und Nahrungsergänzungsmittel kaufen, mit erhöhter Wahrscheinlichkeit neun Monate später beginnen, Babyartikel zu kaufen.
Hinweis: Der Link auf die Fachgruppe am GFZ führt ins Leere
Ansonsten: Spannende Folge, mal wieder.
Danke. Der Link ist korrigiert.