Jakub Wróblewski > Zajęcia dydaktyczne > Eksploracja danych
Eksploracja danych, zaj. projektowe i magisterskie
Propozycje tematów prac inżynierskich i magisterskich.
Tematy wykładów:
- Podstawowe pojęcia: tablica decyzyjna, atrybuty, klasy decyzyjne. Problem przewidywania (predykcji) i opisu danych - dwa główne zagadnienia związane z odkrywaniem wiedzy (KDD) i eksploracją danych (DM). Przykłady zastosowań.
- Schemat ogólny procesu KDD: wstępna analiza i wybór danych, przygotowanie (preprocessing), tworzenie i selekcja cech, eksploracja danych (budowa modelu lub algorytmu klasyfikującego), interpretacja wyników.
- Maszynowe uczenie się: algorytmy PAC, wymiar Vapnika. Twierdzenie "No free lunch".
- Zasada minimalnego opisu. Ogólność a dokładność opisu.
- Drzewa decyzyjne. Różne kryteria oceny cięć (entropia, probabilistyczne itd.).
- Indukcja reguł: algorytmy AQ i CN2. Kryteria jakości reguł.
- Zbiory przybliżone i redukty. Zastosowania do generowania reguł. Redukty lokalne.
- Metody oparte na odległości. Algorytm kNN.
- Klasyfikacja probabilistyczna: metoda naiwna bayesowska.
- Algorytmy grupowania pojęciowego (clustering).
- Reguły asocjacyjne.
Poniżej udostępniony jest zbiór przykładowych danych do analizy.
Są one zwykle podzielone na część treningową i testową. Jeśli z opisów nie wynika coś innego, decyzja jest w ostatniej kolumnie.
Dane:
- Dane satelitarne. 4435 obiektów treningowych, 2000 testowych, 36 atrybutów numerycznych, 6 klas decyzyjnych.
- Rozpoznawanie liter. 15000 obiektów treningowych, 5000 testowych, 16 atrybutów numerycznych, 26 klas decyzyjnych.
- Dane genetyczne. 2000 obiektów treningowych, 1186 testowych, 20 atrybutów symbolicznych, 2 klasy decyzyjne.
- Kilka innych tablic. Niektóre podzielone są na zbiór treningowy i testowy, inne nie.
- Rozpoznawanie instrumentów muzycznych (ponad 2 MB). Relacyjna baza danych, której dokładniejszy opis można znaleźć w pracy KDD-based approach to musical instrument sound recognition.
- Dane bankowe PKDD'99 Challenge są dostępne na stronie przedmiotu "Hurtownie danych". Relacyjna baza danych o klientach banku. Więcej informacji w pracy Analyzing relational databases using rough set based methods.
- Pima - dane medyczne (cukrzyca wśród Indian Pima). Źródło: UCI Repository.
- Rozpoznawanie cyfr i inne zagadnienia związane z obróbką obrazu (na stronie innego przedmiotu).
Materiały uzupełniające:
Inne ciekawe linki
Oprogramowanie:
- RSES - darmowy program oparty na teorii zbiorów przybliżonych.
- ROSETTA - j.w. (darmowa wersja ma ograniczenia liczby obiektów i atrybutów).
- Emerald-AQ - algorytm indukcji reguł AQ w wersji edukacyjno-rozrywkowej.
- WEKA - uniwersalne narzędzie z zaimplementowanymi różnymi algorytmami DM.
Literatura, materiały pomocnicze: