Ćwiczenia z Przetwarzania Obrazu

Jakub Wróblewski > Zajęcia dydaktyczne > Przetwarzanie obrazu

Tematy projektów:

Zaimplementowanie przeglądu obrazu wzdłuż krzywej GHIL. Zastosowanie jej do np. dyfuzji błędu podczas binaryzacji obrazu. Wejście: obrazek kolorowy. Wyjście: obrazek czarno-biały (zbinaryzowany). (Uwaga: to może być fragment pracy dwuosobowej - por. zadanie 2 i 3).
Zaimplementowanie kwantyzacji kolorów jedną z nietrywialnych metod. Wejście: obrazek kolorowy (24-bitowy). Wyjście: obrazek w 256 lub 16 kolorach (wybranych przerz program). (Opcjonalnie: w zespole dwuosobowym można dodatkowo zastosować dyfuzję błędu kwantyzacji wzdłuż krzywej GHIL).
Zaprojektowanie i zaimplementowanie jakiejś metody kompresji (może być stratna). Metoda powinna być nietrywialna i dawać w miarę możliwości lepszy wynik dla obrazków kolorowych, niż np. GIF. Wejście: obrazek (1-, 8- lub 24-bitowy) dla kodera, lub obrazek skompresowany dla dekodera. Wyjście: obrazek skompresowany dla kodera, obrazek oryginalny (lub nie różniący się w sposób zauważalny) dla dekodera. (Opcjonalnie: w zespole dwuosobowym można dodatkowo zastosować przegląd obrazu wzdłuż krzywej GHIL).
Znajdowanie "linii bazowej" zeskanowanego tekstu. Wejście: obrazek (czarno-biały) z fragmentem zeskanowanego tekstu (i nie tylko). Wyjście: ten sam obrazek z naniesioną nań linią obrazującą kierunek tekstu, tzn. równoległą do kolejnych linijek. Przykładowe obrazki można znaleźć tutaj.
Lokalizacja twarzy na zdjęciach. Wejście: zdjęcie kolorowe zawierające m.in. ludzkie twarze (różnej wielkości, w różnym położeniu). Wyjście: to samo zdjęcie, z twarzami obwiedzionymi kółkami.
Rozpoznawanie cyfr pisanych ręcznie, metoda dowolna. Wejście: obrazek 32x32 lub 64x64 piksele (czarno-białe) przedstawiający cyfrę. Wyjście: odpowiednia liczba 0-9. Próbki treningowe znajdują się tutaj. Większe dane (4.8 Mb) można znaleźć tutaj. (Dziękuję N.T. Trungowi za udostępnienie danych).

Dodatki:

Kilka przykładowych obrazków w formacie ".BMP" (kolorowe, 24-bity).

Biblioteka do wczytywania i operacji na formacie ".BMP" (uwaga: tylko obrazki 24-bitowe!).

Użytkownicy Linuxa mogą korzystać z biblioteki Imlib. Jeśli jest zainstalowana, można ją znaleźć lokalnie (np. /usr/doc/imlib-... lub podobnie). Jeśli nie jest zainstalowana - można pobrać np. z Sunsite'a lub z: cvs.gnome.org/lxr/source/imlib.

Strona o transformacie Fouriera i algorytmie FFT. Bibliotekę do liczenia FFT można znaleźć tutaj.

Strona o metodzie składowych głównych używanej do rozpoznawania obrazu, literatura. Warto też pogrzebać tu.

Dodatkowe informacje z miesięcznika Enter: technologie druku kolorowego, techniki retuszu, metody kompresji, budowa kineskopu, fizjologia widzenia, modele barw, przestrzeń kolorów.

Strona o przestrzeni barw i działaniu telewizji kolorowej. Warto też obejrzeć wykres czułości oka ludzkiego.

Literatura:

Władysław Skarbek, Metody reprezentacji obrazów cyfrowych, Akademicka Oficyna Wydawnicza PLJ, Warszawa 1993.

C.D. Watkins, A. Sadun, S. Marenka, Nowoczesne metody przetwarzania obrazu, WNT, Warszawa 1995.

Władysław Skarbek, Multimedia, Algorytmy i Standardy Kompresji, Akademicka Oficyna Wydawnicza PLJ, Warszawa 1998.