Jakub Wróblewski > Zajęcia dydaktyczne > Przetwarzanie obrazu


Ćwiczenia z Przetwarzania Obrazu

Tematy projektów:

  1. Zaimplementowanie przeglądu obrazu wzdłuż krzywej GHIL. Zastosowanie jej do np. dyfuzji błędu podczas binaryzacji obrazu. Wejście: obrazek kolorowy. Wyjście: obrazek czarno-biały (zbinaryzowany). (Uwaga: to może być fragment pracy dwuosobowej - por. zadanie 2 i 3).
  2. Zaimplementowanie kwantyzacji kolorów jedną z nietrywialnych metod. Wejście: obrazek kolorowy (24-bitowy). Wyjście: obrazek w 256 lub 16 kolorach (wybranych przerz program). (Opcjonalnie: w zespole dwuosobowym można dodatkowo zastosować dyfuzję błędu kwantyzacji wzdłuż krzywej GHIL).
  3. Zaprojektowanie i zaimplementowanie jakiejś metody kompresji (może być stratna). Metoda powinna być nietrywialna i dawać w miarę możliwości lepszy wynik dla obrazków kolorowych, niż np. GIF. Wejście: obrazek (1-, 8- lub 24-bitowy) dla kodera, lub obrazek skompresowany dla dekodera. Wyjście: obrazek skompresowany dla kodera, obrazek oryginalny (lub nie różniący się w sposób zauważalny) dla dekodera. (Opcjonalnie: w zespole dwuosobowym można dodatkowo zastosować przegląd obrazu wzdłuż krzywej GHIL).
  4. Znajdowanie "linii bazowej" zeskanowanego tekstu. Wejście: obrazek (czarno-biały) z fragmentem zeskanowanego tekstu (i nie tylko). Wyjście: ten sam obrazek z naniesioną nań linią obrazującą kierunek tekstu, tzn. równoległą do kolejnych linijek. Przykładowe obrazki można znaleźć tutaj.
  5. Lokalizacja twarzy na zdjęciach. Wejście: zdjęcie kolorowe zawierające m.in. ludzkie twarze (różnej wielkości, w różnym położeniu). Wyjście: to samo zdjęcie, z twarzami obwiedzionymi kółkami.
  6. Rozpoznawanie cyfr pisanych ręcznie, metoda dowolna. Wejście: obrazek 32x32 lub 64x64 piksele (czarno-białe) przedstawiający cyfrę. Wyjście: odpowiednia liczba 0-9. Próbki treningowe znajdują się tutaj. Większe dane (4.8 Mb) można znaleźć tutaj. (Dziękuję N.T. Trungowi za udostępnienie danych).


Dodatki:

  • Kilka przykładowych obrazków w formacie ".BMP" (kolorowe, 24-bity).
  • Biblioteka do wczytywania i operacji na formacie ".BMP" (uwaga: tylko obrazki 24-bitowe!).
  • Użytkownicy Linuxa mogą korzystać z biblioteki Imlib. Jeśli jest zainstalowana, można ją znaleźć lokalnie (np. /usr/doc/imlib-... lub podobnie). Jeśli nie jest zainstalowana - można pobrać np. z Sunsite'a lub z: cvs.gnome.org/lxr/source/imlib.
  • Strona o transformacie Fouriera i algorytmie FFT. Bibliotekę do liczenia FFT można znaleźć tutaj.
  • Strona o metodzie składowych głównych używanej do rozpoznawania obrazu, literatura. Warto też pogrzebać tu.
  • Dodatkowe informacje z miesięcznika Enter: technologie druku kolorowego, techniki retuszu, metody kompresji, budowa kineskopu, fizjologia widzenia, modele barw, przestrzeń kolorów.
  • Strona o przestrzeni barw i działaniu telewizji kolorowej. Warto też obejrzeć wykres czułości oka ludzkiego.

  • Literatura:

  • Władysław Skarbek, Metody reprezentacji obrazów cyfrowych, Akademicka Oficyna Wydawnicza PLJ, Warszawa 1993.
  • C.D. Watkins, A. Sadun, S. Marenka, Nowoczesne metody przetwarzania obrazu, WNT, Warszawa 1995.
  • Władysław Skarbek, Multimedia, Algorytmy i Standardy Kompresji, Akademicka Oficyna Wydawnicza PLJ, Warszawa 1998.