Metody automatycznego rozpoznawania nagrań utworów zespołu The Beatles na podstawie ich intonowanych fragmentów za pomocą sieci neuronowych i technik analizy czasowo-częstotliwościowej
Praca magisterska, 2024
Autor: Rafał Gorecki
Promotor: Jakub Wagner
Streszczenie
Praca magisterska „Metody automatycznego rozpoznawania nagrań utworów zespołu The Beatles na podstawie ich intonowanych fragmentów za pomocą sieci neuronowych i technik analizy czasowo-częstotliwościowej” stanowi próbę zbadania skuteczności technik i narzędzi przetwarzania multimediów, takich jak splotowe sieci neuronowe czy algorytmy bazujące na transformacjach Fourierowskich, w rozpoznawaniu prostych sekwencji muzycznych, takich jak melodie czy riffy, w nieoryginalnych wykonaniach utworów z ograniczonego (ze względu na skalę niniejszej pracy oraz dostępne zasoby) zbioru. Tym zbiorem być ma, odpowiednio przygotowany, część dyskografii zespołu The Beatles w wykonaniu amatorskim w formie kilkusekundowych fragmentów nuconych melodii. Stanowi ona dobry wybór ze względu na jej dużą różnorodność oraz dobre opisanie jako dane wejściowe dla algorytmów uczenia maszynowego.
Nagrania stanowią podstawę do wygenerowania dwóch zbiorów wprowadzanych następnie jako dane wejściowe do kilku architektur sieci neuronowych. Pierwszy zbiór to spektrogramy – wykresy magnitudy w funkcji czasu i częstotliwości uzyskane za pomocą algorytmu Krótkoczasowej Transformacji Fouriera (STFT). Drugi to obrazy zwane holospektrami, czyli produkty przekształceń określanych jako Empiryczna Dekompozycja Modalna (EMD), na którą składa się proces siftowania i Transformacji Hilberta-Huanga. W pracy porównana jest jakość wytrenowania architektur sieci neuronowych (popularnych szablonów pretrenowanych i niepretrenowanych pochodzących z pythonowej biblioteki PyTorch oraz zaimplementowanych ręcznie modeli wstępnie przetestowanych w ramach projektów przedmiotowych). Wykazana została przewaga modeli niepretrenowanych i implementowanych ręcznie. Rezultatem pracy jest również określenie, że trening sieci na zbiorze spektrogramów daje lepsze wyniki, a zatem też, że algorytm do ich generowania okazuje się narzędziem skuteczniejszym.
Pomyślna weryfikacja skuteczności zaproponowanych rozwiązań prawdopodobnie umożliwia stworzenie narzędzia służącego do klasyfikacji nagrań samodzielnego wykonania utworu muzycznego, co stanowiłoby rozwinięcie idei popularnego Shazama. Innym zastosowaniem może być weryfikacja antyplagiatowa. Odpowiednio rozbudowana baza nagrań umożliwiłaby również sprawdzanie, czy wykonywana sekwencja muzyczna nie przypomina jakiejś już istniejącej, albo zaczerpnięcie inspiracji do skomponowania własnego utworu.
