Miski do mleka

Masajowie uważają, iż mycie wodą naczyń do mleka daje mleku przykry zapach; dlatego myją te naczynia w krowim moczu. Za Kopalińskim

Tag Archives: akustyka

Kłopoty ze Szprotą

Szprota najpierw mnie zapładnia, potem się pozbywa.

Na socjalmediach. 

Zapładnia, bo jakoś tak ostatnio wychodzi, że właśnie u niej na FejsPlusach wdaję się w ciekawsze (i masywniejsze) dysputy.

Pozbywa się, bo zaraz przychodzi, i: „Chłopaki, nie zniechęcam, ale może notkę?”, „kurwa, flejm o akustyce, srsly”, „bardzo fajny, tylko czemu nie na blogaskach”, „Toooooomasz, zrób notkę”… to ostatnie do mojego kontrdysputora.

No to będzie na blogasku.

Najpierw co było tam gdzie nas nie chcą. Wyekstrahowałem relewantne. Bez nazwisk.

Szprota: SLUCHALAM UMBRELLI NA KOSSACH MRW WIEC WIEM CO TO ZNACZY DOBRE BRZMIENIE DZIWKO

Tomasz: kossy i dobre brzmienie, hahaha

Osoba czwarta: ŻEBY OCENIĆ JAKOŚĆ BRZMIENIA, TRZEBA ZAPUŚCIĆ PONADCZASOWĄ I PRZESTRZENNĄ MUZYKĘ, NA PRZYKŁAD BACHA ALBO RAVELA. ZA 20 LAT NIKT NIE BĘDZIE PAMIĘTAĆ O RIHANNIE.

Tomasz: Osoboczwarta, podpimpuj trolla — akurat muzyka klasyczna ma umiarkowane zakresy dynamiczne, więc tak naprawdę nie jest najlepszym sprawdzianem dla sprzętu audio (a także dla algorytmów kompresji stratnej).

Miskidomleka: @Tomasz – akurat zakresy dynamiczne klasyczna miewa ogromne. W klasyce nie ma loudness war. Możesz mieć ppp i fff w jednym utworze, i przy wielkiej orkiestrze to robi gigantyczną różnicę.

Oraz masz instrumenty akustyczne więc dobry standard brzmienia by sprawdzać sprzęt audio. Kiedy instrument jest elektryczny a więc zawsze przetworzony, nie masz standardu barwy.

Oraz fortepian – bogactwo barwowe z perkusyjnością brzmienia, killer sample. Oraz klawesyn z mnóstwem wysokich harmonicznych, świetny test do kompresji stratnych i bezstratnych.

Oraz masz składy od solo po wielkie orkiestry, idealne do sprawdzania przejrzystości i przestrzenności.

No i większa przyjemność ze słuchania ;-P. Jak kupowałem ADAMy na biurko i sobie robiłem testy w sklepie, narody klękały słysząc jak brzmi fortepian przez nie, a subiektowi dałem potem w prezencie moją płytkę testową, bo się zakochał w koncercie na orkiestrę Bacewicz.

I ain’t trollin’

Tomasz: no to po kolei.

ppp i fff „w jednym utworze” to nie jest duży zakres dynamiczny, duży zakres dynamiczny masz kiedy jedno następuje zaraz po drugim. co w klasyce zdarza się bardzo rzadko. oraz albo cała (większość) orkiestry napierdala głośno, albo cicho. dobry zakres dynamiczny masz wtedy, kiedy trzeba się skupiać na wyłuskaniu cichych instrumentów w głośnym fragmencie. w klasyce bardzo rzadki zabieg.

barwy instrumentów akustycznych, a konkretnie ich wąskie i „naturalne” widma (tonika, harmoniki, praktycznie nic poza tym), powodują że klasyka się *rewelacyjnie* kompresuje stratnie, między innymi dlatego że harmoniczne bardzo ładnie się „przesłaniają” (w sensie psychoakustycznym). natomiast przesterowana (pełno składowych nieharmonicznych) gitara ma takie widmo, że wyciska siódme poty z każdego modelu psychoakustycznego.

wiem że to żaden eksperyment, ale weź sobie stratny kodek audio, nastaw go na konkretną jakość (według modelu psychoakustycznego) (np. lame mp3 –prefix standard) i zobacz różnicę w bitrate’ach potrzebnych do zakodowania klasyki i mocnego metalu.

mnóstwo wysokich harmonicznych to masz nie w klawesynie, tylko w blachach perkusyjnych. widmo talerzy potrafi sięgać setki khz, czyli daleko poza zakresem słyszalnym, a jednak dla wielu ludzi są te harmoniki odczuwalne. tak, są ludzie którzy na pierwszy rzut ucha odróżnią perkusję żywą od odtwarzanej z cd. jeden z głównych powodów dla których dvd-a ma częstotliwość próbkowania aż do 192 khz.

przejrzystość i przestrzenność — tu się zgadzam, niestety w muzyce „rozrywkowej” (bo jak wiadomo klasyka służy do nudzenia) po pierwsze klepie nagrywanie każdego instrumentu z osobna (dziś „na setkę” nagrywają chyba już tylko amatorskie kapele punkowe) oraz kompresja dynamiczna w fazie postprodukcji.

miskidomleka, jesteś audiofilcem? może chcesz kupić złote kable zasilające? :D

teraz przykład ode mnie, bardzo łatwy i pierwszy z brzegu: weź sobie queen „we are the chamions” i wyłuskuj partię fortepianu, która zasadniczo leci przez cały utwór, ale jest przez większość przykrywana przez głośne gitary i perkusję.

Miskidomleka: no to po kolei (a nie mógłbyś o tym notki napisać czy coś? nie lubię solidnych flejmów na fejsie bo giną ;-) ) no i właścicielka już fuka

nie sądzę, by w defincji dynamiki było cokolwiek o tym, jaka ma być odległość w czasie między fragmentem cichym a głośnym. i oczywiście „jedno zaraz po drugim” bywa w klasyce. i ile to jest „zaraz”?

zresztą, jeśli w klasycyenie ma rozpiętości dynamicznej, to czemu żona narzeka, że hałasuję – a przecież hałasuję, bo ustawiam gałkę żeby było dobrze słychać ciche fragmenty, i zaraz coś przypierdala 50 dB głośniej i dom się trzęsie

„kiedy trzeba się skupiać na wyłuskaniu cichych instrumentów w głośnym fragmencie. w klasyce bardzo rzadki zabieg.”
rzadki? yyy – chyba nie. zresztą, co to znaczy „trzeba”. jak się chce, to się wyłuskuje, jak nie, to nie.

„barwy instrumentów akustycznych, a konkretnie ich wąskie i „naturalne” widma ”
wąskie? widziałeś kiedyś widmo skrzypiec? bo ja właśnie patrzę, i harmoniczne lecą do 20k, potem chyba filtr jest założony. a klawesyn? w nagraniu, na które patrzę, wszystko skacze do 22050, zobacz:

 

(oczywiście z CD, Nyquist 22050)

o ile mi wiadomo, model psychoakustyczny nie ma nic wspólnego z harmonicznością, bo maskowanie zachodzi we wstęgach krytycznych, z których w normalnej sytuacji na górze pasma każda będzie obejmować wiele składowych, harmonicznych czy nie

„tak, są ludzie którzy na pierwszy rzut ucha odróżnią perkusję żywą od odtwarzanej z cd. jeden z głównych powodów dla których dvd-a ma częstotliwość próbkowania aż do 192 khz.”
pokaż mi poważny i porządnie przeprowadzony podwójnie ślepy test, w którym ludzie odróżnią identycznie zmasterowane nagranie 192/16 od 44.1/16, lub odpowiednika. Wiem, że Oohashi, tylko że nikt tego OIW nie powtórzył.

„oraz kompresja dynamiczna w fazie postprodukcji.”
ano właśnie – i dlatego dynamika w popie (szeroko rozumianym, jako rozrywkowa) jest z reguły znacznie mniejsza niż w klasyce. bo na klasykę nie zakłada się kompresorów (a przynajmniej tak mocno)

„może chcesz kupić złote kable zasilające?”
jakbyśmy byli w ttdkn, to bym ci po ttdknowsku odpowiedział „spierdalaj”

„we are the champions” ale nie wiem o czym to ma świadczyć. weź początek, pierwsze 17 taktów 3. częsci ci 4. symfonii Brahmsa i wyłuskuj oba oboje (grają cały czas oprócz jednego taktu, służę partyturą jakbyś chciał) – i co?

Szprota: Toooooomasz, zrób notkę.

Tomasz: ale po co, skoro właściwie się zgadzamy z miskidomleka (kiedy twierdzę że klasyka _generalnie_ nie powala zakresem dynamicznym, to miskidomleka podaje dwa wyjątki — obaj mamy tu rację)?
@zaraz
sorry, źle się wyraziłem z tym „zaraz”. miałem na myśli ciche instrumenty które trudniej usłyszeć podczas głośnego grania.

@ślepy test abx na nagrania o gęstym samplowaniu:
co prawda nie 192 vs 44, ale za to 88 vs 44. wystarczająco poważny?
http://www.aes.org/events/128/papers/?ID=2252
(18-6)

@widmo klawesyna
piękne i pełne wyraźnych podstaw oraz ich harmonik (a czemu ich tak dużo to nie będziemy sobie wyjaśniać, bo rozumiem że nie chcemy się obrażać). a żeby zrozumieć co mam na myśli, obejrzyj widmo powerchordu (pryma+kwinta) na mocno przesterowanej gitarze (najlepiej na przesterze tranzystorowym i/lub z diodowym obcięciem).

@częstotliwość a maskowanie
przepraszam za linka do wikipedii, ale od lat nie grzebałem w algorytmach kompresji dźwięku i pościągane pejpery nie przeżyły którejś czystki na dysku
http://en.wikipedia.org/wiki/Auditory_masking#Similar_frequencies

ten efekt powoduje, że symfonię — gdzie w danej chwili cała orkiestra gra prymę lub którąś z jej harmonik, a „czystość” instrumentów powoduje że wszystkich tych częstotliwości jest bardzo ograniczona ilość — kompresuje się stratnie o wiele lepiej niż death metal.
w death metalu jedna gitara (a z reguły są dwie, oczywiście niedoskonale zestrojone) robi ci totalną masakrę w widmie. dorzuć jeszcze perkusję rozciągającą się na cały zakres (od stopy po blachy) i o równie niefajnym widmie (budowa bębnów średniotonowych powoduje że mają one naturalny „przester”), a masz muzykę która jest używana jako prawdziwy test dla modeli psychoakustycznych i algorytmów kompresji.

czekaj, zaraz ci znajdę jakiś fragment gitarowej masakry, gdzie jeden akord robi „rurę” z widma fourierowskiego
Tomasz: cholera, nie mam żadnych flaców z ciężkim graniem, same empetrójki i kilka mpc (we flac tylko „talking timbuktu”). niemniej jako ilustracja niech posłużą:

1) dethklok „into the water”, 46. sekunda (a właściwie fragment, żeby nie oszukiwać progresją akordów)

2) hatebreed „another day another vendetta”, samiuśki początek

nie wiem jak tobie, ale mi to bardzo przypomina widmo różowego szumu ;)

Miskidomleka: „miałem na myśli ciche instrumenty które trudniej usłyszeć podczas głośnego grania”
No ale twierdzisz że nie ma czegoś takiego w klasyce, że słychać wszystkie instrumenty zawsze, czy co?

@ślepy test
Ciekawe, choć to tylko prezentacja zjazdowa, czyli nie przeszła peer review. Mam nadzieję, że niezadługo wyjdzie w JASA czy czymś takim.
Ten sam zespół zrobił ciekawą prezentację (niestety znów bez peer review), która zasadniczo potwierdza co mówisz o stratnym kodowaniu, że przy niskich bitrate pop/metal są nieco łatwiej odróżnialne od CD niż muzyka ogólnie rzecz biorąc poważna. http://www.music.mcgill.ca/~hockman/documents/Pras_presentation2009.pdf
Aczkolwiek nie wiem, czy wybraną przez nich symfonię Mahlera uznałbym za „killer sample”, zależy może, który moment. W ogóle ze względu na ogromną rozpiętość składów i faktur trochę trudno pakować całą poważkę do jednego worka.

@maskowanie oraz „że wszystkich tych częstotliwości jest bardzo ograniczona ilość” oraz widmo klawesynu
czekaj, nie chwytam cały czas dlaczego maskowanie składowych nieharmonicznych ma być inne niż harmonicznych.
Poza tym ja ci poprzednio dałem klawesyn solo czy dwa w duecie (nie pamiętam, z którego wziąłem). A jak weźmiesz gęstszy utwór orkiestrowy, to się tych harmonicznych od różnych instrumentów robi zatrzęsienie, a jak jeszcze zdarzy się perkusja zwłaszcza o nieokreślonej wysokości (przecież jest też w poważce) to może mieć wprost tak:

A jeszcze do tego pospekulowałbym czy ocen brzmienia słuchawek (przypominam, wątek zaczął się od słuchawek) i ocena algorytmów kompresji to nie są trochę inne zagadnienia, potencjalnie wymagające innych killer samples – bo inne aspekty dźwięku będą modyfikowane przez słuchawki niż przez kompresję.

„kiedy twierdzę że klasyka _generalnie_ nie powala zakresem dynamicznym, to miskidomleka podaje dwa wyjątki ”

No nie wiem, jake wyjątki? Zarówno duże różnice między fragmentami są dość powszechne (przynajmniej w orkiestrowej), podobnie jak praktyczna niesłyszalność grającego instrumentu w tutti orkiestrowym.
 
 
 
Toooooomasz, do dzieła! Twoja kolej!

(jak znam życie to się nam nie będzie chciało dalej, ale jeśli nawet, to przynajmniej konwersacja została uratowana z czeluści Fejsa)

O dźwięku cyfrowanym

Zadeklarowałem jakiś czas temu chęć wskazania niedociągnięć w tekście Orlińskiego o MP3, który wyszedł niedawno w wyborcza.biz w dwóch częściach zatytułowanych Jak oszukać ludzkie ucho? Karlheinz Brandenburg opowiada jak stworzył MP3 oraz Jak snobizm i piractwo uratowały MP3.

Może by mi się chęć owa rozeszła po kościach, ale ^wo żalił się na blipie, że miała być hejtnotka, a nie ma, że dla jego Znanego i Szanowanego kolegi czas znalazłem w trymiga, i że wogle. Pod taką presją nie mogę się nie ugiąć, więc oto notka. Nawet nie bardzo hejt.

Bo w pierwszych słowach chciałem pochwalić pomysł i chęć napisania o MP3. Jestem entuzjastą opowieści o tym, jak rozmaite rzeczy działają i jaka historia za owymi rzeczami stała. Zawsze byłem – w dziecięctwie uwielbiałem książeczki o tym, jak działa samochód, a jak telewizor. O tym, jak Bertha Benz pojechała w demo-podróż samochodem konstrukcji męża, i jak John Baird zrobił pierwszy telewizor oparty na mechanicznej tarczy Nipkowa.

Opowieść o MP3 jak najbardziej podpada pod mój entuzjazm, kodowanie dźwięku cyfrowego metodą zwaną dziś MP3 to przecież sprytna rzecz, której używamy na codzień – jej samej, lub pokrewnych, w różnych aspektach ulepszonych, jak AAC czy Vorbis. I rzecz, która – jak wiele innych, ale zawsze warto o tym przypominać – nie wzięła się szast-prast znikąd, czy z natchnienia samotnego geniusza, lecz ze stania na ramionach gigantów.

Szejm przeto on Duży Format, który – jak bodajże na blipie powiedział ^wo – nie uznał tekstu za godny swoich łamów. Może ktoś uznał, że to takie nudne technikalia, że jak nie ma znanej twarzy humanistycznej, seksu, psychologii, religii, to się nikt nie zainteresuje. I historyjka wylądowała ni przypiął ni przyłatał w dodatku biznesowym.

Nie byłbym jednak sobą (a ponadto obietnice wypada choćby od czasu do czasu spełniać), gdybym się do tego czy owego w tekście Orlińskiego nie przyczepił. Bo parę rzeczy się znalazło, a cokolwiek smutne jest, że babole w sprawach okołodźwiękowocyfrowych jest w stanie wypatrzyć prosty biolog. Ciekawe, co znalazłby psychoakustyk, czy elektroakustyk.

A przy okazji, mam nadzieję, uda mi się opowiedzieć o pewnych konceptach stojących za MP3 (i nie tylko), na które nawet w porządniej napisanym artykule do DF czy biznesowego dodatku nie znalazłoby się miejsce.

Zacznijmy od drobiazgów. Pisze Orliński:

Nie miał on żadnej karty dźwiękowej, ale Brandenburg dolutował kolejnymi kabelkami tzw. przetwornik analogowo-cyfrowy, który udało mu się z kolei podłączyć do głośników.

Już na blogu WO ktoś zauważył, że w tę stronę to raczej przetwornik cyfrowo-analogowy, a ja jeszcze dorzucę, że raczej nie wprost do głośników, bo przetworniki cyfrowo-analogowe muszą być podłączone do odbiornika o wysokiej impedancji, a do takich głośnik nie należy. Musiał więc być wzmacniacz pomiędzy.

To drobiazg, idźmy jednak dalej.

Karlheinz Brandenburg, wciąż jeszcze jako doktorant, zostaje członkiem zespołu pracującego nad projektem EU-147. Jest cennym nabytkiem dla zespołu, bo jako pierwszy stawił czoła problemowi połączenia świata humanistycznego (do którego należy psychoakustyka) ze światem lutownicy i terminalu komputerowego.

Ajajaj. Gdzie humanistyka, gdzie psychoakustyka. Granice dziedzin bywają dyskusyjne, ale chyba zgodzimy się, że humanistyka bada człowieka w aspektach kulturowych, społecznych, historycznych. Psychoakustyka natomiast nie jest historyczna, nie ma dba o społeczne konteksty, bada naturę, a nie kulturę.  To dziedzina ścisła, przyrodnicza, ilościowa, to gałąź psychofizyki badająca ilościowe związki między fizycznymi parametrami dźwięków, a ich percepcją przez człowieka (i nie tylko). Nazwa nie myli, psychoakustyka stoi na pograniczu akustyki i psychologii, ale psychologii ścisłej, eksperymentalnej, tej najdalszej humanistyce. Zresztą chyba wystarczy popatrzeć na typowy artykuł psychoakustyczny, by przynależność psychoakustyki do science stała się oczywista. Pod linkiem jedna strona z Shailer MJ i Moore BCJ (1983) Gap detection as a function of frequency, bandwidth, and level. Journal of the Acoustical Society of America 74: 467-473.

Wiedziałem, że doktorat Brandenburga zakończył się w 1989 r. sukcesem – wynalezieniem systemu kodowania muzyki OCF (Optimum Coding Frequency), praprzodka MP3.

Nie, nie. OCF to skrót od Optimum Coding in the Frequency Domain – różnica niby drobna… czyżby? Przetłumaczmy.

Wersja Orlińskiego: „optymalna częstotliwość kodowania”. Czyli dokonuje się jakiegoś kodowania, z jakąś częstotliwością (ileś razy na sekundę), a doktorat Brandenburga odpowiada na pytanie jaka częstotliwość kodowania jest najlepsza.

Wersja Brandenburga: „optymalne kodowanie w dziedzinie częstotliwości”. Czyli doktorat Brandenburga odpowiada na zupełnie inne pytanie: jakie kodowanie (dokonywane w dziedzinie częstotliwości) jest najlepsze. Jednak istotna różnica, nieprawdaż?

W rozpoczynającej się obecnie dygresji spróbuję wyjaśnić pokrótce (ha, ha), o co chodzi z ową dziedziną częstotliwości. Na ile sam to, biolog w końcu prosty, rozumiem. Jak przyjdzie Andsol lub inni matematycznie sprawni, może pojawią się w komentarzach poprawki oraz załamywanie rąk nade mną, jako i ja załamuję nad Orlińskim. Zobaczymy.

Otóż rozmaici mądrzy ludzie w wieku XVIII i XIX (za wiki: babilończycy [przed XVIII wiekiem, naturalnie], Clairaut, Lagrange, Gauss, Bernoulli, Euler, i wreszcie Fourier którego nazwisko się najsilniej z tematem związało, giganci więc, na ramionach których Brandenburg stawał) obmyślili metody przedstawiania rozmaitych funkcji jako sumy prostych funkcji trygonometrycznych, sinusów i kosinusów.  Po co? Bo rozmaite obliczenia i inne zabiegi łatwiej przeprowadzić na sumie, czy złożeniu prostych funkcji, niż na jednej, za to wściekle zawiłej.

Jak takie złożenie wygląda? Na prostym przykładzie, o to dwie funkcje sinus, górna ma mniejszą częstotliwość (lata z góry na dół rzadziej), dolna ma większą częstotliwość. Górna jest większa, ma większą amplitudę (lata z góry na dół dalej od środka), dolna ma mniejszą amplitudę.

Jeżeli je ze sobą złożymy, czyli do siebie dodamy, dostaniemy coś takiego:

Spryt Fouriera i całej kompanii gigantów polegał na znalezieniu matematycznych metod rozdzielania złożonej funkcji na proste składowe, oraz pokazaniu, że każdą, nawet wściekle zawiłą funkcję, możemy rozłożyć na składowe o różnych częstotliwościach i amplitudach, o ile użyjemy tych składowych wystarczająco dużo. Oto przykład z wiki pokazujący, jak składając coraz więcej sinusów i kosinusów zbliżamy się do funkcji o kształcie prostokątnym.

Co to ma do dźwięku? Otóż dźwięk jest właśnie taką wściekle zawiłą funkcją. Dźwięk, to drgania powietrza, to malutkie i szybkie zmiany ciśnienia powietrza. Przebiegające, jak już wspomniałem, zawile. Oto przebieg zmian ciśnienia powietrza w ciągu około 25 tysięcznych sekundy, pochodzący z nagrania Sarabandy z pierwszej partity na skrzypce solo Bacha (gra Shlomo Mintz):

Narysowałem zmiany ciśnienia w czasie, skala na dole to minuty:sekundy.milisekundy nagrania. Czyli jest to sygnał przedstawiony w dziedzinie czasu. Niewiele tu można ciekawych rzeczy wypatrzeć. Ale rozłóżmy, przy pomocy przekształcenia Fouriera, powyższą zawiłość na proste trygonometryczne funkcje, na sinusy. I narysujmy sobie, jak mocne wyszły nam poszczególne sinusy.

Moglibyśmy narysować wszystkie potrzebne sinusy jeden pod drugim, tak jak to zrobiłem powyżej, pokazując dwa sinusy przed złożeniem. Nie miałoby to jednak specjalnie sensu, i to z dwóch powodów. Po pierwsze do rozłożenia zawiłej funkcji wyprodukowanej przez Mintza w ciągu 25 milisekund potrzeba okropnie wielu sinusów. Po drugie, taki obrazek pokazywałby dla każdego sinusa jego częstotliwość, amplitudę oraz kształt. A po co marnować miejsce na obrazku na kształt sinusa? Wszak jeśli się widziało jednego, widziało się wszystkie.

Narysujemy to inaczej. Na osi poziomej będą częstotliwości kolejnych sinusów, na które rozłożyliśmy Mintza. Osi pionowej użyjemy do oznaczenia, jak mocne są poszczególne sinusy, czyli jaka jest ich amplituda. Wuala:

Oto nasz fragmencik Bachowskiej partity przedstawiony w dziedzinie częstotliwości (uważny czytelnik może zauważyć, że użyłem tutaj nieco dłuższego fragmenciku niż narysowany w dziedzinie czasu, nie pokazałem też całego zakresu częstotliwości, wszystko gwoli większej czytelności).

Jakiż pożytek, zapytacie, z przerobienia dziwnych zielonych bazgrołów na dziwne różowe bazgroły? Z punktu widzenia Brandenburga ślęczącego nad doktoratem, z punktu widzenia kodowania MP3 taki, że w dziedzinie częstotliwości dalszą analizę zapisanego dźwięku, dalsze zabiegi mające na celu zmniejszenie objętości zapisu dźwięku (bo o to wszak w MP3 chodzi) przeprowadza się łatwiej, niż w dziedzinie czasu.

Ale i my możemy w wersji różowej łatwiej dostrzec pewne zjawiska niż w zielonej. Dwa najwyższe czubki czy piki naszego wykresu, te po lewej, pokazują dwa najmocniejsze sinusy, na które rozłożyl się nam nasz fragment sarabandy. Jak widać z wykresu, mają one częstotliwość około 370 Hz i około 595 Hz (Hz czyli herc oznacza raz na sekundę). Pozwala nam to powiedzieć, że w tym momencie nagrania Mintz grał jednocześnie dwie nuty, jedna struna skrzypiec wibrowała z częstotliwością 370 razy na sekundę, druga z częstotliwością 595 razy na sekundę. Popatrzmy w nuty:

Mintz gra tu pierwszy akord powyższego taktu, w tonacji h-moll, czyli powinien grać nuty h, fis’ i d”. Częstotliwości tych nut w stroju równomiernie temperowanym to odpowiednio 246,9 Hz, 370 Hz i 587,3 Hz. Biorąc pod uwagę, że na skrzypcach gra się raczej w stroju naturalnym, jak również możliwość drobnych odchyłek intonacyjnych wykonawcy oraz dokładność pomiaru, możemy uznać, że znaleźliśmy fis’ i d”. Gdzie się podziało h? Na skrzypcach normalnie da się pociągnąć smyczkiem najwyżej po dwóch strunach jednocześnie. Akordy złożone z trzech (lub czterech dźwięków) gra się zazwyczaj zaczynając od krótkiego zagrania niskiej nuty (lub dwóch niskich nut) i przeskakując natychmiast na dwie wyższe (na wyżej brzmiących strunach). Skrzypkowie mogą załamać ręce nad prostym biologiem w komentarzach. Jeśli nadal czytasz, wpisz w komentarzu słowo derkacz. Nasza analiza dotyczy momentu po przeskoczeniu, Mintz gra w tym momencie tylko dwie wyższe nuty akordu, h zagrał przed momentem, i zdążyło już zaniknąć. Nieco wcześniej, na początku akordu, dźwięk przedstawiony w dziedzinie częstotliwości wyglądał tak – h około 250 Hz widać bardzo pięknie. Wszystkie te zjawiska możemy zauważyć dzięki przedstawieniu dźwięku w dziedzinie częstotliwości, w dziedzinie czasu, na zielonym wykresie, po prostu ich nie widać.

Na tym dygresję zakończymy, a odpowiedzi nasuwające się zapewne wielu pytanie „a co to są te wszystkie pozostałe piki” udzielimy może kiedyś w innej notce.

Dygresja pokazała, mam nadzieję, czym jest reprezentacja dźwięku (czy w ogóle sygnału) w dziedzinie częstotliwości, do czego może ona służyć, a więc jak ważną część historii zgubił Orliński skracając rozwinięcie skrótu OCF.

No i ostatni fragment, nad którym mam ochotę załamywać ręce.

Od dawna było wiadomo, że ludzkie ucho nie potrzebuje całości docierającej do niego informacji. Zajmowała się tym dziedzina wiedzy zwana psychoakustyką. Wiedziałem więc, że ucho można oszukać, tak jak oszukujemy oczy, wyświetlając 25 nieruchomych obrazków – a nam się wydaje, że oglądamy ciągły film.

Podobnie działa kodowanie muzyki. Zamiast kodować całość nagrania, wystarczy kilka- lub kilkadziesiąt tysięcy razy na sekundę robić tak zwane próbkowanie, czyli zapis dźwięku w danej chwili. Czego ucho nie usłyszy, to mózg dopowie, tak jak mózg wypełnia nam brakujący ruch na taśmie filmowej.

Może ja słabo rozumiem słowo pisane, ale moim zdaniem fragment ten, w kontekście w jakim go umieszczono na drugiej stronie pierwszej części tekstu Orlińskiego, miał tłumaczyć istotę MP3, istotę kodowania, które pozwala nam zaoszczędzić wiele miejsca na naszych odtwarzaczach. Niestety, tłumaczy on zupełnie co innego, w dodatku raczej źle.

Skąd się bierze w ogóle dźwięk w postaci cyfrowej, w komputerze, na płycie CD, w pamięci odtwarzacza MP3? Jaką drogę przechodzi, od szybkich i drobnych zmian ciśnienia powietrza, do czegoś, co można zapisać celem odtworzenia po jakimś czasie?

Najpierw rys historyczny (żeby było humanistyczniej). Najprostszy zapis dźwięku można zrealizować następująco: bierzemy cienką membranę, którą drobne zmiany ciśnienia powietrza (dźwięk!) będą wprawiać w drobne ruchy. Do membrany mocujemy sztyfcik, który, poruszany przez membranę w takt zmian ciśnienia, wycina ślad w plastycznym, przesuwającym się materiale. Gdy ciśnienia chwilowo wzrasta, sztycik wsuwa się w materiał, ślad jest głębszy. Gdy ciśnienie się zmniejsza, sztyfcik się cofa, ślad jest płytszy. Potem możemy taki zapis odtworzyć w analogiczny sposób. Zmuszamy sztyfcik by podążał za wyrzeźbionym uprzednio śladem, sztyfcik wprawia w ruch membranę, membrana wprawia w ruch powietrze, i słyszymy, cośmy nagrali. Tak działały pierwsze fonografy i patefony. Przy czym w ramach postępu zmieniono kierunek ruchu sztyfcika czy igły z pionowego na poziomy.

Sztyfcik pędzący membranę miał małą skuteczność, dźwięk był słaby. Krokiem kolejnym było zaprzęgnięcie do roboty prądu elektrycznego, który nauczono się w międzyczasie wzmacniać. Zmiany ciśnienia powietrza zamieniano na zmiany prądu elektrycznego za pomocą mikrofonu, prąd z kolei mógł napędzać urządzenie nacinające rowek w płycie. Podobnie igiełka drgająca według kształtu rowka nie napędzała już wprost membrany. Za pomocą cewek i magnesów wytwarzała prąd, który następnie, po niemal dowolnym wzmocnieniu i przesłaniu na niemal dowolną odległość, napędzał membranę (pojawił się nam głośnik!), która z kolei powodowała zmiany ciśnienia powietrza, czyli dźwięk. Tak działały, i dotąd działają, gramofony.

Innym konceptem był zapis magnetyczny, najpierw na drucie stalowym, potem na taśmie papierowej pokrytej drobinkami magnetycznymi, wreszcie na taśmie z tworzywa sztucznego z magnetyczną powłoką. Prąd z mikrofonu po wzmocnieniu wytwarzał pole magnetyczne, które ustawiało kierunek namagnesowania na przesuwającej się taśmie. A potem przesuwająca się namagensowana taśma generowała w odpowiednim urządzeniu prąd elektryczny (pamiętacie ze szkoły: indukcja, reguły różnych rąk, te sprawy), który po wzmocnieniu ruszał membraną głośnika. Tak działały (czas przeszły praktycznie usprawiedliwony) magnetofony.

Wszystkie powyższe metody zapisu są analogowe. Na każdym etapie istnieje prosta odpowiedniość między dźwiękiem, czyli przebiegiem zmian ciśnienia powietrza, a jakąś fizyczną wielkością. Gdy ciśnienie jest większe, rowek jest głębszy lub przesunięty bardziej w jedną stronę, napięcie elektryczne wyższe, ustawienie cząsteczek magnetycznych bardziej w którąś stronę. Gdy ciśnienie jest mniejsze, prąd płynie w drugą stronę, rowek jest płytszy, cząstki magnetyczne ustawione inaczej. Zapis jest analogowy i ciągły, nieprzerwany – dla każdego wyobrażalnego momentu w czasie rowek gdzieś się znajduje, napięcie elektryczne ma jakąś wartość. Gdzieś tam pod spodem są oczywiście nieciągłe atomy i elektrony, podobnie jak naprawdę nieciągłe jest ciśnienie powietrza, biorące się z uderzeń pojedynczych cząsteczek gazów – ale dzieje się to w tak drobnej skali, że możemy w praktyce mówić o ciągłości.

Ta odpowiedniość, analogiczność zapisu z dźwiękiem została zerwana w zapisie cyfrowym. Polega on na próbkowaniu, czyli na mierzeniu i notowaniu wartości tego, co mierzymy, w pewnych, równych odstępach czasu. Innymi słowy z pewną częstotliwością, zwaną częstotliwością próbkowania. W przypadku dźwięku mierzymy ciśnienie powietrza, a tak naprawdę, jak zwykle w naszej elektrocentrycznej cywilizacji, mierzymy napięcie wyprodukowane przez mikrofon, napięcie, którego przebieg odpowiada przebiegowi ciśnienia powietrza. Czytających proszę o wpisanie do komentarza słowa dyrdymały. Wynik pomiaru, ciąg zapisanych liczb, w żaden sposób fizycznie nie odpowiada przebiegowi dźwięku. Jest tylko jego abstrakcyjną reprezentacją. Jest jego liczbowym opisem. Który możemy przetworzyć w inny, równie abstrakcyjny opis, nie tracąc nic z informacji (na przykład 3952 → MMMCMLII → 0x0F70 → dreitausendneunhundertzweiundfünfzig). Co więcej, zapis jest nieciągły, inaczej mówiąc dyskretny, wartości istnieją tylko dla momentów, w których zostały zmierzone, między nimi nic nie ma. Nic a nic.

I jeszcze jedno – ponieważ zapis cyfrowy nie odpowiada fizycznie dźwiękowi, procesu odtwarzania dźwięku zapisanego cyfrowo w zasadzie nie powinien nazywać się odtwarzaniem. Odpowiednie urządzenie, jak pamiętamy dzięki Orlińskiemu poprawiającemu Orlińskiego komentatorowi na jego blogu, zwane przetwornikiem cyfrowo-analogowym, tak naprawdę na podstawie liczbowego opisu na nowo wytwarza dźwięk napięcie elektryczne, następnie przetwarzane poprzez wzmacniacz i głośnik na dźwięk.

No dobrze, zapytacie, ależ czyż nie toż samoż o próbkowaniu napisałże Orliński? Plus minus to samo. To czemu się go czepiasz? Z dwóch powodów.

Po pierwsze, nie jest prawdą, że z powodu nieciągłości próbkowania „czego ucho nie usłyszy, to mózg dopowie”. Dzięki kolejnej porcji gigantów (Whittaker, Kotielnikow, Nyquist, Shannon) mamy twierdzenie o próbkowaniu, zwane często twierdzeniem Nyquista-Shannona (lub inną kombinacją gigancich nazwisk). Twierdzenie to mówi nam (w wersji udelfinionej na nasze potrzeby), że sygnał zawierający składowe (znów Fourier się kłania) o częstotliwościach nie większych niż B może zostać wiernie zapisany za pomocą próbkowania z częstotliwością próbkowania 2B.  Wiernie – czyli mózg nic nie musi dopowiadać, mimo próbkowania, mimo że między momentami pomiaru nic nie ma, informacja jest wystarczająca do pełnego odtworzenia sygnału. Czyli w naszym przypadku, dźwięku.

Jeśli kiedykolwiek, powodowani niezdrową ciekawością, zaglądaliście w właściwości plików dźwiękowych na waszym komputerze (raczej za pomocą programów do obróbki dźwięku, sam system niechętnie pokazuje takie technikalia), może zauważyliście, że częstotliwość próbkowania wynosi często 44100 Hz. Taką częstotliwość próbkowania przyjęto dla płyt CD, z których wszak wiele plików dźwiękowych pośrednio czy bezpośrednio pochodzi. Jak wynika z twierdzenia o próbkowaniu, częstotliwość próbkowania 44100 kHz zapewnia zapis składowych dźwięku o częstotliwościach od 0 do 22050 Hz. Jako że ludzie słyszą dźwięki o częstotliwościach w porywach do 20000 Hz (i to raczej dzieciątka niewinne, w wieku dojrzalszym częściej spotkamy granicę 16000 Hz, czy coś koło tego), częstotliwość próbkowania przyjęta dla CD wystarcza z zapasikiem, by zapisać i odtworzyć słyszalne dla człowieka dźwięki. (O modzie na supertweetery oraz częstotliwości próbkowania 96 i 192 kHz, jak i o niespodziewanych beneficjentach tej mody, pogadamy innym razem).

Inne informacje, jakie niezdrowy ciekawski może wyczytać we właściwościach plików dźwiękowych, to mono/stereo (wiemy o co chodzi, prawda?) oraz liczba bitów. Liczba bitów, w dzisiejszych czasach występująca niemal wyłącznie jako 16, rzadko 24 lub 32, historycznie 8, mówi nam o kolejnym praktycznym ograniczeniu zapisu cyfrowego. Związane jest ono z tak zwaną kwantyzacją. Chwilę o tym pomówimy, później się przyda. Otóż, gdy w czasie próbkowania mierzymy nasz sygnał, każdy wynik pomiaru musimy gdzieś zapisać, jako liczbę w komórce pamięci komputera, czy innego rejestratora. Komórki te mają pewną wielkość, mierzoną w tych właśnie tajemniczych bitach. Jeżeli bitów jest 8, liczba wynikająca z pomiaru może mieć jedną z 256 wartości (najczęstsza konwencja to 0 do 255, bez ułamków). Gdy bitów jest 16, wartości jest 65536 (typowa konwencja tym razem to -32768 do 32767), i tak dalej.

Z liczby bitów wynika możliwa do uzyskania dynamika sygnału. Uch, kolejne dziwne słowo. W dodatku dynamika, o której mowa, nie ma nic wspólnego z potocznym znaczeniem słowa dynamiczny. Dynamika mówi nam, jaka jest możliwa rozpiętość głośności dźwięków (ogólnie sygnałów). Inaczej mówiąc, o ile najgłośniejsze „mieszczące się” dźwięki są głośniejsze od najcichszych, jakie da się zapisać. Dlaczego to ważne? Bo muzyka się składa z dźwięków cichych i głośnych, a chcemy zapisać je wszystkie! Ot, na przykład patrzę sobie teraz na nagranie IX symfonii Beethovena, gdzie najcichsze dźwięki są o jakieś 60 decybeli (dB) cichsze od nagłośniejszych. Ile bitów nam potrzeba? To się da policzyć.

Spróbujmy z ośmioma bitami. Najgłośniejszy sygnał jaki możemy zapisać używając 8 bitów, t0 sygnał rozciągający się na 256 jednostek, od 0 do 255. Najcichszy, to taki, który drga tylko między dwoma sąsiednimi wartościami, np 127 i 128. Amplituda pierwszego to 256 jednostek, drugiego – jedna jednostka. Na decybele to będzie 20*log10(256/1)≈48 dB (co to jest decybel, dlaczego nie jest to po prostu jednostka natężenia dźwięku, dlaczego czasem we wzorze jest 20 a czasem 10, i dlaczego decybele mogą być ujemne, opowiemy sobie innym razem). To już chyba wiemy, czemu zapis dźwięku w 8 bitach ma znaczenie historyczne.  Skutkiem tak małej dynamiki jest wyraźnie słyszalny szum (szum kwantyzacji), w którym giną cichsze fragmenty muzyki.

Weźmy 16 bitów: 20*log(65536/1)≈96 dB, czyli pięknie starcza na zapisanie Beethovena. I to jest właśnie najczęściej używana wartość, i jednocześnie wartość, jakiej używają płyty CD. O tym czy i po co warto używać 24 czy 32 bitów, też innym razem. Na zakończenie tego fragmentu poproszę o zapamiętanie, że zapisywalna dynamika zależy od liczby bitów, że gdy jest ich mało to będzie słychać szum kwantyzacji (ale plik zajmie mniej miejsca). I dodam dla porównania z CD, że dynamika najwyższej klasy gramofonów czy domowych magnetofonów oceniana jest na około 70 dB. I jeszcze, że tak działa próbkowanie metodą liniowej modulacji impulsowo-kodowej (LPCM), używaną w komputerach, odtwarzaczach CD, DVD. Z domowych urządzeń inną metodą (zwaną DSD) posługują się odtwarzacze SACD, dość powiedzieć, że używają zapisu jednobitowego, za to z częstotliwością ponad 2800 kHz.

A jaki jeszcze błąd popełnił Orliński w ostatnim fragmencie, poza twierdzeniem, że mózg coś musi dopowiadać? Taki mianowicie, że próbkowanie, o którym opowiedział, a o którym ja opowiedziałem nieco więcej, nie jest istotą MP3, nie jest istotą dokonań Brandenburga. Samym próbkowaniem doszliśmy na razie do płyty CD, do cyfrowego dźwięku nieskompresowanego. Tam, gdzie Orliński zakończył swój opis, MP3 dopiero się tu zaczyna.

Po co w ogóle MP3? Po to, że nieskompresowany dźwięk zajmuje dużo miejsca – w pamięci, na dysku, w kabelkach internetu. Jedna minuta zapisana z parametrami takimi, jak na płycie CD, to około 10 MB (44100 próbek na sekundę, razy dwa bajty (16 bitów), razy dwa kanały (stereo), razy 60 sekund, proszę sobie policzyć). Pamiętam pierwsze twarde dyski do pecetów, cały dysk miał 10 MB. Dziś szybkość zapisu dźwięku cyfrowego często podajemy jako przepływność (kocham to słowo), z angielska bitrate, w kilobitach na sekundę (kbps). Muzyka na CD to prawie 1400 kbps. Z internetem łączono się kiedyś przez modemy telefoniczne osiągające 56 kbps, mój pierwszy „szerokopasmowy” internet miał bodajże 768 kbps. Widać w czym był problem, prawda?

Trzeba było te pliki dźwiękowe jakoś zmniejszyć, skompresować. Ludzie wiekowi jak ja zapewne pamiętają programiki pod DOS o nazwach pkzip i pkunzip, pierwsze programy do kompresowania i rozkompresowania plików używaną do dzisiaj metodą (czy grupą metod) ZIP. Dlaczego nie użyć tej metody do kompresowania dźwięku? Cóż, typowe metody kompresowania polegają na technikach takich, jak wynajdywanie w kompresowanych plikach powtarzających się fragmentów. W cyfrowym dźwięku takie fragmenty występują bardzo rzadko. I użycie zwykłych metod kompresji rzadko zmniejsza pliki dźwiękowe więcej niż o 10%. Zmniejszenie objętości minuty muzyki z 10MB do 9MB to wątpliwej klasy osiągnięcie.

Pewien postęp nastąpił po wynalezieniu metod kompresji specjalnie zaprojektowanych do muzyki. Korzystały one na przykład z faktu, że typowe pliki muzyczne są plikami stereo, a informacja w kanale lewym jest zazwyczaj podobna do informacji w kanale prawym. Mój pierwszy kontakt z takimi metodami kompresji to rosyjski program do kompresji RAR, który wprowadził „Multimedia compression”. Zdarzało się uzyskać 50% zmniejszenie wielkości pliku. Łał. Po wielu latach w zasadzie nie umiemy zrobić tego znacząco lepiej, współczesne algorytmy kompresji bezstratnej dźwięku (FLAC, Monkey Audio, WMA Lossless czy ALAC) zazwyczaj osiągają około 50-60%. Rzut oka na moje zbiory we FLAC pokazał wartości od 450 do 900 kbps, najtrudniej (nadal, jak za Brandenburga) kompresuje się klawesyn solo. Suzanne Vega nie posiadam. Postęp od RAR dokonał się bardziej na polu dostosowania formatów do specyfiki odtwarzania muzyki – możliwość dekompresji „w locie”, w trakcie odczytywania pliku, czy dopisania „tagów” opisujących utwór muzyczny, niż w stopniu skompresowania.

Zmniejszenie minuty muzyki z 10 do 5 MB, z 1400 do 700 kbps, to ciągle niezbyt dużo, i z pewnością nie byłoby to wystarczające, w czasach, gdy Brandenburg zaczynał doktorat, przy wielkościach dysków wówczas używanych. „Byłoby”, bo wtedy FLACów i ALACów jeszcze nie było, to historia XXI wieku. A nawet gdyby były, ówczesne komputery nie udźwignęłyby ich obliczeniowo. Pamiętajmy też, że skompresowany plik dźwiękowy trzeba rozpakowywać wystarczająco szybko, by nadążyć za muzyką. Zapuszczenie na noc rozkompresowania czterominutowej piosenki po to, by jej rano przez cztery minuty posłuchać, nie jest fajne. Trzeba więc było wymyśleć coś innego.

I tu na scenę wkracza Brandenburg, Optimal Coding in the Frequency domain, i giganci psychoakustyki. Którzy zajmowali się między innymi zjawiskiem maskowania. Polegającym z grubsza na tym, że jeden dźwięk może zagłuszyć inny. Niby banalna obserwacja, ale skrupulatne pomiary, jakie muszą być relacje między dźwiękami, by nastąpiło maskowanie, przyniosły wiedzę o funkcjonowaniu ludzkiego ucha (punkt wyjścia do guglania: pasma/wstęgi krytyczne, critical bands), i pomogły Brandenburgowi. Wiemy na przykład, że dźwięki głośne szczególnie dobrze maskują dźwięki o podobnych częstotliwościach, a słabiej dźwięki o odległych częstotliwościach. Wiemy, że maskowanie może też dotyczyć dźwięków niejednoczesnych. Wiemy, też że dźwięki bardzo niskie a ciche, jak i bardzo wysokie a ciche, w ogóle nie są słyszalne. Za to składowe o częstotliwościach około 1-4 kHz słyszymy wyjątkowo dobrze. Dużo tego typu rzeczy wiemy.

Taka wiedza psychoakustyczna pozwoliła na zaprojektowanie kompresji stratnej dźwięku. Użyłem tu słowa „stratna”, trzy akapity wyżej wspomniałem o kompresji „bezstratnej”, najwyższa pora wyjaśnić, o co idzie. Kompresja bezstratna to taka, której wynikiem (a raczej wynikiem pary kompresja-a-następnie-dekompresja) jest informacja dokładnie identyczna z informacją, która była kompresowana. Nie ma żadnej różnicy. Tak działa ZIP, tak działa FLAC czy ALAC. Natomiast wynikiem kompresji-a-następnie-dekompresji stratnej jest informacja inna od informacji początkowej. Obrazek po kompresji JPEG różni się ciut od obrazka przed kompresją. Plik dźwiękowy uzyskany po dekompresji MP3, Vorbis, AAC czy WMA różni się nieco od tego, który został skompresowany.  Coś zostało zmienione, wyrzucone, stracone. Stratę tę równoważy jednak zysk w możliwym do uzyskania stopniu kompresji. Pamiętamy, na płycie CD mamy 1400 kbps, kompresją bezstratną możemy to zmniejszyć do 500-700 kbps. Kompresja stratna może więcej, choć im niższa wartość kbps, tym większa szansa usłyszenia niekoniecznie przyjemnej różnicy od oryginału. Pliki MP3 128 kbps (ponad 10-krotnie mniejsze od oryginału CD!) zazwyczaj dają się nieźle słuchać. 192 kbps – mało kto odróżni od CD. 256, 320 kbps – chyba nikomu nigdy nie udało się odróżnić, w każdym razie przy słuchaniu muzyki, a nie specjalnie spreparowanych sygnałów. A miejmy na uwadze, że formaty nowocześniejsze niż MP3 (AAC, Vorbis) zazwyczaj radzą sobie jeszcze lepiej.

Jak to działa, co się dzieje od momentu, w którym Orliński porzucił nasz zakodowany cyfrowo, ale wcale jeszcze nie skompresowany dźwięk? Pisząc w przybliżeniu (czekam na specjalistów od MP3, co załamią nad prostym biologiem ręce): cyfrowy dźwięk jest dzielony na krótkie odcinki. Każdy odcinek jest rozkładany na składowe o różnych częstotliwościach przy pomocy cyfrowych filtrów. Każda składowa jest analizowana (pamiętacie jeszcze Fouriera? – jeśli tak, wpiszcie słowo degrengolada do komentarza) za pomocą przekształcenia pokrewnego przekształceniu Fouriera. Następnie przy pomocy modelu psychoakustycznego oceniana jest słyszalność poszczególnych składowych, czy to z racji znajdowania się poza pasmem słyszalności (za niskie/wysokie i jednocześnie za ciche by ktokolwiek je usłyszał), czy to z racji maskowania przez inne dźwięki. Można to porównać do dobierania liczby bitów użytej to zakodowania poszczególnych składowych tak, aby szum kwantyzacji (pamiętacie?) był jak największy (jak najmniej bitów), ale nadal niesłyszalny – bo zamaskowany przez inne dźwięki. Stosowane są też inne mechanizmy, na przykład algorytm może skorzystać z podobieństwa lewego i prawego kanału. Na koniec cała opracowana, pozbawiona niesłyszalnych (oby) składowych, informacja o dźwięku jest dodatkowo kompresowana metodą bezstratną, i mamy śliczną paczuszkę dźwiękową, rozmiaru 10-20% oryginału, gotową do odtworzenia, i zajmującą wygodnie niewiele miejsca na dysku czy w pamięci odtwarzacza mp3.

Pozdrowienia dla tych, którzy dotarli ze mną do końca!

%d blogerów lubi to: