Miski do mleka

Masajowie uważają, iż mycie wodą naczyń do mleka daje mleku przykry zapach; dlatego myją te naczynia w krowim moczu. Za Kopalińskim

Tag Archives: komputery

Spotify coraz gorzej

Parę miesięcy temu pisałem o Spotify, które na pierwszy rzut oka wydaje się być idealnym rozwiązaniem dostępu do muzyki. Za niewielką miesięczną opłatę dostajemy dostęp do ogromnego katalogu muzyki przysyłanej z internetu w czasie rzeczywistym z dobrą (a za ciut wyższą opłatę – bardzo dobrą) jakością.

Na drugi rzut oka rzecz przestaje wyglądać różowo. W sierpniu zeszłego roku wskazywałem na marnie działającą wyszukiwarkę i niewygodne wyświetlanie wyników wyszukiwania (zwłaszcza gdy szukaliśmy poważki). Na dziury w katalogu – brakowało całych albumów, i nie szło o jakieś efemeryczne egzotyki, tylko o filary w rodzaju koncertów Brahmsa granych przez Gilelsa z Jochumem. Jeszcze bardziej denerwujące były brakujące ścieżki. Album niby jest, ale niektóre ścieżki są wyświetlone na szaro. Próba odtworzenia tych ścieżek skutkuje komunikatem „jeśli masz tę ścieżkę z innego źródła, możesz jej posłuchać, jeśli nie, zrobiliśmy cię na szaro”. Czasem dotyczy to jednej ścieżki z albumu, czasem połowy, a czasem dostępna jest jedna(!) ścieżka z płyty. Wreszcie, brakowało rzeczy tak podstawowej jak gapless playback, czyli niedodawanie przerw między utworami.

Co się zmieniło przez ostatnie osiem miesięcy?

Gapless playback niby już jest, i Spotify bardzo się nim chwali. Szkoda tylko, że nie bardzo to działa – na granicach ścieżek nie ma już tak wyraźnych przerw jak kiedyś, ale są często przyciszenia czy trzaski. Czyli spieprzone jest nadal, tylko inaczej.

Wyszukiwarka wciąż słabo, ciut poprawiło się wyświetlanie wyników.

Dziury w katalogu – tu mamy dwie nowe „jakości”.

Przykład pierwszy: oto pojawił się nieobecny wcześniej album Mullovej i Gardinera z koncertami Beethovena i Mendelssohna. Ale, ale – z sześciu ścieżek na albumie, ile jest szarych, czyli niedostępnych?Tak, wszystkie sześć… Cudne, nie? Niby album jest, ale posłuchać go nielzia.

Przykład drugi: przyjrzyjmy się Requiem Verdiego pod Soltim.Kilka miesięcy temu pierwsza ścieżka była na szaro. A teraz na biało! Hosanna? Nie… wystarczy posłuchać – ktoś spodziewający się Pavarottiego będzie miał sporą niespodziankę. Spotify przekleiło pierwszą ścieżkę Requiem z innego wykonania! Bez żadnego ostrzeżenia – bo trudno za ostrzeżenie uznać dziwaczny znaczek obok dziwacznego wskaźnika obok czasu ścieżki. Bezczelne oszustwo – inaczej tego nie potrafię nazwać.

Czyli w sumie jest jeszcze gorzej niż było.

Chyba Marceli nie tak dawno dziwował się na Fejsbuku, że ktoś tam w TV zachwalał nową muzykę kogoś innego, i w drugiej dekadzie XXI wieku machał do kamery czymś tak przestarzałym jak płyta CD.

Nic do śmiacia, czasem nie ma wyjścia.

Bym chętnie płacił za dostęp do przyzwoicie zakodowanej muzyki przez sieć, ale Spotify psuje co może tylko zepsuć. Konkurencję jakąś oglądałem, nie było lepiej.

Bym chętnie kupował muzykę w plikach na własność, ale jak ma być własna, niech będzie bezstratna. Jedyny znany mi sklep, który sprzedawał interesującą mnie muzykę w bezstratnych plikach i miał sensowny katalog, czyli Passionato, po pierwsze słynął z marnej obsługi klienta i kłopotów z gapless (oni też!), po drugie zwinęli pliki i sprzedają CD.

I cóż mam zrobić? Mimo nowych wspaniałych możliwości sieciowo-chmurowo-technologicznych jestem skazany na kupowanie trzydziestoletniego wynalazku tylko po to, by go własnoręcznie zripować i zakodować do czegoś współczesnego. Jstesm skazany, dopóki ktoś się za to nie weźmie porządniej niż Spotify i Passionato – ale kto i kiedy?

Explicit

Do USA przyszło Spotify. Które na pierwszy rzut oka wydaje się wyjątkowo bliskie mojego ideału dostępu do muzyki. Ryczałtowa opłata miesięczna i dostęp do mnóstwa muzyki (najchętniej do CAŁEJ wydanej muzyki) przez sieć, w dobrej jakości i bez czekania. Spotify istnieje nawet w wersji bezpłatnej, która jednak ogranicza czas odsłuchu na miesiąc i zmusza do wysłuchania co kilka minut reklamy. Nawiasem mówiąc, strzelanie reklamą muzyki country w kogoś, kto na Spotify nigdy nie słuchał niczego poza poważką, jest raczej nieszczególnie mądre.

Wersja bezpłatna jest (niestety) napisana dość sprytnie i wrednie, nadmierne przyciszenie reklamy w programie lub w systemie wstrzymuje reklamę do czasu przywrócenia słyszalności… Na szczęście ja mam na to analogową gałkę, zresztą jakby się za to brać poważnie, to tylko bez-ogłoszeniowo, za kasę.

Co prędko nie nastąpi, bo jak nieomal wszystko, co żeni nowe technologie z muzyką, do muzyki poważnej Spotify nadaje się marnie.

Bo po każdym kolejnym rzucie oka Spotify okazuje się dalej od ideału. Mimo, że jest szybko i w przyzwoitej jakości.

Bo odtwarzacz Spotify nie umie odtwarzać bez przerw!!! W drugim dziesięcioleciu XXI wieku!!!!!!111 A przecież Spotify nie używa formatu mp3, pod tym względem głupio zaprojektowanego, tak że tylko kombinacja odpowiedniego nowoczesnego enkodera i odpowiedniego odtwarzacza zapewnia brak przerw. Spotify gra nowoczesny format Ogg Vorbis, z natury obsługujący odtwarzanie bez przerw, i poza lenistwem tych, co odtwarzacz pisali, nie ma żadnego usprawiedliwienia dla czknięcia między Adagio quasi un poco andante a Allegro w kwartecie Op. 131.

Bo informacje o ścieżkach ograniczają się do popowych tagów Title/Artist/Album, w dodatku z typowym bałaganem: pod Artist czasem wpisany jest kompozytor, czasem dyrygent, czasem soliści, czasem orkiestra, czasem jakaś kombinacja powyższych.

Bo interfejs jest marny. Lista utworów startuje ze zbyt wąskimi kolumnami Artist, Title, itd. Można je sobie niby poszerzyć, co z tego, kiedy nie jest to pamiętane, i przy przeglądaniu następnej płyty, czy po powrocie do tej samej, są wąskie jak były. W niektórych sytuacjach nawet nie można sobie poszerzyć.

Bo wyszukiwarka jest denna:

nie ma wyszukiwania po właściwych poważce polach, jak Composer czy Conductor (a można);

„gardiner beethoven symphony 5” nic nie znajduje, bo w tytuł wpisali „No.5”, a cóż to byłby za dziwny pomysł, by kropkę traktować jak separator;

„Musicalisches Opfer”, „Musikalisches Opfer”, „Musical Offering” to dla Spotify zupełnie różne utwory;

gdy zapytamy o coś w rodzaju Don Giovanniego Mozarta, czyli wieloczęściowy utwór z wieloma wykonaniami do wyboru, wyników nie da się sensownie przejrzeć. Dostajemy listę wszystkich ścieżek (kilkadziesiąt na wykonanie!), najpierw niekompletną, po przeskrolowaniu na koniec rosnącą stopniowo do rozmiarów kilometrowych, i nadal nie wiem czy kompletną. Owszem, nad listą ścieżek jest lista znalezionych albumów. Nawet w dwóch formach: tytuły albumów oraz obrazki okładek. Tytułów zmieściło się na moim ekranie aż 8 (niektóre wiele mówiace, np. Mozart – Don Giovanni by Wolfgang Amadeus Mozart). Obrazki są w jednym rządku, więc choć małe i nieczytelne, zmieściły sie dwadzieścia trzy. A wykonań Don Giovanniego Spotify ma więcej. Dupa.

Bo katalog jest przyzwoicie spory, ale nietrudno też namierzyć poważne luki. Koncerty fortepianowe Brahmsa, Gilels/Jochum – nie ma. Symfonie Beethovena pod Immerseelem – nie ma. Missa solemnis pod Gardinerem – nie ma. Herreweghe, pasje Bacha – nie ma żadnego z czterech nagrań. No proszę państwa.

Bo jest też inny, znacznie bardziej wkurzający rodzaj luk. Na 38 ścieżek składających się na komplet symfonii Beethovena pod Gardinerem dostępne jest tylko 15. Co z pozostałymi? The artist/label has chosen to make this track unavailable. If you have the file on your computer you can import it. Nosz jakbym już sobie to kiedyś kupił i miał na komputerze, przecież nie szukałbym na Spotify i nie rozważał płacenia abonamentu za dostęp! Oczywiście Beethoven Gardinera to nie wyjątek. Mesjasz pod Minkowskim – w zasadzie jest, ale He was despised i Surely he hath borne our griefs trzeba dokupić(?). Trzecia symfonia Saint-Saënsa pod Dutoit – z czterech części dostępna jedna (i to nawet nie ta z muzyką ze świnki Babe).

Więc może trochę się pobawię wersją bezpłatną. Ale dopóki te „bo” nie pójdą precz, dopóty moich pieniędzy Spotify nie zobaczy. Żaden produkt nie jest idealny (nawet foobar2000!), ale czy obsuwy nie mogłoby się ograniczać do takich jak na obrazku poniżej?

O dźwięku cyfrowanym

Zadeklarowałem jakiś czas temu chęć wskazania niedociągnięć w tekście Orlińskiego o MP3, który wyszedł niedawno w wyborcza.biz w dwóch częściach zatytułowanych Jak oszukać ludzkie ucho? Karlheinz Brandenburg opowiada jak stworzył MP3 oraz Jak snobizm i piractwo uratowały MP3.

Może by mi się chęć owa rozeszła po kościach, ale ^wo żalił się na blipie, że miała być hejtnotka, a nie ma, że dla jego Znanego i Szanowanego kolegi czas znalazłem w trymiga, i że wogle. Pod taką presją nie mogę się nie ugiąć, więc oto notka. Nawet nie bardzo hejt.

Bo w pierwszych słowach chciałem pochwalić pomysł i chęć napisania o MP3. Jestem entuzjastą opowieści o tym, jak rozmaite rzeczy działają i jaka historia za owymi rzeczami stała. Zawsze byłem – w dziecięctwie uwielbiałem książeczki o tym, jak działa samochód, a jak telewizor. O tym, jak Bertha Benz pojechała w demo-podróż samochodem konstrukcji męża, i jak John Baird zrobił pierwszy telewizor oparty na mechanicznej tarczy Nipkowa.

Opowieść o MP3 jak najbardziej podpada pod mój entuzjazm, kodowanie dźwięku cyfrowego metodą zwaną dziś MP3 to przecież sprytna rzecz, której używamy na codzień – jej samej, lub pokrewnych, w różnych aspektach ulepszonych, jak AAC czy Vorbis. I rzecz, która – jak wiele innych, ale zawsze warto o tym przypominać – nie wzięła się szast-prast znikąd, czy z natchnienia samotnego geniusza, lecz ze stania na ramionach gigantów.

Szejm przeto on Duży Format, który – jak bodajże na blipie powiedział ^wo – nie uznał tekstu za godny swoich łamów. Może ktoś uznał, że to takie nudne technikalia, że jak nie ma znanej twarzy humanistycznej, seksu, psychologii, religii, to się nikt nie zainteresuje. I historyjka wylądowała ni przypiął ni przyłatał w dodatku biznesowym.

Nie byłbym jednak sobą (a ponadto obietnice wypada choćby od czasu do czasu spełniać), gdybym się do tego czy owego w tekście Orlińskiego nie przyczepił. Bo parę rzeczy się znalazło, a cokolwiek smutne jest, że babole w sprawach okołodźwiękowocyfrowych jest w stanie wypatrzyć prosty biolog. Ciekawe, co znalazłby psychoakustyk, czy elektroakustyk.

A przy okazji, mam nadzieję, uda mi się opowiedzieć o pewnych konceptach stojących za MP3 (i nie tylko), na które nawet w porządniej napisanym artykule do DF czy biznesowego dodatku nie znalazłoby się miejsce.

Zacznijmy od drobiazgów. Pisze Orliński:

Nie miał on żadnej karty dźwiękowej, ale Brandenburg dolutował kolejnymi kabelkami tzw. przetwornik analogowo-cyfrowy, który udało mu się z kolei podłączyć do głośników.

Już na blogu WO ktoś zauważył, że w tę stronę to raczej przetwornik cyfrowo-analogowy, a ja jeszcze dorzucę, że raczej nie wprost do głośników, bo przetworniki cyfrowo-analogowe muszą być podłączone do odbiornika o wysokiej impedancji, a do takich głośnik nie należy. Musiał więc być wzmacniacz pomiędzy.

To drobiazg, idźmy jednak dalej.

Karlheinz Brandenburg, wciąż jeszcze jako doktorant, zostaje członkiem zespołu pracującego nad projektem EU-147. Jest cennym nabytkiem dla zespołu, bo jako pierwszy stawił czoła problemowi połączenia świata humanistycznego (do którego należy psychoakustyka) ze światem lutownicy i terminalu komputerowego.

Ajajaj. Gdzie humanistyka, gdzie psychoakustyka. Granice dziedzin bywają dyskusyjne, ale chyba zgodzimy się, że humanistyka bada człowieka w aspektach kulturowych, społecznych, historycznych. Psychoakustyka natomiast nie jest historyczna, nie ma dba o społeczne konteksty, bada naturę, a nie kulturę.  To dziedzina ścisła, przyrodnicza, ilościowa, to gałąź psychofizyki badająca ilościowe związki między fizycznymi parametrami dźwięków, a ich percepcją przez człowieka (i nie tylko). Nazwa nie myli, psychoakustyka stoi na pograniczu akustyki i psychologii, ale psychologii ścisłej, eksperymentalnej, tej najdalszej humanistyce. Zresztą chyba wystarczy popatrzeć na typowy artykuł psychoakustyczny, by przynależność psychoakustyki do science stała się oczywista. Pod linkiem jedna strona z Shailer MJ i Moore BCJ (1983) Gap detection as a function of frequency, bandwidth, and level. Journal of the Acoustical Society of America 74: 467-473.

Wiedziałem, że doktorat Brandenburga zakończył się w 1989 r. sukcesem – wynalezieniem systemu kodowania muzyki OCF (Optimum Coding Frequency), praprzodka MP3.

Nie, nie. OCF to skrót od Optimum Coding in the Frequency Domain – różnica niby drobna… czyżby? Przetłumaczmy.

Wersja Orlińskiego: „optymalna częstotliwość kodowania”. Czyli dokonuje się jakiegoś kodowania, z jakąś częstotliwością (ileś razy na sekundę), a doktorat Brandenburga odpowiada na pytanie jaka częstotliwość kodowania jest najlepsza.

Wersja Brandenburga: „optymalne kodowanie w dziedzinie częstotliwości”. Czyli doktorat Brandenburga odpowiada na zupełnie inne pytanie: jakie kodowanie (dokonywane w dziedzinie częstotliwości) jest najlepsze. Jednak istotna różnica, nieprawdaż?

W rozpoczynającej się obecnie dygresji spróbuję wyjaśnić pokrótce (ha, ha), o co chodzi z ową dziedziną częstotliwości. Na ile sam to, biolog w końcu prosty, rozumiem. Jak przyjdzie Andsol lub inni matematycznie sprawni, może pojawią się w komentarzach poprawki oraz załamywanie rąk nade mną, jako i ja załamuję nad Orlińskim. Zobaczymy.

Otóż rozmaici mądrzy ludzie w wieku XVIII i XIX (za wiki: babilończycy [przed XVIII wiekiem, naturalnie], Clairaut, Lagrange, Gauss, Bernoulli, Euler, i wreszcie Fourier którego nazwisko się najsilniej z tematem związało, giganci więc, na ramionach których Brandenburg stawał) obmyślili metody przedstawiania rozmaitych funkcji jako sumy prostych funkcji trygonometrycznych, sinusów i kosinusów.  Po co? Bo rozmaite obliczenia i inne zabiegi łatwiej przeprowadzić na sumie, czy złożeniu prostych funkcji, niż na jednej, za to wściekle zawiłej.

Jak takie złożenie wygląda? Na prostym przykładzie, o to dwie funkcje sinus, górna ma mniejszą częstotliwość (lata z góry na dół rzadziej), dolna ma większą częstotliwość. Górna jest większa, ma większą amplitudę (lata z góry na dół dalej od środka), dolna ma mniejszą amplitudę.

Jeżeli je ze sobą złożymy, czyli do siebie dodamy, dostaniemy coś takiego:

Spryt Fouriera i całej kompanii gigantów polegał na znalezieniu matematycznych metod rozdzielania złożonej funkcji na proste składowe, oraz pokazaniu, że każdą, nawet wściekle zawiłą funkcję, możemy rozłożyć na składowe o różnych częstotliwościach i amplitudach, o ile użyjemy tych składowych wystarczająco dużo. Oto przykład z wiki pokazujący, jak składając coraz więcej sinusów i kosinusów zbliżamy się do funkcji o kształcie prostokątnym.

Co to ma do dźwięku? Otóż dźwięk jest właśnie taką wściekle zawiłą funkcją. Dźwięk, to drgania powietrza, to malutkie i szybkie zmiany ciśnienia powietrza. Przebiegające, jak już wspomniałem, zawile. Oto przebieg zmian ciśnienia powietrza w ciągu około 25 tysięcznych sekundy, pochodzący z nagrania Sarabandy z pierwszej partity na skrzypce solo Bacha (gra Shlomo Mintz):

Narysowałem zmiany ciśnienia w czasie, skala na dole to minuty:sekundy.milisekundy nagrania. Czyli jest to sygnał przedstawiony w dziedzinie czasu. Niewiele tu można ciekawych rzeczy wypatrzeć. Ale rozłóżmy, przy pomocy przekształcenia Fouriera, powyższą zawiłość na proste trygonometryczne funkcje, na sinusy. I narysujmy sobie, jak mocne wyszły nam poszczególne sinusy.

Moglibyśmy narysować wszystkie potrzebne sinusy jeden pod drugim, tak jak to zrobiłem powyżej, pokazując dwa sinusy przed złożeniem. Nie miałoby to jednak specjalnie sensu, i to z dwóch powodów. Po pierwsze do rozłożenia zawiłej funkcji wyprodukowanej przez Mintza w ciągu 25 milisekund potrzeba okropnie wielu sinusów. Po drugie, taki obrazek pokazywałby dla każdego sinusa jego częstotliwość, amplitudę oraz kształt. A po co marnować miejsce na obrazku na kształt sinusa? Wszak jeśli się widziało jednego, widziało się wszystkie.

Narysujemy to inaczej. Na osi poziomej będą częstotliwości kolejnych sinusów, na które rozłożyliśmy Mintza. Osi pionowej użyjemy do oznaczenia, jak mocne są poszczególne sinusy, czyli jaka jest ich amplituda. Wuala:

Oto nasz fragmencik Bachowskiej partity przedstawiony w dziedzinie częstotliwości (uważny czytelnik może zauważyć, że użyłem tutaj nieco dłuższego fragmenciku niż narysowany w dziedzinie czasu, nie pokazałem też całego zakresu częstotliwości, wszystko gwoli większej czytelności).

Jakiż pożytek, zapytacie, z przerobienia dziwnych zielonych bazgrołów na dziwne różowe bazgroły? Z punktu widzenia Brandenburga ślęczącego nad doktoratem, z punktu widzenia kodowania MP3 taki, że w dziedzinie częstotliwości dalszą analizę zapisanego dźwięku, dalsze zabiegi mające na celu zmniejszenie objętości zapisu dźwięku (bo o to wszak w MP3 chodzi) przeprowadza się łatwiej, niż w dziedzinie czasu.

Ale i my możemy w wersji różowej łatwiej dostrzec pewne zjawiska niż w zielonej. Dwa najwyższe czubki czy piki naszego wykresu, te po lewej, pokazują dwa najmocniejsze sinusy, na które rozłożyl się nam nasz fragment sarabandy. Jak widać z wykresu, mają one częstotliwość około 370 Hz i około 595 Hz (Hz czyli herc oznacza raz na sekundę). Pozwala nam to powiedzieć, że w tym momencie nagrania Mintz grał jednocześnie dwie nuty, jedna struna skrzypiec wibrowała z częstotliwością 370 razy na sekundę, druga z częstotliwością 595 razy na sekundę. Popatrzmy w nuty:

Mintz gra tu pierwszy akord powyższego taktu, w tonacji h-moll, czyli powinien grać nuty h, fis’ i d”. Częstotliwości tych nut w stroju równomiernie temperowanym to odpowiednio 246,9 Hz, 370 Hz i 587,3 Hz. Biorąc pod uwagę, że na skrzypcach gra się raczej w stroju naturalnym, jak również możliwość drobnych odchyłek intonacyjnych wykonawcy oraz dokładność pomiaru, możemy uznać, że znaleźliśmy fis’ i d”. Gdzie się podziało h? Na skrzypcach normalnie da się pociągnąć smyczkiem najwyżej po dwóch strunach jednocześnie. Akordy złożone z trzech (lub czterech dźwięków) gra się zazwyczaj zaczynając od krótkiego zagrania niskiej nuty (lub dwóch niskich nut) i przeskakując natychmiast na dwie wyższe (na wyżej brzmiących strunach). Skrzypkowie mogą załamać ręce nad prostym biologiem w komentarzach. Jeśli nadal czytasz, wpisz w komentarzu słowo derkacz. Nasza analiza dotyczy momentu po przeskoczeniu, Mintz gra w tym momencie tylko dwie wyższe nuty akordu, h zagrał przed momentem, i zdążyło już zaniknąć. Nieco wcześniej, na początku akordu, dźwięk przedstawiony w dziedzinie częstotliwości wyglądał tak – h około 250 Hz widać bardzo pięknie. Wszystkie te zjawiska możemy zauważyć dzięki przedstawieniu dźwięku w dziedzinie częstotliwości, w dziedzinie czasu, na zielonym wykresie, po prostu ich nie widać.

Na tym dygresję zakończymy, a odpowiedzi nasuwające się zapewne wielu pytanie „a co to są te wszystkie pozostałe piki” udzielimy może kiedyś w innej notce.

Dygresja pokazała, mam nadzieję, czym jest reprezentacja dźwięku (czy w ogóle sygnału) w dziedzinie częstotliwości, do czego może ona służyć, a więc jak ważną część historii zgubił Orliński skracając rozwinięcie skrótu OCF.

No i ostatni fragment, nad którym mam ochotę załamywać ręce.

Od dawna było wiadomo, że ludzkie ucho nie potrzebuje całości docierającej do niego informacji. Zajmowała się tym dziedzina wiedzy zwana psychoakustyką. Wiedziałem więc, że ucho można oszukać, tak jak oszukujemy oczy, wyświetlając 25 nieruchomych obrazków – a nam się wydaje, że oglądamy ciągły film.

Podobnie działa kodowanie muzyki. Zamiast kodować całość nagrania, wystarczy kilka- lub kilkadziesiąt tysięcy razy na sekundę robić tak zwane próbkowanie, czyli zapis dźwięku w danej chwili. Czego ucho nie usłyszy, to mózg dopowie, tak jak mózg wypełnia nam brakujący ruch na taśmie filmowej.

Może ja słabo rozumiem słowo pisane, ale moim zdaniem fragment ten, w kontekście w jakim go umieszczono na drugiej stronie pierwszej części tekstu Orlińskiego, miał tłumaczyć istotę MP3, istotę kodowania, które pozwala nam zaoszczędzić wiele miejsca na naszych odtwarzaczach. Niestety, tłumaczy on zupełnie co innego, w dodatku raczej źle.

Skąd się bierze w ogóle dźwięk w postaci cyfrowej, w komputerze, na płycie CD, w pamięci odtwarzacza MP3? Jaką drogę przechodzi, od szybkich i drobnych zmian ciśnienia powietrza, do czegoś, co można zapisać celem odtworzenia po jakimś czasie?

Najpierw rys historyczny (żeby było humanistyczniej). Najprostszy zapis dźwięku można zrealizować następująco: bierzemy cienką membranę, którą drobne zmiany ciśnienia powietrza (dźwięk!) będą wprawiać w drobne ruchy. Do membrany mocujemy sztyfcik, który, poruszany przez membranę w takt zmian ciśnienia, wycina ślad w plastycznym, przesuwającym się materiale. Gdy ciśnienia chwilowo wzrasta, sztycik wsuwa się w materiał, ślad jest głębszy. Gdy ciśnienie się zmniejsza, sztyfcik się cofa, ślad jest płytszy. Potem możemy taki zapis odtworzyć w analogiczny sposób. Zmuszamy sztyfcik by podążał za wyrzeźbionym uprzednio śladem, sztyfcik wprawia w ruch membranę, membrana wprawia w ruch powietrze, i słyszymy, cośmy nagrali. Tak działały pierwsze fonografy i patefony. Przy czym w ramach postępu zmieniono kierunek ruchu sztyfcika czy igły z pionowego na poziomy.

Sztyfcik pędzący membranę miał małą skuteczność, dźwięk był słaby. Krokiem kolejnym było zaprzęgnięcie do roboty prądu elektrycznego, który nauczono się w międzyczasie wzmacniać. Zmiany ciśnienia powietrza zamieniano na zmiany prądu elektrycznego za pomocą mikrofonu, prąd z kolei mógł napędzać urządzenie nacinające rowek w płycie. Podobnie igiełka drgająca według kształtu rowka nie napędzała już wprost membrany. Za pomocą cewek i magnesów wytwarzała prąd, który następnie, po niemal dowolnym wzmocnieniu i przesłaniu na niemal dowolną odległość, napędzał membranę (pojawił się nam głośnik!), która z kolei powodowała zmiany ciśnienia powietrza, czyli dźwięk. Tak działały, i dotąd działają, gramofony.

Innym konceptem był zapis magnetyczny, najpierw na drucie stalowym, potem na taśmie papierowej pokrytej drobinkami magnetycznymi, wreszcie na taśmie z tworzywa sztucznego z magnetyczną powłoką. Prąd z mikrofonu po wzmocnieniu wytwarzał pole magnetyczne, które ustawiało kierunek namagnesowania na przesuwającej się taśmie. A potem przesuwająca się namagensowana taśma generowała w odpowiednim urządzeniu prąd elektryczny (pamiętacie ze szkoły: indukcja, reguły różnych rąk, te sprawy), który po wzmocnieniu ruszał membraną głośnika. Tak działały (czas przeszły praktycznie usprawiedliwony) magnetofony.

Wszystkie powyższe metody zapisu są analogowe. Na każdym etapie istnieje prosta odpowiedniość między dźwiękiem, czyli przebiegiem zmian ciśnienia powietrza, a jakąś fizyczną wielkością. Gdy ciśnienie jest większe, rowek jest głębszy lub przesunięty bardziej w jedną stronę, napięcie elektryczne wyższe, ustawienie cząsteczek magnetycznych bardziej w którąś stronę. Gdy ciśnienie jest mniejsze, prąd płynie w drugą stronę, rowek jest płytszy, cząstki magnetyczne ustawione inaczej. Zapis jest analogowy i ciągły, nieprzerwany – dla każdego wyobrażalnego momentu w czasie rowek gdzieś się znajduje, napięcie elektryczne ma jakąś wartość. Gdzieś tam pod spodem są oczywiście nieciągłe atomy i elektrony, podobnie jak naprawdę nieciągłe jest ciśnienie powietrza, biorące się z uderzeń pojedynczych cząsteczek gazów – ale dzieje się to w tak drobnej skali, że możemy w praktyce mówić o ciągłości.

Ta odpowiedniość, analogiczność zapisu z dźwiękiem została zerwana w zapisie cyfrowym. Polega on na próbkowaniu, czyli na mierzeniu i notowaniu wartości tego, co mierzymy, w pewnych, równych odstępach czasu. Innymi słowy z pewną częstotliwością, zwaną częstotliwością próbkowania. W przypadku dźwięku mierzymy ciśnienie powietrza, a tak naprawdę, jak zwykle w naszej elektrocentrycznej cywilizacji, mierzymy napięcie wyprodukowane przez mikrofon, napięcie, którego przebieg odpowiada przebiegowi ciśnienia powietrza. Czytających proszę o wpisanie do komentarza słowa dyrdymały. Wynik pomiaru, ciąg zapisanych liczb, w żaden sposób fizycznie nie odpowiada przebiegowi dźwięku. Jest tylko jego abstrakcyjną reprezentacją. Jest jego liczbowym opisem. Który możemy przetworzyć w inny, równie abstrakcyjny opis, nie tracąc nic z informacji (na przykład 3952 → MMMCMLII → 0x0F70 → dreitausendneunhundertzweiundfünfzig). Co więcej, zapis jest nieciągły, inaczej mówiąc dyskretny, wartości istnieją tylko dla momentów, w których zostały zmierzone, między nimi nic nie ma. Nic a nic.

I jeszcze jedno – ponieważ zapis cyfrowy nie odpowiada fizycznie dźwiękowi, procesu odtwarzania dźwięku zapisanego cyfrowo w zasadzie nie powinien nazywać się odtwarzaniem. Odpowiednie urządzenie, jak pamiętamy dzięki Orlińskiemu poprawiającemu Orlińskiego komentatorowi na jego blogu, zwane przetwornikiem cyfrowo-analogowym, tak naprawdę na podstawie liczbowego opisu na nowo wytwarza dźwięk napięcie elektryczne, następnie przetwarzane poprzez wzmacniacz i głośnik na dźwięk.

No dobrze, zapytacie, ależ czyż nie toż samoż o próbkowaniu napisałże Orliński? Plus minus to samo. To czemu się go czepiasz? Z dwóch powodów.

Po pierwsze, nie jest prawdą, że z powodu nieciągłości próbkowania „czego ucho nie usłyszy, to mózg dopowie”. Dzięki kolejnej porcji gigantów (Whittaker, Kotielnikow, Nyquist, Shannon) mamy twierdzenie o próbkowaniu, zwane często twierdzeniem Nyquista-Shannona (lub inną kombinacją gigancich nazwisk). Twierdzenie to mówi nam (w wersji udelfinionej na nasze potrzeby), że sygnał zawierający składowe (znów Fourier się kłania) o częstotliwościach nie większych niż B może zostać wiernie zapisany za pomocą próbkowania z częstotliwością próbkowania 2B.  Wiernie – czyli mózg nic nie musi dopowiadać, mimo próbkowania, mimo że między momentami pomiaru nic nie ma, informacja jest wystarczająca do pełnego odtworzenia sygnału. Czyli w naszym przypadku, dźwięku.

Jeśli kiedykolwiek, powodowani niezdrową ciekawością, zaglądaliście w właściwości plików dźwiękowych na waszym komputerze (raczej za pomocą programów do obróbki dźwięku, sam system niechętnie pokazuje takie technikalia), może zauważyliście, że częstotliwość próbkowania wynosi często 44100 Hz. Taką częstotliwość próbkowania przyjęto dla płyt CD, z których wszak wiele plików dźwiękowych pośrednio czy bezpośrednio pochodzi. Jak wynika z twierdzenia o próbkowaniu, częstotliwość próbkowania 44100 kHz zapewnia zapis składowych dźwięku o częstotliwościach od 0 do 22050 Hz. Jako że ludzie słyszą dźwięki o częstotliwościach w porywach do 20000 Hz (i to raczej dzieciątka niewinne, w wieku dojrzalszym częściej spotkamy granicę 16000 Hz, czy coś koło tego), częstotliwość próbkowania przyjęta dla CD wystarcza z zapasikiem, by zapisać i odtworzyć słyszalne dla człowieka dźwięki. (O modzie na supertweetery oraz częstotliwości próbkowania 96 i 192 kHz, jak i o niespodziewanych beneficjentach tej mody, pogadamy innym razem).

Inne informacje, jakie niezdrowy ciekawski może wyczytać we właściwościach plików dźwiękowych, to mono/stereo (wiemy o co chodzi, prawda?) oraz liczba bitów. Liczba bitów, w dzisiejszych czasach występująca niemal wyłącznie jako 16, rzadko 24 lub 32, historycznie 8, mówi nam o kolejnym praktycznym ograniczeniu zapisu cyfrowego. Związane jest ono z tak zwaną kwantyzacją. Chwilę o tym pomówimy, później się przyda. Otóż, gdy w czasie próbkowania mierzymy nasz sygnał, każdy wynik pomiaru musimy gdzieś zapisać, jako liczbę w komórce pamięci komputera, czy innego rejestratora. Komórki te mają pewną wielkość, mierzoną w tych właśnie tajemniczych bitach. Jeżeli bitów jest 8, liczba wynikająca z pomiaru może mieć jedną z 256 wartości (najczęstsza konwencja to 0 do 255, bez ułamków). Gdy bitów jest 16, wartości jest 65536 (typowa konwencja tym razem to -32768 do 32767), i tak dalej.

Z liczby bitów wynika możliwa do uzyskania dynamika sygnału. Uch, kolejne dziwne słowo. W dodatku dynamika, o której mowa, nie ma nic wspólnego z potocznym znaczeniem słowa dynamiczny. Dynamika mówi nam, jaka jest możliwa rozpiętość głośności dźwięków (ogólnie sygnałów). Inaczej mówiąc, o ile najgłośniejsze „mieszczące się” dźwięki są głośniejsze od najcichszych, jakie da się zapisać. Dlaczego to ważne? Bo muzyka się składa z dźwięków cichych i głośnych, a chcemy zapisać je wszystkie! Ot, na przykład patrzę sobie teraz na nagranie IX symfonii Beethovena, gdzie najcichsze dźwięki są o jakieś 60 decybeli (dB) cichsze od nagłośniejszych. Ile bitów nam potrzeba? To się da policzyć.

Spróbujmy z ośmioma bitami. Najgłośniejszy sygnał jaki możemy zapisać używając 8 bitów, t0 sygnał rozciągający się na 256 jednostek, od 0 do 255. Najcichszy, to taki, który drga tylko między dwoma sąsiednimi wartościami, np 127 i 128. Amplituda pierwszego to 256 jednostek, drugiego – jedna jednostka. Na decybele to będzie 20*log10(256/1)≈48 dB (co to jest decybel, dlaczego nie jest to po prostu jednostka natężenia dźwięku, dlaczego czasem we wzorze jest 20 a czasem 10, i dlaczego decybele mogą być ujemne, opowiemy sobie innym razem). To już chyba wiemy, czemu zapis dźwięku w 8 bitach ma znaczenie historyczne.  Skutkiem tak małej dynamiki jest wyraźnie słyszalny szum (szum kwantyzacji), w którym giną cichsze fragmenty muzyki.

Weźmy 16 bitów: 20*log(65536/1)≈96 dB, czyli pięknie starcza na zapisanie Beethovena. I to jest właśnie najczęściej używana wartość, i jednocześnie wartość, jakiej używają płyty CD. O tym czy i po co warto używać 24 czy 32 bitów, też innym razem. Na zakończenie tego fragmentu poproszę o zapamiętanie, że zapisywalna dynamika zależy od liczby bitów, że gdy jest ich mało to będzie słychać szum kwantyzacji (ale plik zajmie mniej miejsca). I dodam dla porównania z CD, że dynamika najwyższej klasy gramofonów czy domowych magnetofonów oceniana jest na około 70 dB. I jeszcze, że tak działa próbkowanie metodą liniowej modulacji impulsowo-kodowej (LPCM), używaną w komputerach, odtwarzaczach CD, DVD. Z domowych urządzeń inną metodą (zwaną DSD) posługują się odtwarzacze SACD, dość powiedzieć, że używają zapisu jednobitowego, za to z częstotliwością ponad 2800 kHz.

A jaki jeszcze błąd popełnił Orliński w ostatnim fragmencie, poza twierdzeniem, że mózg coś musi dopowiadać? Taki mianowicie, że próbkowanie, o którym opowiedział, a o którym ja opowiedziałem nieco więcej, nie jest istotą MP3, nie jest istotą dokonań Brandenburga. Samym próbkowaniem doszliśmy na razie do płyty CD, do cyfrowego dźwięku nieskompresowanego. Tam, gdzie Orliński zakończył swój opis, MP3 dopiero się tu zaczyna.

Po co w ogóle MP3? Po to, że nieskompresowany dźwięk zajmuje dużo miejsca – w pamięci, na dysku, w kabelkach internetu. Jedna minuta zapisana z parametrami takimi, jak na płycie CD, to około 10 MB (44100 próbek na sekundę, razy dwa bajty (16 bitów), razy dwa kanały (stereo), razy 60 sekund, proszę sobie policzyć). Pamiętam pierwsze twarde dyski do pecetów, cały dysk miał 10 MB. Dziś szybkość zapisu dźwięku cyfrowego często podajemy jako przepływność (kocham to słowo), z angielska bitrate, w kilobitach na sekundę (kbps). Muzyka na CD to prawie 1400 kbps. Z internetem łączono się kiedyś przez modemy telefoniczne osiągające 56 kbps, mój pierwszy „szerokopasmowy” internet miał bodajże 768 kbps. Widać w czym był problem, prawda?

Trzeba było te pliki dźwiękowe jakoś zmniejszyć, skompresować. Ludzie wiekowi jak ja zapewne pamiętają programiki pod DOS o nazwach pkzip i pkunzip, pierwsze programy do kompresowania i rozkompresowania plików używaną do dzisiaj metodą (czy grupą metod) ZIP. Dlaczego nie użyć tej metody do kompresowania dźwięku? Cóż, typowe metody kompresowania polegają na technikach takich, jak wynajdywanie w kompresowanych plikach powtarzających się fragmentów. W cyfrowym dźwięku takie fragmenty występują bardzo rzadko. I użycie zwykłych metod kompresji rzadko zmniejsza pliki dźwiękowe więcej niż o 10%. Zmniejszenie objętości minuty muzyki z 10MB do 9MB to wątpliwej klasy osiągnięcie.

Pewien postęp nastąpił po wynalezieniu metod kompresji specjalnie zaprojektowanych do muzyki. Korzystały one na przykład z faktu, że typowe pliki muzyczne są plikami stereo, a informacja w kanale lewym jest zazwyczaj podobna do informacji w kanale prawym. Mój pierwszy kontakt z takimi metodami kompresji to rosyjski program do kompresji RAR, który wprowadził „Multimedia compression”. Zdarzało się uzyskać 50% zmniejszenie wielkości pliku. Łał. Po wielu latach w zasadzie nie umiemy zrobić tego znacząco lepiej, współczesne algorytmy kompresji bezstratnej dźwięku (FLAC, Monkey Audio, WMA Lossless czy ALAC) zazwyczaj osiągają około 50-60%. Rzut oka na moje zbiory we FLAC pokazał wartości od 450 do 900 kbps, najtrudniej (nadal, jak za Brandenburga) kompresuje się klawesyn solo. Suzanne Vega nie posiadam. Postęp od RAR dokonał się bardziej na polu dostosowania formatów do specyfiki odtwarzania muzyki – możliwość dekompresji „w locie”, w trakcie odczytywania pliku, czy dopisania „tagów” opisujących utwór muzyczny, niż w stopniu skompresowania.

Zmniejszenie minuty muzyki z 10 do 5 MB, z 1400 do 700 kbps, to ciągle niezbyt dużo, i z pewnością nie byłoby to wystarczające, w czasach, gdy Brandenburg zaczynał doktorat, przy wielkościach dysków wówczas używanych. „Byłoby”, bo wtedy FLACów i ALACów jeszcze nie było, to historia XXI wieku. A nawet gdyby były, ówczesne komputery nie udźwignęłyby ich obliczeniowo. Pamiętajmy też, że skompresowany plik dźwiękowy trzeba rozpakowywać wystarczająco szybko, by nadążyć za muzyką. Zapuszczenie na noc rozkompresowania czterominutowej piosenki po to, by jej rano przez cztery minuty posłuchać, nie jest fajne. Trzeba więc było wymyśleć coś innego.

I tu na scenę wkracza Brandenburg, Optimal Coding in the Frequency domain, i giganci psychoakustyki. Którzy zajmowali się między innymi zjawiskiem maskowania. Polegającym z grubsza na tym, że jeden dźwięk może zagłuszyć inny. Niby banalna obserwacja, ale skrupulatne pomiary, jakie muszą być relacje między dźwiękami, by nastąpiło maskowanie, przyniosły wiedzę o funkcjonowaniu ludzkiego ucha (punkt wyjścia do guglania: pasma/wstęgi krytyczne, critical bands), i pomogły Brandenburgowi. Wiemy na przykład, że dźwięki głośne szczególnie dobrze maskują dźwięki o podobnych częstotliwościach, a słabiej dźwięki o odległych częstotliwościach. Wiemy, że maskowanie może też dotyczyć dźwięków niejednoczesnych. Wiemy, też że dźwięki bardzo niskie a ciche, jak i bardzo wysokie a ciche, w ogóle nie są słyszalne. Za to składowe o częstotliwościach około 1-4 kHz słyszymy wyjątkowo dobrze. Dużo tego typu rzeczy wiemy.

Taka wiedza psychoakustyczna pozwoliła na zaprojektowanie kompresji stratnej dźwięku. Użyłem tu słowa „stratna”, trzy akapity wyżej wspomniałem o kompresji „bezstratnej”, najwyższa pora wyjaśnić, o co idzie. Kompresja bezstratna to taka, której wynikiem (a raczej wynikiem pary kompresja-a-następnie-dekompresja) jest informacja dokładnie identyczna z informacją, która była kompresowana. Nie ma żadnej różnicy. Tak działa ZIP, tak działa FLAC czy ALAC. Natomiast wynikiem kompresji-a-następnie-dekompresji stratnej jest informacja inna od informacji początkowej. Obrazek po kompresji JPEG różni się ciut od obrazka przed kompresją. Plik dźwiękowy uzyskany po dekompresji MP3, Vorbis, AAC czy WMA różni się nieco od tego, który został skompresowany.  Coś zostało zmienione, wyrzucone, stracone. Stratę tę równoważy jednak zysk w możliwym do uzyskania stopniu kompresji. Pamiętamy, na płycie CD mamy 1400 kbps, kompresją bezstratną możemy to zmniejszyć do 500-700 kbps. Kompresja stratna może więcej, choć im niższa wartość kbps, tym większa szansa usłyszenia niekoniecznie przyjemnej różnicy od oryginału. Pliki MP3 128 kbps (ponad 10-krotnie mniejsze od oryginału CD!) zazwyczaj dają się nieźle słuchać. 192 kbps – mało kto odróżni od CD. 256, 320 kbps – chyba nikomu nigdy nie udało się odróżnić, w każdym razie przy słuchaniu muzyki, a nie specjalnie spreparowanych sygnałów. A miejmy na uwadze, że formaty nowocześniejsze niż MP3 (AAC, Vorbis) zazwyczaj radzą sobie jeszcze lepiej.

Jak to działa, co się dzieje od momentu, w którym Orliński porzucił nasz zakodowany cyfrowo, ale wcale jeszcze nie skompresowany dźwięk? Pisząc w przybliżeniu (czekam na specjalistów od MP3, co załamią nad prostym biologiem ręce): cyfrowy dźwięk jest dzielony na krótkie odcinki. Każdy odcinek jest rozkładany na składowe o różnych częstotliwościach przy pomocy cyfrowych filtrów. Każda składowa jest analizowana (pamiętacie jeszcze Fouriera? – jeśli tak, wpiszcie słowo degrengolada do komentarza) za pomocą przekształcenia pokrewnego przekształceniu Fouriera. Następnie przy pomocy modelu psychoakustycznego oceniana jest słyszalność poszczególnych składowych, czy to z racji znajdowania się poza pasmem słyszalności (za niskie/wysokie i jednocześnie za ciche by ktokolwiek je usłyszał), czy to z racji maskowania przez inne dźwięki. Można to porównać do dobierania liczby bitów użytej to zakodowania poszczególnych składowych tak, aby szum kwantyzacji (pamiętacie?) był jak największy (jak najmniej bitów), ale nadal niesłyszalny – bo zamaskowany przez inne dźwięki. Stosowane są też inne mechanizmy, na przykład algorytm może skorzystać z podobieństwa lewego i prawego kanału. Na koniec cała opracowana, pozbawiona niesłyszalnych (oby) składowych, informacja o dźwięku jest dodatkowo kompresowana metodą bezstratną, i mamy śliczną paczuszkę dźwiękową, rozmiaru 10-20% oryginału, gotową do odtworzenia, i zajmującą wygodnie niewiele miejsca na dysku czy w pamięci odtwarzacza mp3.

Pozdrowienia dla tych, którzy dotarli ze mną do końca!

%d bloggers like this: