Miski do mleka

Masajowie uważają, iż mycie wodą naczyń do mleka daje mleku przykry zapach; dlatego myją te naczynia w krowim moczu. Za Kopalińskim

Category Archives: mistrzowie kompetencji

O co szło?

Zanim ktoś zarzuci, że nie mam prawa komentować czy oceniać 11-listopadowych rozrób – bo mnie tam nie było, bo siedzę za oceanem i nic przecież z PL nie rozumiem, bo nie mam dostępu do faktów, tylko do spaczonych doniesień medialnych, odpowiadam: bzdura. Istotą zdarzeń w Warszawie nie jest to, kto naprawdę pierwszy napluł na kogo, i jaką narodowo śliną. Istotą jest to, co poszło w świat. To, jaką opinię o kolorowych czy narodowych wyrobi sobie oglądacz czy czytacz z oddali. Co tam się rzeczywiście działo, w zasadzie nie ma znaczenia – bo to nie rzeczywistość trafia do opinii publicznej, i opinię opinii kształtuje, czyni to imydż.

Zresztą rzeczywistość jest po prostu niedostępna. Że w mediach jej nie ma, to oczywiste – porównanie “sprawozdań na żywo” Rzepy i GW było niesłychanie zabawne. Ale i relacje uczestników wydarzeń tak naprawdę nie mają zbyt dużej wartości, bo przecież podlegają rozmaitym cognitive biases. Wiadomo wszak, że oplucie ich przez nas to usprawiedliwiona samoobrona wsparta słusznością ideologiczną, i przecież to tylko niewinne oplucie, nie róbmy wideł. A oplucie nas przez nich to brutalny bezpardonowy atak za pomocą niebezpiecznego narzędzia, atak nie tylko na nas, ale i na najświętsze wartości cywilizacji, potwierdzający ich niższość moralną i wszelką inną.

Wracając więc do imydżu, pozostaje dla mnie zagadką, pokazanie jakiego imydżu było intencją organizatorów blokady, jakie miało być jej przesłanie dla opinii publicznej?  Przemyślałem kilka możliwych wytłumaczeń.

Może wcale nie było przesłania, może nie była to forma dialogu (czy nawet monologu) z kimkolwiek z zewnątrz, może demonstracja była najzwyczajniejszą ekspresją radości z niepodległości, całkiem niezależną od narodowców. Pewne fakty jednak temu przeczą. Demonstracja bez wątpienia była blokadą – ustawioną na konfrontację z marszem narodowców, i nie zmienia tego podobno wcześniejsze jej zgłoszenie. Od początku przecież reklamowano ją jako “blokadę”, a jej usytuowanie, świetnie widoczne tutaj – w miejscu nijakim, zdefiniowanym wyłącznie przez “w poprzek ulicy”, jej ustawienie od ściany do ściany, nieomal w barykadę – nie budzi chyba wątpliwości co do celu. Zresztą, nawet gdyby cel był jedynie wewnętrzny, jakaś myśl o tym, co sobie pomyślą inni, o wynikającym imydżu, powinna być obecna.

Czy była więc demonstracja próbą dialogu z narodowcami, dialogu potencjalnie nawracającego? Nie mogła być, bo nikt przy zdrowych zmysłach nie rozpoczyna dialogu od zachowania konfrontacyjnego. Nawracanie ogniem i mieczem, siarką i żelazem wyszło raczej z mody, a konfrontacja prędzej zrodzi usztywnienie postaw i eskalację sporu, niż przemyślenie i nawrócenie, Przypomina mi się historyjka z młodości. Liceum zaczynałem za komunistycznego reżimu, i było to liceum o tradycjach anty. To u nas maturę zdawała najbardziej znana (po żoliborskim księdzu, oczywiście) ofiara śmiertelna reżimu w latach 80-ych. Dla zrównoważenia licealnych tradycji, za moich czasów ster szkoły dzierżyła pani o poglądach twardych i jak najbardziej zgodnych z władzą. Gdy zaczęły świtać jutrzenki, grupa zaangażowanych uczniów, pragnąc zapewne załapać się na późny styropian, udała się do dyrekcji domagając się zezwolenia na założenie niezależnego – ale nie podziemnego – czasopisma szkolnego. Konfrontacja z dyrektorką miała oczywisty cel narobienia szumu, fajowej eskalacji, zostania męczennikami może, przynajmniej poprzez obniżenie stopnia z zachowania. Niestety dyrektorka natychmiast wyraziła zgodę –  i już nikomu nie chciało się zakładać niezależnego pisma. Tyle jeśli chodzi o skuteczność podejścia konfrontacyjnego i unikającego konfrontacji.

Więc może nie chodziło o dialog i nawracanie, może tylko szło o demonstrację własnej słuszności i niesłuszności narodowców, demonstrację skierowaną nie do nich, lecz do opinii publicznej. To atrakcyjna hipoteza. Narodowca – zakutego łba nawrócić się może już nie da, ale pokażmy innym co za nim stoi, a co stoi za nami. Niech zobaczą kto jest po której stronie mocy, i wesprą przyzwoitszych.

Co więc stoi za kim? Narodowiec chce odebrać rozmaite prawa ludziom, których nie lubi (lub ich nie dać, jeśli ich jeszcze nie mają). Narodowiec dąży do fizycznej konfrontacji, do rozróby, do kibolskiej ustawki. A jakie piękne działania “Kolorowa” przeciwstawiła owym narodowym paskudztwom? Hm. Postawiła na drodze narodowego marszu narodowców blokadę – akt fizycznej konfrontacji z marszem, stworzyła okazję do rozróby, ustawiła ustawkę. I podkreślała konieczność zablokowania marszu narodowców – czyli odebrania im jednego z podstawowych praw. Coś tu nie gra, z przeciwstawienia zrobiło się naśladownictwo.

Następne pytanie nasuwające się w ramach tej samej hipotezy przekazu do opinii publicznej, to jakiego efektu publicystycznego “Kolorowa” się spodziewała? Czy telewizja miała pokazać moc nieustraszonych lewicowców, bez trudu odpierających ataki słabych, nielicznych narodowców? A więc podkreślić siłę (fizyczną) lewicy, lewicy która potrafi skutecznie stawić czoła hordom kiboli – ale jednocześnie wpisuje się w poetykę polityki prowadzonej poprzez kibolską ustawkę? Czy może pożądaną ilustracją 11 listopada, ilustracją, która, powtarzana we wszystkich mediach, miałaby się wryć w zbiorową pamięć, miał może być film pokazujący drobną lewaczkę bitą bejzbolami przez pluton dwumetrowych kiboli? Prowokowanie takich zdarzeń nie jest specjalnie sympatyczne, zwłaszcza dla drobnej lewaczki, ale efekt skierowania społecznej niechęci na narodowców byłby nie do przecenienia. Ot, Realpolitik. Ciekawe, czy taka intencja leżała gdzieś u podstaw pomysłu na Kolorową blokadę, może jako możliwy “też w sumie pożyteczny dla sprawy wynik”, jeśli nie wynik najbardziej pożądany.  Nieprzypadkowe wydaje się tu postawienie przez MP Kolorowej blokady w jednym szeregu z ikonicznym studentem stojącym przed czołgami na placu Tiananmen. [Na stronie: zważywszy, że notka MP krytykowała media za symetryczne traktowanie obu stron 11-listopadowego konfliktu, poziom hipokryzji uznaję za ROTFLowy. Polska 2011, Chiny 1989, 100% symetrii].

Podsumowując, żadna z moich prób odczytania intencji organizatorów kolorowej nie dała wyniku spójnego z faktami, bądź z wartościami, jakich wyznawania spodziewałbym się po lewicy. Może więc źle postrzegam lewicę? A może – i jest to myśl dosyć przerażąjąca, zważywszy na olbrzymią potrzebę istnienia w Polsce skutecznej, mądrej i naprawdę lewicowej lewicy – nie było tam żadnej sensownej intencji? Tylko bezmyślne “zbierzmy się do kupy i będzie super”?

Niestety, ostateczny wynik blokady skłania mnie do przyjęcia tej ostatniej hipotezy. Że nikt nie pomyślał. Bo nawet pomijając gigantyczną wtopę PRową jaką byli Niemcy bijący (naprawdę czy medialnie) Polaków w Warszawie w Dzień Niepodległości, blokada skończyła się symetryzacją obu stron w nawet stosunkowo przyjaznych lewicy mediach, i Kolorowa weszła (czy została wstawiona) w rolę awanturniczego lewaka uczestniczącego w zdarzeniach, w których pali się samochodu i demoluje miasta. Może należało lepiej przemyśleć taktykę.

Reklamy

Wojskowe myślenie, a raczej jego BRAC

Amerykańskie wojsko stara się ogólnie rzec biorąc nadążać, i elastycznie dopasowywać się do nowych wyzwań, zadań i przekonań. Częścią owego nadążania jest proces BRAC (Base Realignment and Closure), czyli przerzucania baz i personelu z miejsca na miejsce. Proces ten jest planowany niezwykle starannie, i bardzo wnikliwie poszukuje się optymalnych rozwiązań.

Na przykład niedaleko mnie jest baza wojskowa Fort Belvoir. Wiem o tym dobrze, bo kiedyś na szosie przebiegającej przez jej teren dostałem od wojakopolicjanta mandat za przekroczenie dozwolonej prędkości. W Fort Belvoir w tej chwili zatrudnionych jest 22 tysiące osób. BRAC dołoży 14 tysięcy. Część z nich zapewne będzie mieszkać na terenie fortu (który jest, jak wiele „fortów”, po prostu miasteczkiem), a część nie. Ci co nie, będą dojeżdżać do pracy. Którędy? Zatłoczoną szosą US 1, zatłoczoną autostradą I-95, albo praktycznie niestniejącą tam komunikacją publiczną. Bo o przedłużeniu zawczasu niebieskiej linii metra do fortu mówiło się, i na mówieniu się skończyło.

Ale Fort Belvoir to nie wszystko.  Parę tysięcy pracowników wojska ma być przerzuconych z rozmaitych budynków głównie w okolicy Pentagonu i Crystal City (trzy stacje metra pod nosem) nie do fortu. Dokąd? Wojsko niesłychanie starannie rozpatrzyło trzy lokalizacje.

1. Obszar obecnych magazynów General Services Administration w Springfield. Rzut beretem do stacji metra i kolejki podmiejskiej. Jakby zrobili nową dróżkę byłoby 5 minut marszu, obecnymi dookoła góra 15 minut. W razie czego autostrady I-95, I-495 i I-395 też bliziutko.

2. Victory Center w Alexandrii. Rzut beretem do stacji metra, 10 minut marszu. W razie czego I-95/495 tuż obok.

3. Mark Center w innym miejscu Alexandrii. Do najbliższej stacji metra, jakby kto chciał piechotą, też dziesięć minut marszu… a nie, ciut żem się omylił. Godzina dziesięć. Sześć kilometrów! Wiecznie zatłoczona  I-395 pod nosem… jako praktycznie jedyna opcja.

Zgadnijcie, którą z lokalizacji wybrało po głębokim namyśle wojsko?

Osoby, które odpowiedziały 1 lub 2 zasługują na karne wysłanie na rok do woja, by lepiej pojęły, jak myśli ta organizacja. Bo nowy wojskowy biurowiec na 6400 pracowników już w Mark Center stoi. Jak widać poniżej, stoi razem z codziennym korkiem na I-395, zdjęcia oczywiście jeszcze przed zaludnieniem budynku, więc korek przynajmniej pełznie. (sorry za jakość ale obiektyw nie ma wycieraczek)

 

(A tak Mark Center wyglądało jako życie poczęte)

Ale zaraz, może nic do śmiacia, wojsko przecież myśli strategicznie, nie zapomina o krytycznych względach bezpieczeństwa! Wszak po skasowaniu przez niejakiego McVeigha budynku federalnego w Oklahoma City za pomocą ciężarówki z nawozami sztucznymi i innymi pomysłowo zastosowanymi substancjami, oraz po wyczynach domorosłych pilotów we wrześniu 2011 roku, wojsko pilnuje by terrorystom nie stwarzać okazji. Ot, na przykład droga stanowa nr 110 w Wirginii zwykła przebiegać niemal pod oknami Pentagonu. A gdyby tam ktoś zaparkował nawozy sztuczne? Drogę więc od Pentagonu odsunięto:

Nie może więc być wątpliwości! Wojsko dlatego tylko naraziło swoich pracowników i okolicznych mieszkańców na jeszcze większe korki na I-395 w okolicach Mark Center by im (tym pierwszym naturalnie, kto by myślał o drugich) zapewnić bezpieczeństwo, tylko tam można było ich łatwo uchronić przed oklahomskim horrorem.

Osoby, które zgodziły się z powyższym akapitem zasługują na karne wysłanie na kolejny rok do woja, by lepiej pojęły, jak myśli ta organizacja. Bo okazuje się, że nowy McVeigh nie miałby specjalnych problemów ze skasowaniem Mark Center. Przebadanie możliwych skutków zastosowania bomb o rozmiarach dotychczas używanych przez bad guys doprowadziło do następujących budujących wniosków:

Several of the studies show the Mark Center would essentially be wiped out. Some scenarios show almost the entire 6,400-worker facility bathed in red, indicating areas with: „Many serious injuries and many fatalities in outer offices. Wall and window debris in these areas will be thrown toward interiors and will cause moderate to severe injuries with potential fatalities in inner offices.”

Cóż, zawsze można spróbować przesunąć biegnącą niemal u stóp budynku I-395 i kilka sąsiednich ulic…

Explicit

Do USA przyszło Spotify. Które na pierwszy rzut oka wydaje się wyjątkowo bliskie mojego ideału dostępu do muzyki. Ryczałtowa opłata miesięczna i dostęp do mnóstwa muzyki (najchętniej do CAŁEJ wydanej muzyki) przez sieć, w dobrej jakości i bez czekania. Spotify istnieje nawet w wersji bezpłatnej, która jednak ogranicza czas odsłuchu na miesiąc i zmusza do wysłuchania co kilka minut reklamy. Nawiasem mówiąc, strzelanie reklamą muzyki country w kogoś, kto na Spotify nigdy nie słuchał niczego poza poważką, jest raczej nieszczególnie mądre.

Wersja bezpłatna jest (niestety) napisana dość sprytnie i wrednie, nadmierne przyciszenie reklamy w programie lub w systemie wstrzymuje reklamę do czasu przywrócenia słyszalności… Na szczęście ja mam na to analogową gałkę, zresztą jakby się za to brać poważnie, to tylko bez-ogłoszeniowo, za kasę.

Co prędko nie nastąpi, bo jak nieomal wszystko, co żeni nowe technologie z muzyką, do muzyki poważnej Spotify nadaje się marnie.

Bo po każdym kolejnym rzucie oka Spotify okazuje się dalej od ideału. Mimo, że jest szybko i w przyzwoitej jakości.

Bo odtwarzacz Spotify nie umie odtwarzać bez przerw!!! W drugim dziesięcioleciu XXI wieku!!!!!!111 A przecież Spotify nie używa formatu mp3, pod tym względem głupio zaprojektowanego, tak że tylko kombinacja odpowiedniego nowoczesnego enkodera i odpowiedniego odtwarzacza zapewnia brak przerw. Spotify gra nowoczesny format Ogg Vorbis, z natury obsługujący odtwarzanie bez przerw, i poza lenistwem tych, co odtwarzacz pisali, nie ma żadnego usprawiedliwienia dla czknięcia między Adagio quasi un poco andante a Allegro w kwartecie Op. 131.

Bo informacje o ścieżkach ograniczają się do popowych tagów Title/Artist/Album, w dodatku z typowym bałaganem: pod Artist czasem wpisany jest kompozytor, czasem dyrygent, czasem soliści, czasem orkiestra, czasem jakaś kombinacja powyższych.

Bo interfejs jest marny. Lista utworów startuje ze zbyt wąskimi kolumnami Artist, Title, itd. Można je sobie niby poszerzyć, co z tego, kiedy nie jest to pamiętane, i przy przeglądaniu następnej płyty, czy po powrocie do tej samej, są wąskie jak były. W niektórych sytuacjach nawet nie można sobie poszerzyć.

Bo wyszukiwarka jest denna:

nie ma wyszukiwania po właściwych poważce polach, jak Composer czy Conductor (a można);

„gardiner beethoven symphony 5” nic nie znajduje, bo w tytuł wpisali „No.5”, a cóż to byłby za dziwny pomysł, by kropkę traktować jak separator;

„Musicalisches Opfer”, „Musikalisches Opfer”, „Musical Offering” to dla Spotify zupełnie różne utwory;

gdy zapytamy o coś w rodzaju Don Giovanniego Mozarta, czyli wieloczęściowy utwór z wieloma wykonaniami do wyboru, wyników nie da się sensownie przejrzeć. Dostajemy listę wszystkich ścieżek (kilkadziesiąt na wykonanie!), najpierw niekompletną, po przeskrolowaniu na koniec rosnącą stopniowo do rozmiarów kilometrowych, i nadal nie wiem czy kompletną. Owszem, nad listą ścieżek jest lista znalezionych albumów. Nawet w dwóch formach: tytuły albumów oraz obrazki okładek. Tytułów zmieściło się na moim ekranie aż 8 (niektóre wiele mówiace, np. Mozart – Don Giovanni by Wolfgang Amadeus Mozart). Obrazki są w jednym rządku, więc choć małe i nieczytelne, zmieściły sie dwadzieścia trzy. A wykonań Don Giovanniego Spotify ma więcej. Dupa.

Bo katalog jest przyzwoicie spory, ale nietrudno też namierzyć poważne luki. Koncerty fortepianowe Brahmsa, Gilels/Jochum – nie ma. Symfonie Beethovena pod Immerseelem – nie ma. Missa solemnis pod Gardinerem – nie ma. Herreweghe, pasje Bacha – nie ma żadnego z czterech nagrań. No proszę państwa.

Bo jest też inny, znacznie bardziej wkurzający rodzaj luk. Na 38 ścieżek składających się na komplet symfonii Beethovena pod Gardinerem dostępne jest tylko 15. Co z pozostałymi? The artist/label has chosen to make this track unavailable. If you have the file on your computer you can import it. Nosz jakbym już sobie to kiedyś kupił i miał na komputerze, przecież nie szukałbym na Spotify i nie rozważał płacenia abonamentu za dostęp! Oczywiście Beethoven Gardinera to nie wyjątek. Mesjasz pod Minkowskim – w zasadzie jest, ale He was despised i Surely he hath borne our griefs trzeba dokupić(?). Trzecia symfonia Saint-Saënsa pod Dutoit – z czterech części dostępna jedna (i to nawet nie ta z muzyką ze świnki Babe).

Więc może trochę się pobawię wersją bezpłatną. Ale dopóki te „bo” nie pójdą precz, dopóty moich pieniędzy Spotify nie zobaczy. Żaden produkt nie jest idealny (nawet foobar2000!), ale czy obsuwy nie mogłoby się ograniczać do takich jak na obrazku poniżej?

O dźwięku cyfrowanym

Zadeklarowałem jakiś czas temu chęć wskazania niedociągnięć w tekście Orlińskiego o MP3, który wyszedł niedawno w wyborcza.biz w dwóch częściach zatytułowanych Jak oszukać ludzkie ucho? Karlheinz Brandenburg opowiada jak stworzył MP3 oraz Jak snobizm i piractwo uratowały MP3.

Może by mi się chęć owa rozeszła po kościach, ale ^wo żalił się na blipie, że miała być hejtnotka, a nie ma, że dla jego Znanego i Szanowanego kolegi czas znalazłem w trymiga, i że wogle. Pod taką presją nie mogę się nie ugiąć, więc oto notka. Nawet nie bardzo hejt.

Bo w pierwszych słowach chciałem pochwalić pomysł i chęć napisania o MP3. Jestem entuzjastą opowieści o tym, jak rozmaite rzeczy działają i jaka historia za owymi rzeczami stała. Zawsze byłem – w dziecięctwie uwielbiałem książeczki o tym, jak działa samochód, a jak telewizor. O tym, jak Bertha Benz pojechała w demo-podróż samochodem konstrukcji męża, i jak John Baird zrobił pierwszy telewizor oparty na mechanicznej tarczy Nipkowa.

Opowieść o MP3 jak najbardziej podpada pod mój entuzjazm, kodowanie dźwięku cyfrowego metodą zwaną dziś MP3 to przecież sprytna rzecz, której używamy na codzień – jej samej, lub pokrewnych, w różnych aspektach ulepszonych, jak AAC czy Vorbis. I rzecz, która – jak wiele innych, ale zawsze warto o tym przypominać – nie wzięła się szast-prast znikąd, czy z natchnienia samotnego geniusza, lecz ze stania na ramionach gigantów.

Szejm przeto on Duży Format, który – jak bodajże na blipie powiedział ^wo – nie uznał tekstu za godny swoich łamów. Może ktoś uznał, że to takie nudne technikalia, że jak nie ma znanej twarzy humanistycznej, seksu, psychologii, religii, to się nikt nie zainteresuje. I historyjka wylądowała ni przypiął ni przyłatał w dodatku biznesowym.

Nie byłbym jednak sobą (a ponadto obietnice wypada choćby od czasu do czasu spełniać), gdybym się do tego czy owego w tekście Orlińskiego nie przyczepił. Bo parę rzeczy się znalazło, a cokolwiek smutne jest, że babole w sprawach okołodźwiękowocyfrowych jest w stanie wypatrzyć prosty biolog. Ciekawe, co znalazłby psychoakustyk, czy elektroakustyk.

A przy okazji, mam nadzieję, uda mi się opowiedzieć o pewnych konceptach stojących za MP3 (i nie tylko), na które nawet w porządniej napisanym artykule do DF czy biznesowego dodatku nie znalazłoby się miejsce.

Zacznijmy od drobiazgów. Pisze Orliński:

Nie miał on żadnej karty dźwiękowej, ale Brandenburg dolutował kolejnymi kabelkami tzw. przetwornik analogowo-cyfrowy, który udało mu się z kolei podłączyć do głośników.

Już na blogu WO ktoś zauważył, że w tę stronę to raczej przetwornik cyfrowo-analogowy, a ja jeszcze dorzucę, że raczej nie wprost do głośników, bo przetworniki cyfrowo-analogowe muszą być podłączone do odbiornika o wysokiej impedancji, a do takich głośnik nie należy. Musiał więc być wzmacniacz pomiędzy.

To drobiazg, idźmy jednak dalej.

Karlheinz Brandenburg, wciąż jeszcze jako doktorant, zostaje członkiem zespołu pracującego nad projektem EU-147. Jest cennym nabytkiem dla zespołu, bo jako pierwszy stawił czoła problemowi połączenia świata humanistycznego (do którego należy psychoakustyka) ze światem lutownicy i terminalu komputerowego.

Ajajaj. Gdzie humanistyka, gdzie psychoakustyka. Granice dziedzin bywają dyskusyjne, ale chyba zgodzimy się, że humanistyka bada człowieka w aspektach kulturowych, społecznych, historycznych. Psychoakustyka natomiast nie jest historyczna, nie ma dba o społeczne konteksty, bada naturę, a nie kulturę.  To dziedzina ścisła, przyrodnicza, ilościowa, to gałąź psychofizyki badająca ilościowe związki między fizycznymi parametrami dźwięków, a ich percepcją przez człowieka (i nie tylko). Nazwa nie myli, psychoakustyka stoi na pograniczu akustyki i psychologii, ale psychologii ścisłej, eksperymentalnej, tej najdalszej humanistyce. Zresztą chyba wystarczy popatrzeć na typowy artykuł psychoakustyczny, by przynależność psychoakustyki do science stała się oczywista. Pod linkiem jedna strona z Shailer MJ i Moore BCJ (1983) Gap detection as a function of frequency, bandwidth, and level. Journal of the Acoustical Society of America 74: 467-473.

Wiedziałem, że doktorat Brandenburga zakończył się w 1989 r. sukcesem – wynalezieniem systemu kodowania muzyki OCF (Optimum Coding Frequency), praprzodka MP3.

Nie, nie. OCF to skrót od Optimum Coding in the Frequency Domain – różnica niby drobna… czyżby? Przetłumaczmy.

Wersja Orlińskiego: „optymalna częstotliwość kodowania”. Czyli dokonuje się jakiegoś kodowania, z jakąś częstotliwością (ileś razy na sekundę), a doktorat Brandenburga odpowiada na pytanie jaka częstotliwość kodowania jest najlepsza.

Wersja Brandenburga: „optymalne kodowanie w dziedzinie częstotliwości”. Czyli doktorat Brandenburga odpowiada na zupełnie inne pytanie: jakie kodowanie (dokonywane w dziedzinie częstotliwości) jest najlepsze. Jednak istotna różnica, nieprawdaż?

W rozpoczynającej się obecnie dygresji spróbuję wyjaśnić pokrótce (ha, ha), o co chodzi z ową dziedziną częstotliwości. Na ile sam to, biolog w końcu prosty, rozumiem. Jak przyjdzie Andsol lub inni matematycznie sprawni, może pojawią się w komentarzach poprawki oraz załamywanie rąk nade mną, jako i ja załamuję nad Orlińskim. Zobaczymy.

Otóż rozmaici mądrzy ludzie w wieku XVIII i XIX (za wiki: babilończycy [przed XVIII wiekiem, naturalnie], Clairaut, Lagrange, Gauss, Bernoulli, Euler, i wreszcie Fourier którego nazwisko się najsilniej z tematem związało, giganci więc, na ramionach których Brandenburg stawał) obmyślili metody przedstawiania rozmaitych funkcji jako sumy prostych funkcji trygonometrycznych, sinusów i kosinusów.  Po co? Bo rozmaite obliczenia i inne zabiegi łatwiej przeprowadzić na sumie, czy złożeniu prostych funkcji, niż na jednej, za to wściekle zawiłej.

Jak takie złożenie wygląda? Na prostym przykładzie, o to dwie funkcje sinus, górna ma mniejszą częstotliwość (lata z góry na dół rzadziej), dolna ma większą częstotliwość. Górna jest większa, ma większą amplitudę (lata z góry na dół dalej od środka), dolna ma mniejszą amplitudę.

Jeżeli je ze sobą złożymy, czyli do siebie dodamy, dostaniemy coś takiego:

Spryt Fouriera i całej kompanii gigantów polegał na znalezieniu matematycznych metod rozdzielania złożonej funkcji na proste składowe, oraz pokazaniu, że każdą, nawet wściekle zawiłą funkcję, możemy rozłożyć na składowe o różnych częstotliwościach i amplitudach, o ile użyjemy tych składowych wystarczająco dużo. Oto przykład z wiki pokazujący, jak składając coraz więcej sinusów i kosinusów zbliżamy się do funkcji o kształcie prostokątnym.

Co to ma do dźwięku? Otóż dźwięk jest właśnie taką wściekle zawiłą funkcją. Dźwięk, to drgania powietrza, to malutkie i szybkie zmiany ciśnienia powietrza. Przebiegające, jak już wspomniałem, zawile. Oto przebieg zmian ciśnienia powietrza w ciągu około 25 tysięcznych sekundy, pochodzący z nagrania Sarabandy z pierwszej partity na skrzypce solo Bacha (gra Shlomo Mintz):

Narysowałem zmiany ciśnienia w czasie, skala na dole to minuty:sekundy.milisekundy nagrania. Czyli jest to sygnał przedstawiony w dziedzinie czasu. Niewiele tu można ciekawych rzeczy wypatrzeć. Ale rozłóżmy, przy pomocy przekształcenia Fouriera, powyższą zawiłość na proste trygonometryczne funkcje, na sinusy. I narysujmy sobie, jak mocne wyszły nam poszczególne sinusy.

Moglibyśmy narysować wszystkie potrzebne sinusy jeden pod drugim, tak jak to zrobiłem powyżej, pokazując dwa sinusy przed złożeniem. Nie miałoby to jednak specjalnie sensu, i to z dwóch powodów. Po pierwsze do rozłożenia zawiłej funkcji wyprodukowanej przez Mintza w ciągu 25 milisekund potrzeba okropnie wielu sinusów. Po drugie, taki obrazek pokazywałby dla każdego sinusa jego częstotliwość, amplitudę oraz kształt. A po co marnować miejsce na obrazku na kształt sinusa? Wszak jeśli się widziało jednego, widziało się wszystkie.

Narysujemy to inaczej. Na osi poziomej będą częstotliwości kolejnych sinusów, na które rozłożyliśmy Mintza. Osi pionowej użyjemy do oznaczenia, jak mocne są poszczególne sinusy, czyli jaka jest ich amplituda. Wuala:

Oto nasz fragmencik Bachowskiej partity przedstawiony w dziedzinie częstotliwości (uważny czytelnik może zauważyć, że użyłem tutaj nieco dłuższego fragmenciku niż narysowany w dziedzinie czasu, nie pokazałem też całego zakresu częstotliwości, wszystko gwoli większej czytelności).

Jakiż pożytek, zapytacie, z przerobienia dziwnych zielonych bazgrołów na dziwne różowe bazgroły? Z punktu widzenia Brandenburga ślęczącego nad doktoratem, z punktu widzenia kodowania MP3 taki, że w dziedzinie częstotliwości dalszą analizę zapisanego dźwięku, dalsze zabiegi mające na celu zmniejszenie objętości zapisu dźwięku (bo o to wszak w MP3 chodzi) przeprowadza się łatwiej, niż w dziedzinie czasu.

Ale i my możemy w wersji różowej łatwiej dostrzec pewne zjawiska niż w zielonej. Dwa najwyższe czubki czy piki naszego wykresu, te po lewej, pokazują dwa najmocniejsze sinusy, na które rozłożyl się nam nasz fragment sarabandy. Jak widać z wykresu, mają one częstotliwość około 370 Hz i około 595 Hz (Hz czyli herc oznacza raz na sekundę). Pozwala nam to powiedzieć, że w tym momencie nagrania Mintz grał jednocześnie dwie nuty, jedna struna skrzypiec wibrowała z częstotliwością 370 razy na sekundę, druga z częstotliwością 595 razy na sekundę. Popatrzmy w nuty:

Mintz gra tu pierwszy akord powyższego taktu, w tonacji h-moll, czyli powinien grać nuty h, fis’ i d”. Częstotliwości tych nut w stroju równomiernie temperowanym to odpowiednio 246,9 Hz, 370 Hz i 587,3 Hz. Biorąc pod uwagę, że na skrzypcach gra się raczej w stroju naturalnym, jak również możliwość drobnych odchyłek intonacyjnych wykonawcy oraz dokładność pomiaru, możemy uznać, że znaleźliśmy fis’ i d”. Gdzie się podziało h? Na skrzypcach normalnie da się pociągnąć smyczkiem najwyżej po dwóch strunach jednocześnie. Akordy złożone z trzech (lub czterech dźwięków) gra się zazwyczaj zaczynając od krótkiego zagrania niskiej nuty (lub dwóch niskich nut) i przeskakując natychmiast na dwie wyższe (na wyżej brzmiących strunach). Skrzypkowie mogą załamać ręce nad prostym biologiem w komentarzach. Jeśli nadal czytasz, wpisz w komentarzu słowo derkacz. Nasza analiza dotyczy momentu po przeskoczeniu, Mintz gra w tym momencie tylko dwie wyższe nuty akordu, h zagrał przed momentem, i zdążyło już zaniknąć. Nieco wcześniej, na początku akordu, dźwięk przedstawiony w dziedzinie częstotliwości wyglądał tak – h około 250 Hz widać bardzo pięknie. Wszystkie te zjawiska możemy zauważyć dzięki przedstawieniu dźwięku w dziedzinie częstotliwości, w dziedzinie czasu, na zielonym wykresie, po prostu ich nie widać.

Na tym dygresję zakończymy, a odpowiedzi nasuwające się zapewne wielu pytanie „a co to są te wszystkie pozostałe piki” udzielimy może kiedyś w innej notce.

Dygresja pokazała, mam nadzieję, czym jest reprezentacja dźwięku (czy w ogóle sygnału) w dziedzinie częstotliwości, do czego może ona służyć, a więc jak ważną część historii zgubił Orliński skracając rozwinięcie skrótu OCF.

No i ostatni fragment, nad którym mam ochotę załamywać ręce.

Od dawna było wiadomo, że ludzkie ucho nie potrzebuje całości docierającej do niego informacji. Zajmowała się tym dziedzina wiedzy zwana psychoakustyką. Wiedziałem więc, że ucho można oszukać, tak jak oszukujemy oczy, wyświetlając 25 nieruchomych obrazków – a nam się wydaje, że oglądamy ciągły film.

Podobnie działa kodowanie muzyki. Zamiast kodować całość nagrania, wystarczy kilka- lub kilkadziesiąt tysięcy razy na sekundę robić tak zwane próbkowanie, czyli zapis dźwięku w danej chwili. Czego ucho nie usłyszy, to mózg dopowie, tak jak mózg wypełnia nam brakujący ruch na taśmie filmowej.

Może ja słabo rozumiem słowo pisane, ale moim zdaniem fragment ten, w kontekście w jakim go umieszczono na drugiej stronie pierwszej części tekstu Orlińskiego, miał tłumaczyć istotę MP3, istotę kodowania, które pozwala nam zaoszczędzić wiele miejsca na naszych odtwarzaczach. Niestety, tłumaczy on zupełnie co innego, w dodatku raczej źle.

Skąd się bierze w ogóle dźwięk w postaci cyfrowej, w komputerze, na płycie CD, w pamięci odtwarzacza MP3? Jaką drogę przechodzi, od szybkich i drobnych zmian ciśnienia powietrza, do czegoś, co można zapisać celem odtworzenia po jakimś czasie?

Najpierw rys historyczny (żeby było humanistyczniej). Najprostszy zapis dźwięku można zrealizować następująco: bierzemy cienką membranę, którą drobne zmiany ciśnienia powietrza (dźwięk!) będą wprawiać w drobne ruchy. Do membrany mocujemy sztyfcik, który, poruszany przez membranę w takt zmian ciśnienia, wycina ślad w plastycznym, przesuwającym się materiale. Gdy ciśnienia chwilowo wzrasta, sztycik wsuwa się w materiał, ślad jest głębszy. Gdy ciśnienie się zmniejsza, sztyfcik się cofa, ślad jest płytszy. Potem możemy taki zapis odtworzyć w analogiczny sposób. Zmuszamy sztyfcik by podążał za wyrzeźbionym uprzednio śladem, sztyfcik wprawia w ruch membranę, membrana wprawia w ruch powietrze, i słyszymy, cośmy nagrali. Tak działały pierwsze fonografy i patefony. Przy czym w ramach postępu zmieniono kierunek ruchu sztyfcika czy igły z pionowego na poziomy.

Sztyfcik pędzący membranę miał małą skuteczność, dźwięk był słaby. Krokiem kolejnym było zaprzęgnięcie do roboty prądu elektrycznego, który nauczono się w międzyczasie wzmacniać. Zmiany ciśnienia powietrza zamieniano na zmiany prądu elektrycznego za pomocą mikrofonu, prąd z kolei mógł napędzać urządzenie nacinające rowek w płycie. Podobnie igiełka drgająca według kształtu rowka nie napędzała już wprost membrany. Za pomocą cewek i magnesów wytwarzała prąd, który następnie, po niemal dowolnym wzmocnieniu i przesłaniu na niemal dowolną odległość, napędzał membranę (pojawił się nam głośnik!), która z kolei powodowała zmiany ciśnienia powietrza, czyli dźwięk. Tak działały, i dotąd działają, gramofony.

Innym konceptem był zapis magnetyczny, najpierw na drucie stalowym, potem na taśmie papierowej pokrytej drobinkami magnetycznymi, wreszcie na taśmie z tworzywa sztucznego z magnetyczną powłoką. Prąd z mikrofonu po wzmocnieniu wytwarzał pole magnetyczne, które ustawiało kierunek namagnesowania na przesuwającej się taśmie. A potem przesuwająca się namagensowana taśma generowała w odpowiednim urządzeniu prąd elektryczny (pamiętacie ze szkoły: indukcja, reguły różnych rąk, te sprawy), który po wzmocnieniu ruszał membraną głośnika. Tak działały (czas przeszły praktycznie usprawiedliwony) magnetofony.

Wszystkie powyższe metody zapisu są analogowe. Na każdym etapie istnieje prosta odpowiedniość między dźwiękiem, czyli przebiegiem zmian ciśnienia powietrza, a jakąś fizyczną wielkością. Gdy ciśnienie jest większe, rowek jest głębszy lub przesunięty bardziej w jedną stronę, napięcie elektryczne wyższe, ustawienie cząsteczek magnetycznych bardziej w którąś stronę. Gdy ciśnienie jest mniejsze, prąd płynie w drugą stronę, rowek jest płytszy, cząstki magnetyczne ustawione inaczej. Zapis jest analogowy i ciągły, nieprzerwany – dla każdego wyobrażalnego momentu w czasie rowek gdzieś się znajduje, napięcie elektryczne ma jakąś wartość. Gdzieś tam pod spodem są oczywiście nieciągłe atomy i elektrony, podobnie jak naprawdę nieciągłe jest ciśnienie powietrza, biorące się z uderzeń pojedynczych cząsteczek gazów – ale dzieje się to w tak drobnej skali, że możemy w praktyce mówić o ciągłości.

Ta odpowiedniość, analogiczność zapisu z dźwiękiem została zerwana w zapisie cyfrowym. Polega on na próbkowaniu, czyli na mierzeniu i notowaniu wartości tego, co mierzymy, w pewnych, równych odstępach czasu. Innymi słowy z pewną częstotliwością, zwaną częstotliwością próbkowania. W przypadku dźwięku mierzymy ciśnienie powietrza, a tak naprawdę, jak zwykle w naszej elektrocentrycznej cywilizacji, mierzymy napięcie wyprodukowane przez mikrofon, napięcie, którego przebieg odpowiada przebiegowi ciśnienia powietrza. Czytających proszę o wpisanie do komentarza słowa dyrdymały. Wynik pomiaru, ciąg zapisanych liczb, w żaden sposób fizycznie nie odpowiada przebiegowi dźwięku. Jest tylko jego abstrakcyjną reprezentacją. Jest jego liczbowym opisem. Który możemy przetworzyć w inny, równie abstrakcyjny opis, nie tracąc nic z informacji (na przykład 3952 → MMMCMLII → 0x0F70 → dreitausendneunhundertzweiundfünfzig). Co więcej, zapis jest nieciągły, inaczej mówiąc dyskretny, wartości istnieją tylko dla momentów, w których zostały zmierzone, między nimi nic nie ma. Nic a nic.

I jeszcze jedno – ponieważ zapis cyfrowy nie odpowiada fizycznie dźwiękowi, procesu odtwarzania dźwięku zapisanego cyfrowo w zasadzie nie powinien nazywać się odtwarzaniem. Odpowiednie urządzenie, jak pamiętamy dzięki Orlińskiemu poprawiającemu Orlińskiego komentatorowi na jego blogu, zwane przetwornikiem cyfrowo-analogowym, tak naprawdę na podstawie liczbowego opisu na nowo wytwarza dźwięk napięcie elektryczne, następnie przetwarzane poprzez wzmacniacz i głośnik na dźwięk.

No dobrze, zapytacie, ależ czyż nie toż samoż o próbkowaniu napisałże Orliński? Plus minus to samo. To czemu się go czepiasz? Z dwóch powodów.

Po pierwsze, nie jest prawdą, że z powodu nieciągłości próbkowania „czego ucho nie usłyszy, to mózg dopowie”. Dzięki kolejnej porcji gigantów (Whittaker, Kotielnikow, Nyquist, Shannon) mamy twierdzenie o próbkowaniu, zwane często twierdzeniem Nyquista-Shannona (lub inną kombinacją gigancich nazwisk). Twierdzenie to mówi nam (w wersji udelfinionej na nasze potrzeby), że sygnał zawierający składowe (znów Fourier się kłania) o częstotliwościach nie większych niż B może zostać wiernie zapisany za pomocą próbkowania z częstotliwością próbkowania 2B.  Wiernie – czyli mózg nic nie musi dopowiadać, mimo próbkowania, mimo że między momentami pomiaru nic nie ma, informacja jest wystarczająca do pełnego odtworzenia sygnału. Czyli w naszym przypadku, dźwięku.

Jeśli kiedykolwiek, powodowani niezdrową ciekawością, zaglądaliście w właściwości plików dźwiękowych na waszym komputerze (raczej za pomocą programów do obróbki dźwięku, sam system niechętnie pokazuje takie technikalia), może zauważyliście, że częstotliwość próbkowania wynosi często 44100 Hz. Taką częstotliwość próbkowania przyjęto dla płyt CD, z których wszak wiele plików dźwiękowych pośrednio czy bezpośrednio pochodzi. Jak wynika z twierdzenia o próbkowaniu, częstotliwość próbkowania 44100 kHz zapewnia zapis składowych dźwięku o częstotliwościach od 0 do 22050 Hz. Jako że ludzie słyszą dźwięki o częstotliwościach w porywach do 20000 Hz (i to raczej dzieciątka niewinne, w wieku dojrzalszym częściej spotkamy granicę 16000 Hz, czy coś koło tego), częstotliwość próbkowania przyjęta dla CD wystarcza z zapasikiem, by zapisać i odtworzyć słyszalne dla człowieka dźwięki. (O modzie na supertweetery oraz częstotliwości próbkowania 96 i 192 kHz, jak i o niespodziewanych beneficjentach tej mody, pogadamy innym razem).

Inne informacje, jakie niezdrowy ciekawski może wyczytać we właściwościach plików dźwiękowych, to mono/stereo (wiemy o co chodzi, prawda?) oraz liczba bitów. Liczba bitów, w dzisiejszych czasach występująca niemal wyłącznie jako 16, rzadko 24 lub 32, historycznie 8, mówi nam o kolejnym praktycznym ograniczeniu zapisu cyfrowego. Związane jest ono z tak zwaną kwantyzacją. Chwilę o tym pomówimy, później się przyda. Otóż, gdy w czasie próbkowania mierzymy nasz sygnał, każdy wynik pomiaru musimy gdzieś zapisać, jako liczbę w komórce pamięci komputera, czy innego rejestratora. Komórki te mają pewną wielkość, mierzoną w tych właśnie tajemniczych bitach. Jeżeli bitów jest 8, liczba wynikająca z pomiaru może mieć jedną z 256 wartości (najczęstsza konwencja to 0 do 255, bez ułamków). Gdy bitów jest 16, wartości jest 65536 (typowa konwencja tym razem to -32768 do 32767), i tak dalej.

Z liczby bitów wynika możliwa do uzyskania dynamika sygnału. Uch, kolejne dziwne słowo. W dodatku dynamika, o której mowa, nie ma nic wspólnego z potocznym znaczeniem słowa dynamiczny. Dynamika mówi nam, jaka jest możliwa rozpiętość głośności dźwięków (ogólnie sygnałów). Inaczej mówiąc, o ile najgłośniejsze „mieszczące się” dźwięki są głośniejsze od najcichszych, jakie da się zapisać. Dlaczego to ważne? Bo muzyka się składa z dźwięków cichych i głośnych, a chcemy zapisać je wszystkie! Ot, na przykład patrzę sobie teraz na nagranie IX symfonii Beethovena, gdzie najcichsze dźwięki są o jakieś 60 decybeli (dB) cichsze od nagłośniejszych. Ile bitów nam potrzeba? To się da policzyć.

Spróbujmy z ośmioma bitami. Najgłośniejszy sygnał jaki możemy zapisać używając 8 bitów, t0 sygnał rozciągający się na 256 jednostek, od 0 do 255. Najcichszy, to taki, który drga tylko między dwoma sąsiednimi wartościami, np 127 i 128. Amplituda pierwszego to 256 jednostek, drugiego – jedna jednostka. Na decybele to będzie 20*log10(256/1)≈48 dB (co to jest decybel, dlaczego nie jest to po prostu jednostka natężenia dźwięku, dlaczego czasem we wzorze jest 20 a czasem 10, i dlaczego decybele mogą być ujemne, opowiemy sobie innym razem). To już chyba wiemy, czemu zapis dźwięku w 8 bitach ma znaczenie historyczne.  Skutkiem tak małej dynamiki jest wyraźnie słyszalny szum (szum kwantyzacji), w którym giną cichsze fragmenty muzyki.

Weźmy 16 bitów: 20*log(65536/1)≈96 dB, czyli pięknie starcza na zapisanie Beethovena. I to jest właśnie najczęściej używana wartość, i jednocześnie wartość, jakiej używają płyty CD. O tym czy i po co warto używać 24 czy 32 bitów, też innym razem. Na zakończenie tego fragmentu poproszę o zapamiętanie, że zapisywalna dynamika zależy od liczby bitów, że gdy jest ich mało to będzie słychać szum kwantyzacji (ale plik zajmie mniej miejsca). I dodam dla porównania z CD, że dynamika najwyższej klasy gramofonów czy domowych magnetofonów oceniana jest na około 70 dB. I jeszcze, że tak działa próbkowanie metodą liniowej modulacji impulsowo-kodowej (LPCM), używaną w komputerach, odtwarzaczach CD, DVD. Z domowych urządzeń inną metodą (zwaną DSD) posługują się odtwarzacze SACD, dość powiedzieć, że używają zapisu jednobitowego, za to z częstotliwością ponad 2800 kHz.

A jaki jeszcze błąd popełnił Orliński w ostatnim fragmencie, poza twierdzeniem, że mózg coś musi dopowiadać? Taki mianowicie, że próbkowanie, o którym opowiedział, a o którym ja opowiedziałem nieco więcej, nie jest istotą MP3, nie jest istotą dokonań Brandenburga. Samym próbkowaniem doszliśmy na razie do płyty CD, do cyfrowego dźwięku nieskompresowanego. Tam, gdzie Orliński zakończył swój opis, MP3 dopiero się tu zaczyna.

Po co w ogóle MP3? Po to, że nieskompresowany dźwięk zajmuje dużo miejsca – w pamięci, na dysku, w kabelkach internetu. Jedna minuta zapisana z parametrami takimi, jak na płycie CD, to około 10 MB (44100 próbek na sekundę, razy dwa bajty (16 bitów), razy dwa kanały (stereo), razy 60 sekund, proszę sobie policzyć). Pamiętam pierwsze twarde dyski do pecetów, cały dysk miał 10 MB. Dziś szybkość zapisu dźwięku cyfrowego często podajemy jako przepływność (kocham to słowo), z angielska bitrate, w kilobitach na sekundę (kbps). Muzyka na CD to prawie 1400 kbps. Z internetem łączono się kiedyś przez modemy telefoniczne osiągające 56 kbps, mój pierwszy „szerokopasmowy” internet miał bodajże 768 kbps. Widać w czym był problem, prawda?

Trzeba było te pliki dźwiękowe jakoś zmniejszyć, skompresować. Ludzie wiekowi jak ja zapewne pamiętają programiki pod DOS o nazwach pkzip i pkunzip, pierwsze programy do kompresowania i rozkompresowania plików używaną do dzisiaj metodą (czy grupą metod) ZIP. Dlaczego nie użyć tej metody do kompresowania dźwięku? Cóż, typowe metody kompresowania polegają na technikach takich, jak wynajdywanie w kompresowanych plikach powtarzających się fragmentów. W cyfrowym dźwięku takie fragmenty występują bardzo rzadko. I użycie zwykłych metod kompresji rzadko zmniejsza pliki dźwiękowe więcej niż o 10%. Zmniejszenie objętości minuty muzyki z 10MB do 9MB to wątpliwej klasy osiągnięcie.

Pewien postęp nastąpił po wynalezieniu metod kompresji specjalnie zaprojektowanych do muzyki. Korzystały one na przykład z faktu, że typowe pliki muzyczne są plikami stereo, a informacja w kanale lewym jest zazwyczaj podobna do informacji w kanale prawym. Mój pierwszy kontakt z takimi metodami kompresji to rosyjski program do kompresji RAR, który wprowadził „Multimedia compression”. Zdarzało się uzyskać 50% zmniejszenie wielkości pliku. Łał. Po wielu latach w zasadzie nie umiemy zrobić tego znacząco lepiej, współczesne algorytmy kompresji bezstratnej dźwięku (FLAC, Monkey Audio, WMA Lossless czy ALAC) zazwyczaj osiągają około 50-60%. Rzut oka na moje zbiory we FLAC pokazał wartości od 450 do 900 kbps, najtrudniej (nadal, jak za Brandenburga) kompresuje się klawesyn solo. Suzanne Vega nie posiadam. Postęp od RAR dokonał się bardziej na polu dostosowania formatów do specyfiki odtwarzania muzyki – możliwość dekompresji „w locie”, w trakcie odczytywania pliku, czy dopisania „tagów” opisujących utwór muzyczny, niż w stopniu skompresowania.

Zmniejszenie minuty muzyki z 10 do 5 MB, z 1400 do 700 kbps, to ciągle niezbyt dużo, i z pewnością nie byłoby to wystarczające, w czasach, gdy Brandenburg zaczynał doktorat, przy wielkościach dysków wówczas używanych. „Byłoby”, bo wtedy FLACów i ALACów jeszcze nie było, to historia XXI wieku. A nawet gdyby były, ówczesne komputery nie udźwignęłyby ich obliczeniowo. Pamiętajmy też, że skompresowany plik dźwiękowy trzeba rozpakowywać wystarczająco szybko, by nadążyć za muzyką. Zapuszczenie na noc rozkompresowania czterominutowej piosenki po to, by jej rano przez cztery minuty posłuchać, nie jest fajne. Trzeba więc było wymyśleć coś innego.

I tu na scenę wkracza Brandenburg, Optimal Coding in the Frequency domain, i giganci psychoakustyki. Którzy zajmowali się między innymi zjawiskiem maskowania. Polegającym z grubsza na tym, że jeden dźwięk może zagłuszyć inny. Niby banalna obserwacja, ale skrupulatne pomiary, jakie muszą być relacje między dźwiękami, by nastąpiło maskowanie, przyniosły wiedzę o funkcjonowaniu ludzkiego ucha (punkt wyjścia do guglania: pasma/wstęgi krytyczne, critical bands), i pomogły Brandenburgowi. Wiemy na przykład, że dźwięki głośne szczególnie dobrze maskują dźwięki o podobnych częstotliwościach, a słabiej dźwięki o odległych częstotliwościach. Wiemy, że maskowanie może też dotyczyć dźwięków niejednoczesnych. Wiemy, też że dźwięki bardzo niskie a ciche, jak i bardzo wysokie a ciche, w ogóle nie są słyszalne. Za to składowe o częstotliwościach około 1-4 kHz słyszymy wyjątkowo dobrze. Dużo tego typu rzeczy wiemy.

Taka wiedza psychoakustyczna pozwoliła na zaprojektowanie kompresji stratnej dźwięku. Użyłem tu słowa „stratna”, trzy akapity wyżej wspomniałem o kompresji „bezstratnej”, najwyższa pora wyjaśnić, o co idzie. Kompresja bezstratna to taka, której wynikiem (a raczej wynikiem pary kompresja-a-następnie-dekompresja) jest informacja dokładnie identyczna z informacją, która była kompresowana. Nie ma żadnej różnicy. Tak działa ZIP, tak działa FLAC czy ALAC. Natomiast wynikiem kompresji-a-następnie-dekompresji stratnej jest informacja inna od informacji początkowej. Obrazek po kompresji JPEG różni się ciut od obrazka przed kompresją. Plik dźwiękowy uzyskany po dekompresji MP3, Vorbis, AAC czy WMA różni się nieco od tego, który został skompresowany.  Coś zostało zmienione, wyrzucone, stracone. Stratę tę równoważy jednak zysk w możliwym do uzyskania stopniu kompresji. Pamiętamy, na płycie CD mamy 1400 kbps, kompresją bezstratną możemy to zmniejszyć do 500-700 kbps. Kompresja stratna może więcej, choć im niższa wartość kbps, tym większa szansa usłyszenia niekoniecznie przyjemnej różnicy od oryginału. Pliki MP3 128 kbps (ponad 10-krotnie mniejsze od oryginału CD!) zazwyczaj dają się nieźle słuchać. 192 kbps – mało kto odróżni od CD. 256, 320 kbps – chyba nikomu nigdy nie udało się odróżnić, w każdym razie przy słuchaniu muzyki, a nie specjalnie spreparowanych sygnałów. A miejmy na uwadze, że formaty nowocześniejsze niż MP3 (AAC, Vorbis) zazwyczaj radzą sobie jeszcze lepiej.

Jak to działa, co się dzieje od momentu, w którym Orliński porzucił nasz zakodowany cyfrowo, ale wcale jeszcze nie skompresowany dźwięk? Pisząc w przybliżeniu (czekam na specjalistów od MP3, co załamią nad prostym biologiem ręce): cyfrowy dźwięk jest dzielony na krótkie odcinki. Każdy odcinek jest rozkładany na składowe o różnych częstotliwościach przy pomocy cyfrowych filtrów. Każda składowa jest analizowana (pamiętacie jeszcze Fouriera? – jeśli tak, wpiszcie słowo degrengolada do komentarza) za pomocą przekształcenia pokrewnego przekształceniu Fouriera. Następnie przy pomocy modelu psychoakustycznego oceniana jest słyszalność poszczególnych składowych, czy to z racji znajdowania się poza pasmem słyszalności (za niskie/wysokie i jednocześnie za ciche by ktokolwiek je usłyszał), czy to z racji maskowania przez inne dźwięki. Można to porównać do dobierania liczby bitów użytej to zakodowania poszczególnych składowych tak, aby szum kwantyzacji (pamiętacie?) był jak największy (jak najmniej bitów), ale nadal niesłyszalny – bo zamaskowany przez inne dźwięki. Stosowane są też inne mechanizmy, na przykład algorytm może skorzystać z podobieństwa lewego i prawego kanału. Na koniec cała opracowana, pozbawiona niesłyszalnych (oby) składowych, informacja o dźwięku jest dodatkowo kompresowana metodą bezstratną, i mamy śliczną paczuszkę dźwiękową, rozmiaru 10-20% oryginału, gotową do odtworzenia, i zajmującą wygodnie niewiele miejsca na dysku czy w pamięci odtwarzacza mp3.

Pozdrowienia dla tych, którzy dotarli ze mną do końca!

Aj em, ju ar…

Niechże ta noteczka będzie skromnym uzupełnieniem notki Pawiana.

Bo znajomość polskatrudnajęzyk powinna być obowiązkowa, ale pewnej grupie zawodowej, podgrupie dziennikarzy, dołożyłbym jeszcze jedno wymaganie. Korespondentom zagranicznym mianowicie. Niechże poznają podstawy języka kraju, z którego korespondują. Zwłaszcza, gdy język ten nie jest kosmicznie egzotyczny, gdy kursy, podręczniki, nauczycieli łatwo znaleźć. Na przykład, gdy jest to angielski.

Piję tu do Mariusza Zawadzkiego, korespondenta GW w USA. Który napisał (nudny jak zwykle) felieton o dość pretensjonalnym tytule „To nie jest kraj dla czarnych ludzi”. I w felietonie donosi:

Przecież polityczna poprawność zakazuje nazywać czarnych czarnymi (są Afroamerykanami).

Panie Mariuszu. Niechże Pan poprosi centralę, skoro nie zadbali przed wyjazdem, żeby przysłali jakieś proste podręczniki, niech się Pan trochę doszkoli. Niech się Michnik wykosztuje, bo przecież wstyd żeby Pan Korespondent tak ani be ani me. Filmy niech Pan edukacyjne poogląda:

A i ja postaram się pomóc. Lekcja pierwsza:

Czarny – black. Wymawiamy blak.

A teraz proszę przećwiczyć przykłady użycia w tekście:

Przećwiczywszy, proszę łaskawie zaprzestać opowieści, jak to poprawność polityczna nie pozwala o czarnych mówić czarni.

Alicja do pięt nie dorasta

[Alicja] zgubić potrafiła wszystko, a jako osiągnięcie szczytowe wystąpił pręt od firanek z salonu, długości sześć metrów. Nie jest to przedmiot, mieszczący się wszędzie. Nie tylko Alicja, ale także wszyscy goście przeszukiwali cały dom i ogród, bez rezultatu. Gdzie, na litość boską, na tak, bądź co bądź, ograniczonej przestrzeni mogło się podziać sztywne sześciometrowe* żelastwo, jest nie do pojęcia i nikt nie mógł tej zguby zrozumieć. Pręt jednakże przepadł i już. Nie odnalazł się do tej pory.

[Joanna Chmielewska, Autobiografia]

Przy okazji świętowania stulecia Konstytucji USA, pani Deihm (do historii przeszła pod nazwiskiem Charles F. Deihm, a więc, jak sądzę, nazwiskiem i imieniem poległego w wojnie secesyjnej męża), wpadła na pomysł. Nie całkiem nowy, gdyż koncept zamurowywania pamiątek w fundamentach, czy innych częściach budynków, by kiedyś potomni je wydobyli i uczynili z nimi… nie wiem co, był już znany. Pani Deihm przypisuje się jednak modyfikację i odświeżenie tegoż konceptu: niech potomni pamiątki wydobędą (i nie wiem co uczynią), nie kiedy im przyjdzie ochota, lecz dokładnie za 100 lat.

Pani Deihm wzięła przeto solidny sejf, nazwała go Sejfem Stulecia, włożyła doń wiele interesujących i wiekopomnych przedmiotów, i wystawiła na Wystawie Stulecia w Filadelfii. Zwiedzający wpisywali się do księgi pamiątkowej, która po Wystawie również trafiła do Sejfu. Następnie pomysłowa wdowa objechała piękny USiański kraj, zbierając zdjęcia i autografy ówczesnych celebrytów. Dołączyła je do wiekopomnych przedmiotów. Do pióra i kałamarza podarowanych przez Longfellowa. Do listy płac rządu federalnego. Serwisu do herbaty. Listu od prezydenta Hayesa. Zegarka. Oraz książki propagującej wstrzemięźliwość od trunków wyskokowych.

Wreszcie, 22. lutego 1879 roku, pani Deihm sprezentowała Sejf Kongresowi USA, wyrażając chęć, by w roku 1976, gdy Najważniejszemu Dokumentowi stukną dwie setki, sejf otworzył ówczesny prezydent (i nie wiem, co z zawartością uczynił). Kongres na to rzekł: „Eeeee…. Nie!”. Znaczy, Izba Reprezentantów chciała wziąć, ale nie chciał Senat.

Proszę zgadnąć, co się dzieje z podarunkiem dla Kongresu USA, którego Kongres nie przyjął? Wola przedstawicieli narodu jest święta, więc Sejf Stulecia wylądował na Kapitolu. Czyli, jakby kto nie pamiętał, w siedzibie Kongresu USA. I został uroczyście przyjęty i zamknięty w reprezentacyjnym Statuary Hall, w obecności prezydenta i wiceprezydenta. Wola przedstawicieli narodu świętą jest.

Wkrótce Sejf przeniesiono w inne miejsce na Kapitolu, przeleżał tam do 1958 roku, kiedy to przerzucono go do składziku. Tymczasem zbliżało się Dwustulecie, i komuś się prezent pani Deihm przypomniał. Wyciągnęli go ze składziku, włamali się (klucze zdążyły się zapodziać), i włączyli do programu obchodów. Ktoś zauważył jednak, że formalnościom nie stało się zadość – Kongres nigdy nie przyjął Sejfu, nie jest więc jego prawnym właścicielem. To zaniedbanie Kongres szybciutko nadrobił, i odpowiednią uchwałą połączonych sił Izby Reprezentantów i Senatu oficjalnie prezent wziąć raczył, a łaskawej ofiarodawczyni uroczyście podziękował. Po 95 latach. Bardzo się na pewno ucieszyła.

W 1976 roku prezydent Ford otworzył Sejf Stulecia, co z zawartością uczynił, dokładnie nie wiadomo, i wszyscy byli zadowoleni.

Pomysł pani Deihm okazał się zaraźliwy, i „kapsuły czasu”, jak je zaczęto nazywać, były powszechnie wmurowywane w rozmaite budynki przy wszelakich okazjach. Oczywistą okazją było samo Dwustulecie, kiedy to pogrzebano mnóstwo pamiątkowych pudeł. Za piękny symbol ciągłości historycznej, czy czegoś podobnego o szumnej nazwie, należy uznać, że prezydent Ford, w tym samym tygodniu, w którym otwierał pudło pani Deihm, złożył swój podpis na jednym z Pergaminów Ponownego Poświęcenia, jak sobie pozwalam przetłumaczyć Rededication Scroll.

PPP były częścią przedsięwzięcia o nazwie Bicentennial Wagon Train. Każdy był opatrzony wielkim napisem Pledge of Rededication, pod nim widniała deklaracja podpisujących, że ideałom Ojców Założycieli będą wierni, następnie stosowny wyimek z Deklaracji Niepodległości, i miejsce na 24 podpisy. Albo na 12. Washington Post podaje 24, natomiast na kopii, jaką widziałem (w Washington Post, oczywiście) było miejsce na podpisów 12. Nawiasem mówiąc, piękne pergaminy upamiętniające wyzwolenie spod brytyjskiej niewoli sprezentowała Amerykanom Enyclopaedia Britannica.

Z siedmiu miejsc na północy, południu i zachodzie Stanów Zjednoczonych wyruszyły owe Wagon Trains – karawany powozów, jakby wyjętych z westernów. Kierowały się na wschodnie wybrzeże, odtwarzając historyczny rozwój Stanów. Jak łatwo zauważyć, odtwarzając w odwrotnym kierunku, co zapewne budziło interesujące myśli w głowach Indian. Celem ostatecznym była Valley Forge w Pensylwanii, miejsce ważne, tu bowiem podczas wojny rewolucyjnej, na przełomie 1777 i 1778 roku, armia Waszyngtona chorowała na czerwonkę, żółtaczkę, dur brzuszny i zapalenie płuc.

Powozy wiozły PPP, a ludzie je podpisywali. Popularność akcji przerosła wszelkie oczekiwania. Przygotowano sześćdziesiąt powozów, z inicjatywy oddolnej dołączyło do nich dwieście następnych. Przygotowano 200 tysięcy PPP, skończyły się w ciągu tygodnia. Jak łatwo się domyśleć, podpisane PPP miały trafić do kolejnej kapsuły czasu i przeleżeć w niej 100 lat. Wówczas potomni kapsułę otworzą, podpisy wyjmą i… nie wiem, co uczynią.

Ta niewiedza mało przeszkadzała Amerykanom, na PPP złożono 22 miliony podpisów. 10% populacji zadeklarowało wierność. Jak łatwo policzyć, około miliona (albo dwóch milionów) podpisanych PPP trafiło do Valley Forge. Washington Post estymuje, że gdyby te wszystkie kartki ułożyć w jeden stos, byłby on niesłychanie wysoki. Miałby jakoby 65 metrów (mnie wychodzi bliżej 100 metrów, albo 200).

Jak się skończyło to budujące przedsięwzięcie? Prezydent Ford podpisał swój PPP 4. lipca 1976 roku (dokument nosi datę 3. lipca, komuś się pokićkało). Tego samego dnia podpisał również ustawę tworzącą Narodowy Park Valley Forge, przeniósł więc chwalebny obowiązek zarządzania tym drogim każdemu Amerykaninowi miejscem ze stanu Pensylwania na rząd federalny. I czy to z powodu komplikacji związanych z przejęciem, czy to z powodu czyjegoś nadmiernego przejęcia się uroczystością, cały milion (a może dwa) PPP, 4 i pół tony (a może 9 ton) papieru, wszystkie pracowicie kaligrafowane podpisy, najzwyczajniej w świecie zginęły. I nikt ich od tej pory nie widział.

* sześć metrów w Autobiografii, we Wszystko czerwone ten sam pręt miał ich „przeszło trzy”.

%d blogerów lubi to: