Zrozumienie przyczyn złej kondycji psychicznej jest jednym z kluczowych wyzwań naszych czasów. Ale odpowiedź na pytanie, co stoi za pogorszeniem naszego stanu, w przypadku każdego z nas będzie brzmiała inaczej. Znalezienie tego, co pomaga nam odzyskać równowagę i rozwijać mózg, pomoże rozwikłać tę zagadkę. Możliwości odzyskania sił i zwiększenia odporności jest więcej, niż mogłoby się wydawać.
Fragment książki „Mózg w równowadze”, Camilla Nord, Wydawnictwo Kobiece
Jak uczymy się oczekiwać dobrego samopoczucia?
Mózg uczy się wielu rzeczy, ale prawdopodobnie najważniejszą z nich jest to, jak przetrwać w otaczającym świecie. Kiedy zdobywamy rzeczy, które nam w tym pomagają – jedzenie, pieniądze lub bardziej abstrakcyjne nagrody, takie jak przyjemne doświadczenia – mózg szybko się uczy, jak to powtórzyć. Zyskuje wiedzę, w jakich okolicznościach zdobywamy nagrodę i jakie działania musimy podjąć w tym celu. Kiedy doświadczamy czegoś przeciwnego – bólu, głodu, odrzucenia społecznego – mózg musi szybko nauczyć się, jak unikać tego, co spowodowało tak nieprzyjemne skutki.
Mechanizmy uczenia się mają kluczowe znaczenie dla utrzymania zdrowia psychicznego. Można sobie wyobrazić, dlaczego do świadczenia takie jak przewlekły ból (...), mogą wynikać z tych samych mechanizmów uczenia się, które pomagają nam przetrwać. Jeśli ulegniesz urazowi w wyniku jakiegoś działania, nocyceptory zaczną wysyłać sygnały bólu przez rdzeń kręgowy do mózgu za każdym razem, gdy powtórzysz to działanie. Mózg szybko uczy się, co może powodować ból, a co pomaga go uniknąć. Aby zminimalizować ryzyko, mózg zaczyna przewidywać ból w związku z określonymi działaniami jeszcze przed ich wykonaniem. Ostatecznie, nawet całkowicie wyleczony uraz może wywoływać odczucie bólu w mózgu mimo braku sygnału z nocyceptorów. W ten sposób mózg sam przyczynia się do przewlekłego bólu. Podobny proces może leżeć u podstaw lęku: mózg uczy się, których działań należy unikać, i przewiduje (czasami „na zapas”) ich negatywne psychologiczne konsekwencje.
Także długoterminowe, abstrakcyjne nagrody, które są nam potrzebne, aby utrzymać ogólny dobrostan (takie jak związki na całe życie lub zapewnienie sobie dachu nad głową), opierają się na procesach uczenia się zachodzących w mózgu. Te bardziej złożone nagrody i kary są przetwarzane przy użyciu tego samego systemu, który pomaga nam przetrwać, zdobywać pożywienie i unikać drapieżników. Dogłębne zrozumienie, w jaki sposób nasz mózg uczy się o tym, co na świecie jest dla nas dobre, a co złe, może być cenną wskazówką prowadzącą do poprawy zdrowia psychicznego. Nauka zmierza obecnie w kierunku odkrycia nowych, skutecznych metod leczenia zaburzeń psychicznych opartych na wykorzystaniu tego procesu.
Historia, którą chcę opowiedzieć, rozpoczęła się kilkadziesiąt lat temu od eksperymentu na małpach, który zrewolucjonizował naszą wiedzę o tym, jak uczy się mózg.
W jaki sposób nasz mózg zdobywa wiedzę o świecie? W proces uczenia się zaangażowanych jest wiele obszarów mózgu i substancji chemicznych, ale jeden komunikat biologiczny jest szczególnie ważny. Jest nazywany błędem predykcyjnym (błędem przewidywania) lub błędem predykcji nagrody i sygnalizuje, że przewidywania mózgu były błędne. Nakazuje mózgowi uczyć się i aktualizować swoje oczekiwania, aby lepiej przygotować się na przyszłość.
Z błędami predykcyjnymi mamy do czynienia każdego dnia. Jeśli ciągle chodzisz na kawę do swojej ulubionej kawiarni, masz bardzo jasne wyobrażenie o tym, jak powinna smakować, zanim weźmiesz łyk. Jeśli pewnego dnia kawa smakuje jeszcze lepiej niż zwykle, jesteś zaskoczony – doświadczasz „pozytywnego błędu predykcyjnego”. Sygnalizuje to mózgowi, by zaktualizował oczekiwania co do nagrody, jakiej spodziewasz się po następnej wypitej kawie. Jeśli natomiast któregoś dnia kawa smakuje gorzej, znowu jesteś zaskoczony, jednak tym razem doświadczasz negatywnego błędu predykcyjnego. Taki błąd zmniejsza oczekiwania co do nagrody, jaką spodziewasz się uzyskać. Po takim doświadczeniu stajesz się bardziej ostrożny w swoich kawowych wyborach, więc zmieniasz kawiarnię lub w ogóle przestajesz kupować kawę. Może nawet wyciągasz dalej idące wnioski i zaczynasz myśleć, że w ogóle nie da się przewidzieć smaku kawy! Jak widać, uczucie zaskoczenia i to, czego się z niego uczysz, jest podstawowym źródłem oczekiwań, a oczekiwania mogą zmienić twoje zachowanie.
Kawa była prostym przykładem, ale życie jest wypełnione wieloma metaforycznymi „filiżankami kawy” o lepszym lub gorszym smaku. Nasze instynkty i preferencje opierają się na uczeniu się na podstawie błędów predykcyjnych. Początkowo uczymy się, w jaki sposób zdobywać żywność, poczucie bezpieczeństwa, wsparcie społeczne i inne rzeczy pomocne w przetrwaniu, wykorzystując błędy pozytywne.
Negatywnych błędów predykcyjnych używamy, aby dowiedzieć się, czego należy unikać. Ból lub choroba są źródłem nowych błędów predykcyjnych dotyczących źródeł dyskomfortu – pomagają je przewidzieć i unikać w przyszłości. Ludzie różnią się nieco od siebie pod względem stopnia, w jakim uczą się ze swoich doświadczeń. Niektórzy mogą być wrażliwsi na pozytywne, a inni na negatywne błędy predykcyjne. Przez lata zdobywania doświadczeń i nauki te niewielkie różnice w sposobie uczenia się mózgu kumulują się i mogą sprawić, że będziemy oczekiwać lepszych lub gorszych wyników oraz zaczniemy budować ogólne postrzeganie świata jako dobrego lub złego miejsca.
Pozytywne i negatywne oczekiwania co do nagrody w szczególny sposób wiążą się z jednym z układów chemicznym mózgu – układem dopaminowym. Być może słyszałeś, że dopamina jest „substancją przyjemności”, ale nie jest to najlepszy opis. Jeśli istnieją takie substancje, to prawdopodobnie są to endogenne opioidy. Wywoływanie przyjemności nie jest najprecyzyjniejszym sposobem opisania roli dopaminy, ale w wielu procesach związanych ze zdrowiem psychicznym rzeczywiście odgrywa ona kluczową rolę, chociaż na inne sposoby. Jednym z nich jest wpływ na naszą zdolność uczenia się, co w środowisku jest dla nas dobre. Odkrycia, że dopamina odgrywa kluczową rolę w procesie uczenia się, dokonali pod koniec lat 90. Wolfram Schultz, Read Montague, Terry Sejnowski i Peter Dayan. Rejestrowali oni aktywność komórek mózgowych małp w obszarach bogatych w dopaminę, dając im od czasu do czasu nagrodę w postaci kilku kropli soku owocowego.
Na początku eksperymentu, gdy małpy zaczęły otrzymywać sok (nieoczekiwana przyjemność, czyli pozytywny błąd predykcyjny), ich komórki dopaminergiczne stawały się znacznie aktywniejsze niż zwykle. Następnie, przed kroplami soku, naukowcy zaczęli dawać małpom sygnał w postaci błysku światła. Dzięki precyzyjnemu do stosowaniu czasu między błyskiem światła a podaniem soku małpy zostały uwarunkowane tak, aby oczekiwać otrzymania soku, gdy błysnęło światło. Jest to znane jako warunkowanie klasyczne lub pawłowowskie, od eksperymentu Iwana Pawłowa, który warunkował swoje psy, aby zaczynały się ślinić w oczekiwaniu na jedzenie w odpowiedzi na dźwięk dzwonka.
Małpy doświadczały na przemian błysku i kropli soku, błysku i kropli soku, błysku i kropli soku, i tak w kółko. Z biegiem czasu naukowcy zauważyli, że komórki dopaminergiczne zaczęły odpalać się w innym momencie. Na początku aktywowały się, gdy małpy otrzymywały zaskakującą nagrodę w postaci soku. Z czasem, gdy stało się to mniej zaskakujące, komórki przestawały się uruchamiać. Nie występował pozytywny błąd predykcyjny nagrody w postaci soku, ponieważ otrzymanie soku było już całkowicie przewidywalne. Nie zatrzymało to jednak całkowicie odpalania się komórek – zmienił się tylko czas. Gdy małpy nauczyły się, że błysk światła poprzedza otrzymanie soku, komórki dopaminergiczne zaczęły odpalać się, gdy błysnęło światło. Błysk światła pozwalał im przewidywać nagrodę – gdy małpa go zobaczyła, wiedziała, że niedługo dostanie sok.
Początkowo dopamina sygnalizuje nieoczekiwaną nagrodę (kroplę soku), ale gdy nagroda nie jest już niczym zaskakującym, związek ten zaczyna sygnalizować czynnik pozwalający oczekiwać nagrody (błysk światła). Wiadomość, którą przekazuje, to oczekiwanie nagrody, a nie sama nagroda. Dopamina jest biologicznym sygnałem uczenia się dla mózgu. Oznacza to, że komórki dopaminergiczne same przewidują nagrodę (sok) za każdym razem, gdy pojawia się światło, czyli że „uczą się” związku między światłem a sokiem.
Funkcjonowanie komórek dopaminergicznych pokazuje nam, jak w mózgu mogą rodzić się oczekiwania. W prawdziwym świecie, nawet gdy nauczymy się przewidywać pewne efekty, może zdarzyć się coś zaskakującego i mimo że oczekujemy pozytywnego wyniku, czeka nas rozczarowanie – na przykład dostajemy okropną kawę podczas kolejnej wizyty w ulubionej kawiarni. Naukowcy przetestowali na małpach również to zjawisko. Pokazywali im błysk światła, ale nie dawali potem soku, czyli małpy spotykały się z negatywną niespodzianką. Kiedy tak się działo, ich komórki dopaminergiczne obserwowane przez badaczy zmniejszały swoją aktywność dokładnie w momencie, w którym powinno nastąpić podanie soku.
Sygnalizowały w ten sposób negatywny błąd predykcyjny. Rozczarowanie, podobnie jak pozytywna niespodzianka, wysyła sygnał uczenia się, wzmacniany przez ograniczenie odpalania się komórek. Z czasem ten nowy negatywny sygnał może zastąpić pierwotne pozytywne skojarzenie i nauczyć małpy, by nie oczekiwały już soku, gdy zobaczą błysk światła. W ten sposób oduczamy się pozytywnych skojarzeń i, na przykład, przestajemy chodzić do kawiarni.
Zarówno nieoczekiwanie dobre wyniki (pozytywne błędy predykcyjne), jak i nieoczekiwanie złe (błędy negatywne) są sposobem uczenia się o świecie. Są kodowane w komórkach dopaminergicznych, które mogą odpowiednio zwiększać lub zmniejszać swoją aktywność. Gdy coś jest nieoczekiwanie lepsze niż to, co mózg przewidywał chwilę wcześniej, komórki zwiększają swoją aktywność, sygnalizując błąd predykcyjny. W wyniku procesu uczenia się komórki odpalają się już w oczekiwaniu na zdarzenie, na sygnał, który pozwala przewidywać nagrodę. Może to wyjaśniać, w jaki sposób nasz mózg uczy się o świecie.
Termin „błędy predykcyjne” zapożyczono z inżynierii, ponieważ zdolność komórek dopaminergicznych do uczenia się przypominała naukowcom tak zwane algorytmy uczenia przez wzmacnianie. Są one wykorzystywane w uczeniu maszynowym. Dzięki nim sztuczna inteligencja może nauczyć się, jakie działania należy wykonać, otrzymując jedynie informacje o tym, które z poprzednich działań przyniosły pozytywny wynik, a które nie. (Różni się to od algorytmów zaprogramowanych do wykonywania określonych działań w określonych sytuacjach, które dostosowują się na podstawie in formacji zwrotnych).
Sposób, w jaki algorytm się „uczy”, polega na tym, że jego kod nakazuje mu zminimalizować błąd predykcyjny, czyli różnicę między tym, co przewidywał, a tym, co rzeczywiście się wydarzyło. Załóżmy, że algorytm początkowo wybiera działanie losowo, a przy każdym następnym wyborze analizuje błędy predykcyjne i na ich podstawie dostosowuje swoje następne działania, aż w końcu przewidywania i oczekiwania są tak dopasowane, jak to tylko możliwe. Oznacza to, że algorytm znalazł działania, które dają najmniejsze błędy predykcyjne w przypadku określonego środowiska. Ta zdolność umożliwia algorytmowi uczenie się określonych sekwencji, gier, podejmowanie decyzji i innych skomplikowanych zachowań, które opierają się na sprzężeniu zwrotnym. Jeśli brzmi to dla ciebie tak, jakby algorytm mógł nauczyć się wykonywać ogromną liczbę zadań podobnych do ludzkich, czasami lepiej niż sami ludzie – masz rację. Niektórzy naukowcy uważają, że ludzki mózg również tak funkcjonuje – minimalizuje błędy predykcyjne, aby zoptymalizować proces uczenia się.
Neuronaukowiec Karl Friston zaproponował to jako ogólną teorię funkcjonowania mózgu. Według niej celem mózgu jest zminimalizowanie błędów predykcyjnych lub zaskoczenia w perspektywie długoterminowej poprzez dostosowanie swoich przewidywań i działań. Z pewnością tak wydają się działać komórki dopaminergiczne. Dzięki wykorzystaniu algorytmu uczenia się ze wzmocnieniem naukowcy byli w stanie precyzyjnie przewidzieć, kiedy komórki dopaminowe małp zwiększą lub zmniejszą aktywność w odpowiedzi na sok (lub jego brak).
„Znaleźliśmy coś, co w ciekawy sposób uwzględniało zmiany w odpalaniu komórek dopaminergicznych i mogło pomóc nam zrozumieć, jak dokonywane są wybory na podstawie sygnałów” – powiedział w wywiadzie przeprowadzonym po latach jeden z członków zespołu, Read Montague.
Kilka lat później ten sam efekt w eksperymencie przeprowadzonym z udziałem ludzi przy użyciu fMRI wykazali John O’Doherty, Peter Dayan, Karl Friston, Hugo Critchley i Ray Dolan. Na początku, przed rozpoczęciem procesu uczenia się, sygnały błędu predykcyjnego pojawiały się w odpowiedzi na nieoczekiwaną nagrodę (sok o przyjemnym smaku). Potem, gdy ludzie nauczyli się oczekiwać soku, przesuwały się w czasie do momentu, gdy pojawiała się wskazówka, że można oczekiwać nagrody. Podobnie jak u małp nasze komórki dopaminergiczne mogą się uczyć i dostosowywać swoją aktywność zgodnie z informacjami, które płyną ze środowiska, a co za tym idzie – przewidywać, co się wydarzy.
Ludzie są bardzo wrażliwi na nagrody. Oznacza to, że gdy efekt jest lepszy, niż oczekujemy – nawet tylko trochę – nasz mózg uczy się o tym na podstawie błędu predykcyjnego i dzięki temu możemy odpowiednio dostosować nasze działania. Ponieważ przetrwanie biologiczne zależy od jak najdokładniejszego przewidywania sposobów zdobycia pożywienia, wody, partnerów i tak dalej, można powiedzieć, że sygnały predykcyjne są najważniejszą funkcją naszego mózgu. (Jeśli spotkasz niewłaściwych neuronaukowców, zaraz usłyszysz, że najważniejszą funkcją mózgu jest postrzeganie, utrzymywanie oddechu, poruszanie się, spanie lub robienie wielu innych ważnych rzeczy, więc traktuj to z przymrużeniem oka). Niemniej jednak błędy predykcyjne utrzymują nas przy życiu. Wielu naukowców uważa również, że są one podstawą doświadczania przez nas pozytywnych i negatywnych stanów emocjonalnych.