W ciągu ostatnich kilku lat transformatory autoregresyjne przyniosły stały strumień przełomów w modelowaniu generatywnym. Modele te generują każdy element próbki — piksele obrazu, znaki tekstu (zwykle w fragmentach „tokenowych”), próbki fali dźwiękowej itd. — poprzez przewidywanie jednego elementu po drugim. Przewidując kolejny element, model może spojrzeć wstecz na te, które powstały wcześniej.

Jednak każda z warstw Transformera staje się droższa, ponieważ więcej elementów jest wykorzystywanych jako dane wejściowe, a praktycy mogą sobie pozwolić tylko na trenowanie głębokich Transformerów na sekwencjach o długości nie większej niż około 2048 elementów. I tak, większość modeli opartych na Transformatorach ignoruje wszystkie elementy wykraczające poza ostatnią przeszłość (około 1500 słów lub 1/6 małego obrazu) podczas przewidywania.

W przeciwieństwie do naszego niedawno opracowanego Modele odbiorców dają doskonałe wyniki w różnych rzeczywistych zadaniach z maksymalnie około 100 000 elementów. Odbiorcy wykorzystują uwagę krzyżową do kodowania danych wejściowych w utajoną przestrzeń, odsprzęgając wymagania obliczeniowe danych wejściowych z głębokości modelu. Odbiorcy wydają również stały koszt, niezależnie od wielkości danych wejściowych, w prawie każdej warstwie.

Podczas gdy kodowanie w przestrzeni utajonej obsługuje wszystkie elementy w jednym przebiegu, generacja autoregresyjna zakłada, że ​​przetwarzanie odbywa się po jednym elemencie na raz. Aby rozwiązać ten problem, Perceiver AR proponuje proste rozwiązanie: dopasowuj latenty jeden po drugim do końcowych elementów danych wejściowych i starannie maskuj dane wejściowe, aby latenty widziały tylko wcześniejsze elementy.

Perceiver AR mapuje sekwencję wejściową (P erceiver AR) do małej utajonej przestrzeni poprzez wzajemną uwagę, aby wytworzyć jeden utajony dla każdego tokena docelowego (pokazano 3 latenty, jeden dla celów AR , dla miznaleźć Of Skolejność). Te latenty są następnie przetwarzane przez głęboki stos warstw samouwagi. Perceiver AR można wytrenować pod kątem kompleksowego generowania autoregresyjnego, a wszystko to przy użyciu bardzo długich sekwencji wejściowych.

Rezultatem jest architektura (pokazana powyżej), która obsługuje nawet 50-krotnie dłuższe dane wejściowe niż standardowe transformatory, jednocześnie wdrażając tak szeroko (i zasadniczo równie łatwo) jak standardowe transformatory tylko z dekoderem.

Wraz ze wzrostem długości kontekstu lub rozmiaru modelu rośnie ilość obliczeń potrzebnych do trenowania modelu. Możemy określić ilościowo budżet obliczeniowy dla różnych modeli, mierząc ich szybkość na rzeczywistym sprzęcie (kroki na sekundę na TPUv3), gdy zwiększa się długość kontekstu wejściowego i rozmiar modelu. W przeciwieństwie do innych modeli generatywnych, takich jak Transformer lub Transformer-XL, Perceiver AR oddziela długość kontekstu wejściowego od głębokości modelu, umożliwiając nam łatwe wdrażanie głębokich modeli potrzebnych do modelowania długich sekwencji na TPU lub GPU obecnej generacji.

Perceiver AR skaluje się znacznie lepiej pod względem rozmiaru niż standardowe modele Transformers i Transformer-XL w zakresie długości sekwencji w ujęciu rzeczywistym. Ta właściwość pozwala nam na budowanie bardzo efektywnych modeli długokontekstowych. Na przykład stwierdzamy, że 60-warstwowy Perceiver AR o długości kontekstu 8192 przewyższa 42-warstwowy Transformer-XL w zadaniu generowania długości książki, a jednocześnie działa szybciej w warunkach rzeczywistego zegara ściennego.

W standardowych testach porównawczych generowania obrazu o długim kontekście (ImageNet 64×64), języka (PG-19) i muzyki (MAESTRO), Perceiver AR zapewnia doskonałe wyniki. Zwiększenie kontekstu wejściowego poprzez oddzielenie wielkości wejściowej od budżetu obliczeniowego prowadzi do kilku intrygujących wyników:

  • Budżet obliczeniowy można dostosowywać w dowolnym momencie, co pozwala nam wydać mniej i płynnie obniżyć jakość lub wydać więcej na ulepszoną generację.
  • Większy kontekst pozwala Perceiver AR przewyższać Transformer-XL, nawet jeśli wydaje tyle samo na obliczenia. Uważamy, że szerszy kontekst prowadzi do poprawy wydajności modelu nawet w przystępnej skali (parametry ~1B).
  • Jakość próbki Perceiver AR wykazuje znacznie mniejszą wrażliwość na kolejność generowania elementów. Dzięki temu Perceiver AR można łatwo zastosować do ustawień, które nie mają naturalnego uporządkowania od lewej do prawej, takich jak dane, takie jak obrazy, ze strukturą obejmującą więcej niż jeden wymiar.

Korzystając z zestawu danych muzyki fortepianowej, przeszkoliliśmy Perceiver AR do generowania nowych utworów muzycznych od zera. Ponieważ każda nowa nuta jest przewidywana w oparciu o pełną sekwencję nut, która pojawiła się wcześniej, Perceiver AR jest w stanie wyprodukować utwory o wysokim poziomie spójności melodycznej, harmonicznej i rytmicznej:

Zasoby

Dowiedz się więcej o korzystaniu z Perceiver AR:

  • Pobierz kod JAX do szkolenia Perceiver AR na Github
  • Przeczytaj nasz artykuł dalej arXiv
  • Sprawdź naszą prezentację spotlight na ICML 2022

Zobacz Google Magenta post na blogu z większą ilością muzyki!

By admin

Leave a Reply

Your email address will not be published.