Współzałożyciele izraelskiego AI21 Labs (od lewej): Ori Goshen, Yoav Shoham i Amnon Shashua.Współzałożyciele izraelskiego AI21 Labs (od lewej): Ori Goshen, Yoav Shoham i Amnon Shashua.

Co „cud" sztucznej inteligencji mówi o przyszłości technologii biznesowej

2022/04/20 04:37
6 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem crypto.news@mexc.com

AI21 Labs jest trochę jak izraelska odpowiedź na działające w USA OpenAI. Jest zarówno laboratorium badawczym, prowadzącym przełomowe prace nad przetwarzaniem języka naturalnego (NLP), jak i firmą komercyjną, która ma nadzieję szybko przekształcić te najnowocześniejsze osiągnięcia w produkty, z których prawdziwe firmy mogą korzystać — i za które mogą płacić.
AI21 Labs zostało założone przez Yoava Shohama, emerytowanego profesora sztucznej inteligencji na Uniwersytecie Stanforda; Amnona Shashuę, współzałożyciela firmy Mobileye zajmującej się oprogramowaniem do autonomicznej jazdy, która została przejęta przez Intel; oraz Oriego Goshena, założyciela platformy crowdfundingowej CrowdX. Wzniosłym celem firmy jest „na nowo wyobrażenie sobie sposobu, w jaki ludzie czytają i piszą, na lepsze."
Laboratorium zbudowało nowy system, który z pewną bezczelnością nazywa „Miracle" — bardziej przyjazną wersją MRKL, skrótu od Modular Reasoning, Knowledge and Language system (Modułowy System Rozumowania, Wiedzy i Języka). MRKL jest ważny ze względu na to, co mówi o czterech kluczowych trendach dotyczących tego, jak firmy będą w przyszłości wykorzystywać sztuczną inteligencję.
Po pierwsze, MRKL jest zaprojektowany do obsługi wszelkiego rodzaju zadań związanych z językiem naturalnym, a nie tylko jednego konkretnego zadania, jak większość takich systemów do niedawna. Na przykład, jeśli chciałeś chatbota obsługi klienta, ta sama sztuczna inteligencja nie mogła pomóc w analizie nastrojów podczas rozmów o wynikach finansowych dyrektorów generalnych. Ale teraz jeden silnik NLP może pomóc w obsłudze obu zadań. To kolejny przykład prawdziwej rewolucji w NLP i wpływu, jaki zaczyna ona wywierać na biznes.
Drugi, ściśle powiązany trend, na który warto zwrócić uwagę, polega na tym, że te ogólne systemy NLP będą coraz częściej budowane na „ultra-dużych modelach językowych" — pojedynczych algorytmach, które uczą się miliardów statystycznych zależności między słowami. Są one trenowane na ogromnych ilościach tekstu zebranego z internetu, w tym na książkach napisanych po angielsku i w innych językach, a także na publicznych źródłach, takich jak Wikipedia i wątki na Reddicie. Większość tych systemów jest trenowana albo do przewidywania brakującego słowa w zdaniu, albo następnego słowa w zdaniu. Okazuje się jednak, że gdy zbudujesz tak duży system sztucznej inteligencji i wytrenuje się go do robienia jednej rzeczy, jest on również w stanie robić wiele innych rzeczy przy minimalnym lub zerowym dodatkowym treningu: tłumaczenie, odpowiadanie na pytania i pisanie oryginalnych fragmentów tekstu.
Co więcej, przy odrobinie dodatkowego treningu na stosunkowo niewielkiej liczbie przykładów, te duże modele językowe często mogą przewyższać mniejsze systemy sztucznej inteligencji, które były trenowane na dużych zbiorach danych — często opracowywanych za ogromne pieniądze — aby wykonać jedno wąskie zadanie. To właśnie ta zdolność do działania przy „małej ilości danych" sprawia, że ultra-duże modele językowe są tak potencjalnie atrakcyjne dla biznesu, ponieważ ich używanie może być szybsze i tańsze.
Być może najbardziej znany przykład ultra-dużego modelu językowego dostępnego do użytku komercyjnego to GPT-3 firmy OpenAI. OpenAI ma bliskie relacje z Microsoftem, który zainwestował w firmę ponad 1 miliard dolarów, i, co nie jest zaskoczeniem, Microsoft włączył GPT-3 do produktu, który automatycznie pisze kod komputerowy. Udostępnia również tę technologię swoim klientom chmury Azure.

AI21 Labs ma własny ultra-duży model językowy o nazwie Jurassic-1, który udostępniło komercyjnie w zeszłym roku i który, jak twierdzi, jest lepszy od GPT-3, częściowo dlatego, że ma większe „słownictwo tokenów". Odnosi się to do liczby słów i części słów, które zna. Jurassic ma słownictwo tokenów przekraczające 250 000, pięciokrotnie więcej niż GPT-3.
Istnieją dobrze udokumentowane problemy z tymi ultra-dużymi modelami językowymi, w tym to, że można je skłonić do generowania toksycznego języka. Ale inną ogromną wadą jest to, że mają tendencję do generowania niedokładnych informacji w odpowiedzi na pytania faktyczne.
Na przykład, zapytaj GPT-3 o dodanie dwóch plus dwa, a pewnie powie ci cztery, ale zapytaj go o dodanie kilku czterо- i pięciocyfrowych liczb, a jest duże prawdopodobieństwo, że z równą pewnością siebie poda błędną odpowiedź. Zapytaj go, jaka jest teraz pogoda w Nowym Jorku, a odpowie, ale prawdopodobnie będzie to temperatura w Nowym Jorku z momentu, gdy dane z AccuWeather zostały pobrane do jego zestawu treningowego, a nie dzisiejsza pogoda. Ten sam problem dotyczy pytań o bieżące wydarzenia, a nawet naukę. A ponieważ te duże modele językowe są tak duże, ich trenowanie jest niezwykle kosztowne — w milionach dolarów — więc ciągłe aktualizowanie w celu zapewnienia aktualności danych nie jest praktyczne.
To jest problem, który AI21 Labs postanowiło rozwiązać za pomocą MRKL (pisałem o jednej z poprzednich innowacji laboratorium tutaj). Co prowadzi nas do trzeciego dużego trendu, który reprezentuje MRKL: MRKL jest systemem hybrydowym. Nie używa wyłącznie głębokiego uczenia — metody sztucznej inteligencji odpowiedzialnej za większość wielkich skoków naprzód w technologii w ciągu ostatniej dekady. Zamiast tego łączy różne moduły, z których niektóre używają głębokiego uczenia, a niektóre używają starszej formy sztucznej inteligencji — rozumowania symbolicznego — aby zapewnić dokładne, aktualne odpowiedzi na pytania faktyczne.
Sprytną rzeczą w MRKL jest moduł zwany routerem, który przyjmuje pytanie od użytkownika i ustala, jakiego rodzaju informacji użytkownik szuka. Jeśli pytanie dotyczy matematyki, wysyła je do zwykłego, staromodnego kalkulatora naukowego. Jeśli dotyczy kursów walut, kieruje je do przelicznika walut. Jeśli chodzi o pogodę, wysyła je na stronę z prognozami. Według Shohama MRKL obsługuje obecnie 55 takich modułów specyficznych dla zadań. Jeśli router nie jest pewien, który moduł jest najlepszy, odwołuje się do Jurassic-1. Jurassic pomaga również komponować kontekstowy język wokół odpowiedzi MRKL.
Kolejną sprytną innowacją jest to, jak AI21 Labs jest w stanie wywołać właściwy rodzaj odpowiedzi od Jurassic. Robi to za pomocą metody zwanej „dostrajaniem podpowiedzi" (prompt tuning), w której sposób, w jaki początkowe pytanie lub fragment tekstu jest podawany do ultra-dużego modelu językowego, pomaga określić charakter wyników. To jeden ze sposobów dostosowania sztucznej inteligencji do określonego rodzaju zadania bez konieczności jej dostrajania za pomocą dodatkowych danych treningowych. Problem z dodatkowym treningiem polega na tym, że gdy system staje się lepszy w jednym wąskim zadaniu, faktycznie pogarsza się w innych. Badacze nazywają ten problem „katastrofalnym zapominaniem".
Niektórzy badacze sztucznej inteligencji pokonują katastrofalne zapominanie, trenując model dla różnych, odmiennych zadań jednocześnie, ale wymaga to dużej mocy obliczeniowej, czasu i pieniędzy. Dostrajanie podpowiedzi tego unika. Innowacja AI21 Labs w MRKL polega na tworzeniu małych modułów głębokiego uczenia, które mogą automatycznie dostrajać podpowiedzi dla Jurassic w locie, przyjmując zapytanie użytkownika i komponując najlepszy zestaw podpowiedzi, aby skłonić Jurassic do udzielania odpowiedzi w odpowiednim stylu i formacie.
A oto reszta wiadomości z tego tygodnia dotyczących sztucznej inteligencji.   

Jeremy Kahn
@jeremyakahn
jeremy.kahn@fortune.com

Ta historia została pierwotnie opublikowana na Fortune.com

World Cup Combo: Aim for 200x

World Cup Combo: Aim for 200xWorld Cup Combo: Aim for 200x

Combine up to 20 World Cup matches in one order

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z crypto.news@mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.