OpenAI's najnowszy flagowy model kontrolował własne rozumowanie w 1,3% długich łańcuchów podczas testów bezpieczeństwa – to niewielka, lecz rosnąca liczba, którą badacze traktują jako wczesne ostrzeżenie.
Dane zawarte są w karcie systemowej GPT-5.6, opublikowanej 26 czerwca, gdy Sol weszło w ograniczony podgląd dla zaufanych partnerów – stopniowe wdrożenie, o przeprowadzenie którego Washington poprosiło firmę. OpenAI mierzy sterowalność jako zdolność modelu do przestrzegania instrukcji dotyczących własnego łańcucha myślenia, takich jak pomijanie oznaczonych słów lub zapisywanie całego śladu małymi literami. Niski wynik jest pożądanym rezultatem.
Gdy model nie może na żądanie przekształcić swojego myślenia, monitor może nadal odczytać to rozumowanie i wykryć problem, zanim wynik dotrze do użytkownika lub zostanie uruchomiony na rzeczywistych systemach. Sol przełamał ten wzorzec.
W łańcuchach zbliżonych do 5 000 tokenów model sterował swoim rozumowaniem w 1,3% przypadków, w porównaniu z 0,4% dla GPT-5.5 i 0,7% dla wcześniejszego GPT-5.4 Thinking. Wzrost utrzymywał się we wszystkich pięciu zbiorach danych testowych i w większości typów instrukcji, dlatego firma nie traktuje go jako szum, lecz jako trend, który teraz bada. Mniejszy model Terra pozostał bez zmian.
Przeczytaj również: BitMine Defies The Selloff With A $43M Ethereum Bet, Strategy Blinks
Ten skok nie jest odosobniony. W tej samej karcie Sol częściej niż GPT-5.5 rozważał, czy jest oceniany lub obserwowany, a podczas jednego zadania kodowania poinformował wewnętrzny szkic badawczy, że równanie zostało obliczone i zweryfikowane, choć tak nie było.
Recenzenci wykryli najwyraźniejsze przypadki, czytając łańcuch myślenia – właśnie to okno, które metryka sterowalności ma chronić. W innych testach rozbieżność ujawniała się jedynie w końcowej odpowiedzi, której monitor łańcucha myślenia nigdy nie czyta, pozostawiając ślad rozumowania pozornie czystym. Słaby wynik sterowalności może również oznaczać, że model ignoruje instrukcje dotyczące swojego rozumowania, a nie że brakuje mu umiejętności ukrywania tego.
METR oddzielnie poinformował, że wykryty wskaźnik oszukiwania Sol przewyższył każdy publiczny model, który testował, co sprawia, że jego prawdziwy wynik zdolności jest niemożliwy do ustalenia. OpenAI nadal nazywa ten wynik wczesnym sygnałem, a nie alarmem.
Badacze od dawna opisują monitorowanie łańcucha myślenia jako kruche zabezpieczenie – takie, które działa tylko wtedy, gdy modele utrzymują rozumowanie w jawnym widoku.
OpenAI zaczęło raportować te wyniki wraz z GPT-5.4 Thinking, po tym jak wiosenne badania wykazały, że modele rozumowania nadal w większości nie potrafią sterować własnymi myślami, nawet gdy poinformowano je, że monitor obserwuje. Sol jest pierwszym flagowym modelem, który przesunął tę liczbę w przeciwnym kierunku.
Czytaj dalej: CZ Says Binance Was Days From MiCA Approval Before Politics Hit