GPT-5.4 Pro jumps to 150 IQ on MESNA Norway test as OpenAI breaks its own record
GPT-5.4 Pro достигает 150 IQ в тесте MESNA Norway, устанавливая новый рекорд OpenAI
Новейшая модель GPT-5.4 Pro от OpenAI достигла показателя IQ, превышающего 99,96% всех людей, что дает рынку новый сигнал о том, что возможности искусственного интеллекта начинают опережать обычный уровень развития продуктов.
OpenAI’s GPT-5.4 Pro достигает 150 по публичному показателю IQ, в то время как рынки входят в еще одну неделю, насыщенную макроэкономическими событиями
Публичная таблица лидеров TrackingAI теперь показывает, что OpenAI GPT-5.4 Pro имеет показатель IQ 150, что является значительным улучшением по сравнению с показателем 136, который OpenAI’s o3 показал в прошлом году в тесте Mensa Norway.
Этот скачок происходит в момент, когда внимание рынка сосредоточено на Иране, энергетике, смягчении ситуации на рынке труда и предстоящих данных по инфляции. Это ставит перед рынком новый вопрос: насколько быстро развивается машинный интеллект и когда эта ускоренная динамика начнет влиять на экономические прогнозы?
Почему это важно: Переход от 136 до 150 по общепринятому показателю сжимает сложный процесс развития возможностей в простой и понятный сигнал. Для бизнеса этот сигнал напрямую влияет на решения, касающиеся автоматизации, бюджетов на программное обеспечение и планирования штата сотрудников. Для рынков это добавляет еще один фактор, наряду со ставками, инфляцией и ожиданиями роста.
OpenAI представила GPT-5.4 как свою самую мощную и эффективную модель для профессиональной работы, с улучшенными возможностями кодирования, использования инструментов и работы с компьютером, а также с контекстным окном до 1 миллиона токенов. В том же объявлении OpenAI заявила, что GPT-5.4 достигла нового уровня производительности в GDPval и превзошла человеческие результаты в OSWorld-Verified.
Эти показатели отличаются от публичного теста IQ, но направление развития остается прежним. Возможности растут в различных системах измерения, и этот рост становится достаточно быстрым, чтобы влиять на планирование бюджета, найм сотрудников, проектирование рабочих процессов и расходы на программное обеспечение.
Показатель 150 в публичном тесте IQ, имитирующем IQ-тест, сжимает более широкий спектр улучшений возможностей в один понятный сигнал. Это число легко понять, даже не вдаваясь в детали методологии.
Более ранний результат o3 в тесте Mensa установил планку и ее ограничения. Окно контекста GPT-4.1 в один миллион токенов показало, как OpenAI расширяет возможности моделей для работы с длинными последовательностями кода и документов, в то время как наш анализ расширяющегося цикла капитала OpenAI связал прогресс моделей с расширением аппаратного обеспечения, финансовыми потоками и потребностями в инфраструктуре.
В совокупности эти разработки помещают последний показатель IQ в более широкий коммерческий и экономический контекст. Переход от 136 до 150 в общедоступном тесте – это само по себе значительное изменение. Переход от 136 до 150 в то время, как OpenAI активно внедряет инструменты, компьютерные технологии, повышает производительность предприятий и требует капиталоемкой инфраструктуры, имеет более широкие последствия.
Общедоступные тесты IQ имеют ограничения, но кривая возможностей продолжает расти.
Общедоступные тесты, имитирующие IQ, остаются несовершенными инструментами для оценки передовых моделей. TrackingAI проводит общедоступный тест, аналогичный Mensa, а также поддерживает более сложный закрытый тест.
Тесты, имитирующие IQ, сжимают узкий спектр когнитивных способностей в одно число, скрывая вариативность в типах мышления, обработке контекста, креативности и решении реальных проблем.
Как для ИИ, так и для людей, результаты тестов чувствительны к дизайну теста, объему обучающих данных и знакомству с шаблонами, что делает их неточным показателем общей способности.
IQ 150 находится в верхнем диапазоне распределения и часто ассоциируется с такими личностями, как Альберт Эйнштейн или Ричард Фейнман. На практике это подразумевает очень быструю абстракцию, сильное распознавание образов и способность решать сложные многоступенчатые задачи с минимальным руководством.
Платформа сообщает результаты в виде скользящих средних за последние выполненные задания, и эта методология поднимает знакомые вопросы о структуре запросов, воспроизводимости, загрязнении обучающего набора и знакомстве с форматом. Эти опасения уже были очевидны, когда o3 показал результат 136, и они остаются актуальными сейчас, когда GPT-5.4 Pro показывает результат 150.
Даже с учетом этих ограничений, общая тенденция становится все труднее игнорировать. Один изолированный результат теста можно объяснить как случайность. Кластер улучшений в общедоступных тестах, имитирующих IQ, в кодировании, использовании браузера, навигации по рабочему столу и производительности в области знаний, имеет больший аналитический вес.
Последний рейтинг от TrackingAI помещает GPT-5.4 Pro на первое место в общедоступном рейтинге IQ, опережая все модели Cluade, Gemini, Qwen и Grok, предлагая внешний, понятный общедоступный показатель, который быстро отражает более широкие дебаты о возможностях.
Некоторым людям для понимания того, что показатель 150 находится в редком диапазоне, не требуется глубокое понимание принципов разработки тестов, а инвесторам необязательно принимать все предпосылки, лежащие в основе теста, похожего на IQ, чтобы понять, что такой скачок указывает на ускорение, а не на случайные колебания.
График с заголовком «Результаты IQ-теста для ИИ», показывающий средние баллы IQ для основных моделей ИИ в Норвегии (Mensa Norway) на кривой нормального распределения, при этом варианты OpenAI GPT-5.4 расположены в верхней части диапазона.
Корпоративным покупателям необязательно верить, что IQ равен общему интеллекту, чтобы увидеть, что системы с более сильным распознаванием образов, более продвинутым использованием инструментов и более эффективной обработкой задач, требующих долгосрочного планирования, приближаются к экономически полезному уровню, выходя далеко за рамки решения головоломок.
Это указывает на системы, которые могут искать, планировать, проверять, ориентироваться и выполнять реальную работу в различных контекстах. В этом контексте показатель IQ выполняет не столько функцию простого числа, сколько сигнал о плотности передовых вычислительных возможностей.
Конкурентное преимущество также заключается в самом рейтинге. Лидирующие позиции в общедоступном рейтинге укрепляют позиции OpenAI в гонке за лидерством в области видимых возможностей, особенно в момент, когда становится все труднее различать модели только по архитектурным описаниям.
Лидерство в рейтингах упрощает сложность, сводя ее к простой иерархии. Это дает разработчикам сигнал, корпоративным покупателям – понятную концепцию, а инвесторам – еще один показатель того, где находится текущая граница возможностей.
CryptoSlate Daily Brief
Ежедневные сигналы, без лишнего шума.
Важные новости и контекст, представленные каждое утро в кратком обзоре.
Краткий обзор за 5 минут. Более 100 000 читателей.
Адрес электронной почты
Получить обзор
Бесплатно. Без спама. Отписка в любое время.
Ой, похоже, возникла проблема. Пожалуйста, попробуйте еще раз.
Вы подписаны. Добро пожаловать на борт.
Рост показателей OpenAI в рейтингах начинает совпадать с экономическими событиями предстоящей недели
В предстоящей неделе макроэкономические факторы остаются ключевыми. Календарь Бюро статистики труда calendar четко показывает следующие важные публикации: протоколы заседания Федерального комитета по операциям на открытом рынке (FOMC) от 17-18 марта, которые будут опубликованы 8 апреля; индекс потребительских цен за март, который будет опубликован 10 апреля; и индекс цен производителей за март, который будет опубликован 14 апреля.
Этот график поддерживает внимание к процентным ставкам, инфляции и опасениям по поводу экономического роста, но под этой поверхностью формируется еще один экономический трек, в центре которого находится OpenAI.
Рост возможностей в области передовых ИИ все больше пересекается с распределением капитала. Модель, которая демонстрирует более высокие результаты в тестах на логическое мышление, а также улучшает возможности в программировании, поиске и работе с компьютером, меняет то, как компании подходят к перепроектированию рабочих процессов. Это меняет ожидания покупателей программного обеспечения от помощников и агентов. Это меняет скорость, с которой предприятия переходят от экспериментов к внедрению.
Джек Дорси недавно написал, что компания Block переходит "от иерархии к интеллекту", используя ИИ для выполнения координационных задач, которые ранее выполнялись управленческими структурами, поскольку компания реорганизуется вокруг индивидуальных исполнителей, лиц, несущих прямую ответственность, и наставников.
Рост возможностей также меняет то, какие задачи можно вынести из структуры затрат на рабочую силу и переложить на программное обеспечение. Эти эффекты распространяются сначала по более узким каналам, включая документооборот, работу с электронными таблицами, поддержку клиентов, исследовательские задачи, автоматизацию браузера, внутренние операции, генерацию кода и циклы проверки.
Коммерческая стратегия OpenAI подтверждает эту интерпретацию. В материалах, посвященных запуску GPT-5.4 ссылка на материалы, компания описала улучшенные результаты в профессиональной работе, более эффективный поиск инструментов, встроенные возможности работы с компьютером и прогресс в области знаний, применимых к различным профессиям, что напрямую связано с экономикой США.
Это помещает рост возможностей ИИ в привычный контекст рыночных вопросов, определяя, куда будут направлены инвестиции, если эти системы продолжат улучшаться с такой же скоростью.
Ответ выходит за рамки доходов от подписки на модели и включает в себя спрос на облачные сервисы, чипы, центры обработки данных, сети, электроэнергию, лицензии на программное обеспечение и предположения о производительности труда. Расширяющийся цикл инвестиций OpenAI уже отражает часть этой структуры, а достигнутые результаты служат простым публичным индикатором.
Именно это пересечение придает последним результатам более широкую значимость в течение недели, насыщенной макроэкономическими событиями. Рынки уже знают о показателе CPI. Рынки уже знают, что цены на нефть могут влиять на инфляционные ожидания. Рынки уже знают, что протоколы Федеральной резервной системы будут тщательно анализироваться для определения тональности политики.
Но начинает ли сам рост интеллекта вести себя как макроэкономический фактор? Более быстрый рост возможностей может изменить планы предприятий по расходам, усилить конкурентное давление в сфере офисной работы, поддержать увеличение инвестиций в инфраструктуру и укрепить аргументы в пользу капитальных вложений, связанных с ИИ, даже в условиях замедления номинального роста.
Когда TrackingAI показывает GPT-5.4 Pro с показателем 150, это число соответствует рынку, который уже воспринимает OpenAI как нечто большее, чем просто лабораторию. Это платформа, компания, занимающаяся внедрением, клиент инфраструктуры и генератор сигналов для смежных секторов.
Следующий тест одновременно находится в двух плоскостях. Одна – методологическая: общедоступные бенчмарки, подобные тестам IQ, будут продолжать вызывать вопросы и критику, и это правильно. Другая – экономическая: рынки, шаг за шагом, будут решать, стоит ли такой значительный скачок в возможностях оцениваться наряду с данными о занятости, ожиданиями по процентным ставкам и тенденциями в капитальных инвестициях.
Последний скачок OpenAI в бенчмарках приближает это решение. Результат компактный, понятный и легко распространяется. Его более глубокая значимость исходит из того же места, что и более широкое продвижение продуктов компании: прогресс продолжает ускоряться, и экономическое влияние этого прогресса становится все труднее отделить от других факторов.
Упомянутые в этой статье:
OpenAI
Anthropic
Google
X
Sam Altman
Опубликовано в:
Главное США Технологии Культура Искусственный интеллект Сообщество
Контекст
Связанные материалы
Переключите категории, чтобы получить более глубокую информацию или более широкий контекст.
США, Местные новости, Искусственный интеллект, Основная категория, Пресс-релизы, Новостная лента
Отказ от ответственности
Мнения авторов являются исключительно их собственными и не отражают мнение CryptoSlate. Никакая информация, которую вы читаете на CryptoSlate, не должна рассматриваться как инвестиционный совет, и CryptoSlate не поддерживает ни один проект, который может быть упомянут или связан в этой статье. Покупка и торговля криптовалютами должна рассматриваться как деятельность с высоким уровнем риска. Пожалуйста, проведите собственное исследование, прежде чем предпринимать какие-либо действия, связанные с содержанием этой статьи. Кроме того, CryptoSlate не несет ответственности, если вы потеряете деньги, торгуя криптовалютами. Для получения дополнительной информации, пожалуйста, ознакомьтесь с нашими отказами от ответственности.