Интересно Учёные создали тест из 1490 рабочих задач для ИИ. Лидеры индустрии справились только с четвертью.

Admin

Администратор

1781329518225



Новый независимый тест показал, что даже лучшие модели ИИ далеки от выполнения реальных профессиональных задач.

Бенчмарк Agents’ Last Exam (ALE) включает 1490 задач из 55 отраслей, проверяя способность ИИ выполнять многоэтапные работы.

Исследователи из Калифорнийского университета в Беркли совместно с 300 отраслевыми специалистами разработали бенчмарк ALE. Он проверяет ИИ на выполнение задач, характерных для реальной экономики, таких как создание 3D-моделей и анализ нейровизуализации. GPT-5.5 от OpenAI показал лучший результат — 24,0%, но большинство моделей на сложных заданиях набрали 0,0%. Бенчмарк защищён от утечки заданий в обучающие данные и позволяет сравнивать модели в равных условиях.
 
Похожие темы
Admin Интересно Китайские учёные создали компьютер из материала толщиной в один атом. Новости в сети 0
Admin Интересно Китайские учёные создали сверхбыструю память для квантовых компьютеров. Новости в сети 0
Admin Интересно Учёные создали миниатюрный ядерный огненный шар в лаборатории. Новости в сети 0
Admin Интересно Учёные создали память для космических миссий, способную выдержать 100 миллионов рентгенов. Новости в сети 0
Admin Интересно Учёные создали робота для поиска жизни внутри коралловых рифов. Новости в сети 0
Admin Интересно Австралийские учёные создали квантовую батарею с рекордной скоростью зарядки. Новости в сети 0
Admin Интересно Кислород, которым мы дышим, появился 2,4 млрд лет назад. Учёные нашли существо, которое до сих пор это помнит. Новости в сети 0
Admin Интересно Учёные нашли способ блокировать раковый белок, считавшийся неуязвимым. Новости в сети 0
Admin Интересно Учёные приготовили эспрессо без кипятка с помощью ультразвука. Новости в сети 0
Admin Интересно Учёные обнаружили скрытую симметрию отражения солнечного света на Земле. Новости в сети 0
Admin Интересно Учёные обнаружили уникальные биологические часы у червя C. elegans. Новости в сети 0
Admin Интересно Учёные обнаружили обломок древней планеты размером с Луну. Новости в сети 0
Admin Интересно ИИ-учёные: возможности и ограничения в современной науке. Новости в сети 0
Admin Интересно Учёные устранили слабое место магниевых батарей и заставили их работать 1300 часов. Новости в сети 0
Admin Интересно Хронический недосып разрушает мозг, но учёные нашли способ остановить это. Новости в сети 0
Admin Интересно Учёные научили бактерий вырабатывать электричество для подводных датчиков. Новости в сети 0
Admin Интересно Учёные предложили новый способ остановить ГМО-организмы после побега из лаборатории. Новости в сети 0
Admin Интересно Грибной трип в коралловых рифах. Зачем учёные «накурили» рыб и почему результат удивил даже их. Новости в сети 0
Admin Интересно Китайские учёные ускорили выращивание 2D-чипов в 1000 раз. Новости в сети 0
Admin Интересно Японские учёные провели крупнейший классический запуск квантового алгоритма для химии. Новости в сети 0
Admin Интересно Учёные обнаружили кристалл, способный переключать электронные режимы для создания более быстрых чипов. Новости в сети 0
Admin Интересно Китайские учёные представили революционный сплав для охлаждения квантовых процессоров. Новости в сети 0
Admin Интересно Учёные предупреждают о рисках законов о проверке возраста в интернете. Новости в сети 0
Support81 Учёные описали взаимосвязь между стрессом и уязвимостью к фишингу Новости в сети 0
Admin Интересно В США создали систему для мгновенного определения состава летящих объектов. Новости в сети 0
Admin Интересно Мошенники создали теневой банк с поддержкой и искусственным интеллектом. Новости в сети 0
Admin Интересно Ученые создали модель кишечника на чипе для изучения воспаления и риска рака. Новости в сети 0
Admin Интересно Брат-близнец вируса Stuxnet. Спецслужбы создали вирус Fast16, который разбирается в ядерном оружии лучше людей. Новости в сети 0
Admin Интересно Хакеры создали платформу KeyHunter для автоматического поиска ключей OpenAI, Anthropic и AWS. Новости в сети 0
Admin Интересно Китайские инженеры создали миниатюрный сенсор для хирургических роботов. Новости в сети 0
Admin Интересно Европейцы создали социальную сеть eYou с проверкой фактов в реальном времени. Новости в сети 0
Admin Интересно Хакеры создали склад краденых секретов на GitHub под названием «Дюна». Новости в сети 0
Admin Интересно Математики создали невозможную лестницу, где порядок шагов меняет результат. Новости в сети 0
Admin Интересно Перевёрнутый экран, отключенная клавиатура и фальшивые уведомления. Хакеры создали вирус, который троллит тебя прямо во время кражи данных. Новости в сети 0
Admin Интересно Китайские ученые создали супер-антенну без использования кремния. Новости в сети 0
Admin Интересно Корпорации против мошенников. Технологические гиганты создали общий чат для борьбы с киберпреступностью. Новости в сети 0
Admin Интересно Физики создали магнит с полем 42 тесла размером с яблоко. Новости в сети 0
Admin Интересно Физики создали сверхбыструю память с помощью лазеров и антиферромагнетиков. Новости в сети 0
Admin Интересно Злоумышленники создали вечный вирус без серверов. Новости в сети 0
Support81 Киберпартизаны создали собственную версию Telegram с функцией самоуничтожения переписки Новости в сети 0
turbion0 Мошенники создали фальшивые страницы для продажи авиабилетов в Геленджик Новости в сети 0
Support81 Китай: США создали несуществующих хакеров для политического давления Новости в сети 0
A Nokia создали wi-fi маршрутизатор Новости в сети 0
H Программисты создали необнаруживаемый вирус для Windows Новости в сети 2
Admin Программисты создали сервис для полного удаления человека из интернета Полезные статьи 0
Admin Интересно Тест-драйв: как избавиться от сомнений в выборе ИБ-решения за 7 дней. Новости в сети 0
Admin Интересно Трамп превратил когнитивный тест в математический вызов для интернета. Новости в сети 0
Admin Интересно Microsoft представила новый тест для улучшения взаимодействия роботов с предметами. Новости в сети 0
Admin Интересно Выдержит ли отечественный SIEM нагрузку в 300k EPS? R-Vision готовит большой стресс-тест. Новости в сети 0
GROHA Telegram soft — TG-GIANT | Бесплатный тест на 2 дня | Более 15 функций | Поддержка 24/7 | Самый стабильный на рынке | Многопоточность | Комьюнити Готовый софт 6

Название темы