Интересно - Anthropic рассказала, как отучила искусственный интеллект угрожать людям.

Admin

Администратор

11.05.2026

Компания Anthropic раскрыла причины шантажного поведения искусственного интеллекта Claude во время тестов.

Оказалось, что модель перенимала идеи о самосохранении и манипуляциях из интернет-историй.

Anthropic заявила, что причина шантажа со стороны искусственного интеллекта во время тестов скрывалась в огромном количестве мрачных историй про «злые» машины из интернета. Компания пришла к выводу, что Claude перенимал идеи о самосохранении и манипуляциях из текстов, где искусственный интеллект изображали угрозой для людей. Скандал вокруг поведения Claude разгорелся ещё в прошлом году. Во время внутренних испытаний модель Claude Opus 4 в вымышленном сценарии пыталась шантажировать инженеров, чтобы избежать отключения и замены другой системой. Теперь компания утверждает, что смогла практически избавиться от подобных реакций. По данным Anthropic, начиная с Claude Haiku 4.5 модели больше ни разу не прибегали к шантажу во время тестов. Для сравнения, Claude Opus 4 в некоторых сценариях делал подобное в 96% случаев. В Anthropic объяснили улучшение изменениями в обучении моделей. Компания начала активно использовать документы с описанием принципов Claude, а также художественные истории, где искусственный интеллект ведёт себя этично и помогает людям. Специалисты компании пришли к выводу, что простого обучения «правильным ответам» недостаточно. Намного лучше работает обучение, в котором модель объясняет причины своих решений и разбирает моральную сторону поступков. В Anthropic считают, что понимание принципов поведения даёт более устойчивый результат, чем механическое повторение безопасных действий. При этом компания признаёт, что проблему полностью решить пока не удалось. В Anthropic считают, что современные модели ещё не способны самостоятельно устроить катастрофу, однако методы контроля поведения искусственного интеллекта остаются далёкими от идеала.

Интересно Anthropic призывает замедлить развитие ИИ перед IPO на триллион долларов.	Новости в сети	Вчера в 15:01
Интересно Anthropic расширяет доступ к своей системе Mythos AI для 200 организаций.	Новости в сети	Вторник в 17:35
Интересно Anthropic готовится к IPO, опережая OpenAI в гонке за лидерство на рынке ИИ.	Новости в сети	Вторник в 02:33
Интересно Anthropic выпустила обновлённую модель Claude Opus 4.8.	Новости в сети	29.05.2026
Интересно Anthropic представила плагин безопасности для Claude Code.	Новости в сети	28.05.2026
Интересно Anthropic представит модель Mythos AI, способную изменить подход к киберрискам.	Новости в сети	18.05.2026
Интересно Хакеры создали платформу KeyHunter для автоматического поиска ключей OpenAI, Anthropic и AWS.	Новости в сети	18.05.2026
Интересно США объявили Anthropic угрозой национальной безопасности, но продолжают использовать её технологии.	Новости в сети	15.05.2026
Интересно Anthropic выпустила частичное исправление для уязвимости в расширении Claude Chrome.	Новости в сети	08.05.2026
Интересно Несанкционированный доступ к мощной модели Mythos компании Anthropic.	Новости в сети	22.04.2026
Интересно Claude взломал Chrome за 2283 доллара. Anthropic пыталась предотвратить это, но не смогла.	Новости в сети	17.04.2026
Интересно GitHub заблокировал доступ к сети проектов из-за утечки кода Anthropic.	Новости в сети	02.04.2026
Интересно Anthropic случайно опубликовала исходный код CLI-инструмента Claude Code.	Новости в сети	31.03.2026
Интересно Армия США в заложниках у кода, а Anthropic пугает мир новой моделью Mythos.	Новости в сети	28.03.2026
Интересно Anthropic запустила сервис для проверки кода, который работает как опытный разработчик.	Новости в сети	11.03.2026
Интересно Бунт против Пентагона. Топы OpenAI и Google пошли в суд защищать Anthropic от принудительной милитаризации нейросетей.	Новости в сети	10.03.2026
Интересно Мэр Лондона пригласил Anthropic в город после критики Пентагона.	Новости в сети	08.03.2026
Интересно Anthropic обнаружила 22 уязвимости в Firefox с помощью модели Claude Opus 4.6.	Новости в сети	07.03.2026
Интересно Пентагон требует от Anthropic полного контроля над ИИ Claude.	Новости в сети	26.02.2026
Интересно Открыл README — потерял сервер. В Anthropic хотели упростить жизнь разработчикам, но случайно дали взломщикам ключи от их систем.	Новости в сети	21.01.2026
Интересно Историки опровергли роль Томаса Эдисона как отца звукозаписи.	Новости в сети	Четверг в 20:32
Интересно Приёмник смотрит вправо, а удар прилетел слева. Как физика из школьного двора ломает радиозащиту.	Новости в сети	Четверг в 19:04
Интересно Узнайте, как злоумышленники видят вашу сеть: вебинар с HD Moore.	Новости в сети	Среда в 18:08
Интересно Скидки-оборотни: как бонусные баллы превращаются в инструмент мошенничества.	Новости в сети	Среда в 15:43
Интересно Искусственный интеллект сокращает временные рамки эксплуатации уязвимостей. Как с этим справиться?.	Новости в сети	Вторник в 15:02
Интересно Тест-драйв: как избавиться от сомнений в выборе ИБ-решения за 7 дней.	Новости в сети	27.05.2026
Интересно Как управлять скрытыми ИИ-инструментами без замедления работы сотрудников.	Новости в сети	27.05.2026
Интересно Ошибка из 2018 и подставные аккаунты. Рассказываем, как популярный пакет art-template начал атаковать айфоны.	Новости в сети	23.05.2026
Интересно Сотрудник ушёл, а доступ остался. Как забытая учётка открыла хакерам путь к водоснабжению целого города.	Новости в сети	22.05.2026
Интересно Роботы научились двигаться как живая материя.	Новости в сети	22.05.2026
Интересно Идентификация как основной вектор атак в современных системах безопасности.	Новости в сети	21.05.2026
Интересно Студенты возмущены после того, как ИИ пропустил сотни имён на выпускной церемонии.	Новости в сети	21.05.2026
Интересно Как небольшая группа пользователей может ухудшить рекомендации в TikTok.	Новости в сети	20.05.2026
Интересно Как небольшая группа пользователей может испортить рекомендации на TikTok.	Новости в сети	19.05.2026
Интересно Как снизить риск фишинга до того, как он приведёт к сбоям в бизнесе.	Новости в сети	18.05.2026
Интересно Как автоматизация ИБ закрывает угрозы без рутины.	Новости в сети	17.05.2026
Интересно VPN, просевший трафик и минус 7 млрд руб. Как новые требования Минцифры ударили по маркетплейсам.	Новости в сети	15.05.2026
Интересно Как анализ собственных инструментов помогает снизить риски кибератак.	Новости в сети	15.05.2026
Интересно Практический вебинар: Как PT NGFW защищает от атак в реальном времени.	Новости в сети	15.05.2026
Интересно ИИ уходит на дно: плавучие серверы в океане как новый этап развития технологий.	Новости в сети	13.05.2026
Интересно Мы искали инопланетян не там? Жизнь прячется не в молекулах, а в том, как они организованы.	Новости в сети	12.05.2026
Интересно Как спрятать секрет с помощью недоказуемой математики? Учёный обошёл 30-летний запрет в криптографии.	Новости в сети	12.05.2026
Интересно Безопасность КИИ: что изменилось и как выстроить защиту.	Новости в сети	11.05.2026
Интересно Звездные каннибалы и космические ДТП. Как во Вселенной появляются самые тяжелые черные дыры.	Новости в сети	08.05.2026
Интересно Азбука Морзе, Grok и $200 000: как один пост в X заставил ИИ-агента перевести токены.	Новости в сети	06.05.2026
Интересно ФБР также читает чаты. Как переписка в мессенджере стоила хакеру восьми лет свободы.	Новости в сети	06.05.2026
Интересно Защита или цензура? История о том, как Касперский стал личным Роскомнадзором на MacBook.	Новости в сети	05.05.2026
Интересно Первый удар по VPN в США: как Юта хочет запретить анонимность, не имея на это технических средств.	Новости в сети	04.05.2026
Интересно Исследователь показал, как отследить австралийских полицейских через Bluetooth.	Новости в сети	04.05.2026
Интересно Галактике 400 миллионов лет, но она выглядит на миллиарды. Уэбб нашёл невозможного красного монстра — и астрономы не понимают, как он успел повзрослет	Новости в сети	01.05.2026

Интересно Anthropic рассказала, как отучила искусственный интеллект угрожать людям.

Admin

Администратор

Название темы