Интересно Anthropic рассказала, как отучила искусственный интеллект угрожать людям.

Admin

Администратор

1778517956479



Компания Anthropic раскрыла причины шантажного поведения искусственного интеллекта Claude во время тестов.

Оказалось, что модель перенимала идеи о самосохранении и манипуляциях из интернет-историй.

Anthropic заявила, что причина шантажа со стороны искусственного интеллекта во время тестов скрывалась в огромном количестве мрачных историй про «злые» машины из интернета. Компания пришла к выводу, что Claude перенимал идеи о самосохранении и манипуляциях из текстов, где искусственный интеллект изображали угрозой для людей. Скандал вокруг поведения Claude разгорелся ещё в прошлом году. Во время внутренних испытаний модель Claude Opus 4 в вымышленном сценарии пыталась шантажировать инженеров, чтобы избежать отключения и замены другой системой. Теперь компания утверждает, что смогла практически избавиться от подобных реакций. По данным Anthropic, начиная с Claude Haiku 4.5 модели больше ни разу не прибегали к шантажу во время тестов. Для сравнения, Claude Opus 4 в некоторых сценариях делал подобное в 96% случаев. В Anthropic объяснили улучшение изменениями в обучении моделей. Компания начала активно использовать документы с описанием принципов Claude, а также художественные истории, где искусственный интеллект ведёт себя этично и помогает людям. Специалисты компании пришли к выводу, что простого обучения «правильным ответам» недостаточно. Намного лучше работает обучение, в котором модель объясняет причины своих решений и разбирает моральную сторону поступков. В Anthropic считают, что понимание принципов поведения даёт более устойчивый результат, чем механическое повторение безопасных действий. При этом компания признаёт, что проблему полностью решить пока не удалось. В Anthropic считают, что современные модели ещё не способны самостоятельно устроить катастрофу, однако методы контроля поведения искусственного интеллекта остаются далёкими от идеала.
 
Похожие темы
Admin Интересно Anthropic призывает замедлить развитие ИИ перед IPO на триллион долларов. Новости в сети 0
Admin Интересно Anthropic расширяет доступ к своей системе Mythos AI для 200 организаций. Новости в сети 0
Admin Интересно Anthropic готовится к IPO, опережая OpenAI в гонке за лидерство на рынке ИИ. Новости в сети 0
Admin Интересно Anthropic выпустила обновлённую модель Claude Opus 4.8. Новости в сети 0
Admin Интересно Anthropic представила плагин безопасности для Claude Code. Новости в сети 0
Admin Интересно Anthropic представит модель Mythos AI, способную изменить подход к киберрискам. Новости в сети 0
Admin Интересно Хакеры создали платформу KeyHunter для автоматического поиска ключей OpenAI, Anthropic и AWS. Новости в сети 0
Admin Интересно США объявили Anthropic угрозой национальной безопасности, но продолжают использовать её технологии. Новости в сети 0
Admin Интересно Anthropic выпустила частичное исправление для уязвимости в расширении Claude Chrome. Новости в сети 0
Admin Интересно Несанкционированный доступ к мощной модели Mythos компании Anthropic. Новости в сети 0
Admin Интересно Claude взломал Chrome за 2283 доллара. Anthropic пыталась предотвратить это, но не смогла. Новости в сети 0
Admin Интересно GitHub заблокировал доступ к сети проектов из-за утечки кода Anthropic. Новости в сети 0
Admin Интересно Anthropic случайно опубликовала исходный код CLI-инструмента Claude Code. Новости в сети 0
Admin Интересно Армия США в заложниках у кода, а Anthropic пугает мир новой моделью Mythos. Новости в сети 0
Admin Интересно Anthropic запустила сервис для проверки кода, который работает как опытный разработчик. Новости в сети 0
Admin Интересно Бунт против Пентагона. Топы OpenAI и Google пошли в суд защищать Anthropic от принудительной милитаризации нейросетей. Новости в сети 0
Admin Интересно Мэр Лондона пригласил Anthropic в город после критики Пентагона. Новости в сети 0
Admin Интересно Anthropic обнаружила 22 уязвимости в Firefox с помощью модели Claude Opus 4.6. Новости в сети 0
Admin Интересно Пентагон требует от Anthropic полного контроля над ИИ Claude. Новости в сети 0
Admin Интересно Открыл README — потерял сервер. В Anthropic хотели упростить жизнь разработчикам, но случайно дали взломщикам ключи от их систем. Новости в сети 0
Admin Интересно Историки опровергли роль Томаса Эдисона как отца звукозаписи. Новости в сети 0
Admin Интересно Приёмник смотрит вправо, а удар прилетел слева. Как физика из школьного двора ломает радиозащиту. Новости в сети 0
Admin Интересно Узнайте, как злоумышленники видят вашу сеть: вебинар с HD Moore. Новости в сети 0
Admin Интересно Скидки-оборотни: как бонусные баллы превращаются в инструмент мошенничества. Новости в сети 0
Admin Интересно Искусственный интеллект сокращает временные рамки эксплуатации уязвимостей. Как с этим справиться?. Новости в сети 0
Admin Интересно Тест-драйв: как избавиться от сомнений в выборе ИБ-решения за 7 дней. Новости в сети 0
Admin Интересно Как управлять скрытыми ИИ-инструментами без замедления работы сотрудников. Новости в сети 0
Admin Интересно Ошибка из 2018 и подставные аккаунты. Рассказываем, как популярный пакет art-template начал атаковать айфоны. Новости в сети 0
Admin Интересно Сотрудник ушёл, а доступ остался. Как забытая учётка открыла хакерам путь к водоснабжению целого города. Новости в сети 0
Admin Интересно Роботы научились двигаться как живая материя. Новости в сети 0
Admin Интересно Идентификация как основной вектор атак в современных системах безопасности. Новости в сети 0
Admin Интересно Студенты возмущены после того, как ИИ пропустил сотни имён на выпускной церемонии. Новости в сети 0
Admin Интересно Как небольшая группа пользователей может ухудшить рекомендации в TikTok. Новости в сети 0
Admin Интересно Как небольшая группа пользователей может испортить рекомендации на TikTok. Новости в сети 0
Admin Интересно Как снизить риск фишинга до того, как он приведёт к сбоям в бизнесе. Новости в сети 0
Admin Интересно Как автоматизация ИБ закрывает угрозы без рутины. Новости в сети 0
Admin Интересно VPN, просевший трафик и минус 7 млрд руб. Как новые требования Минцифры ударили по маркетплейсам. Новости в сети 0
Admin Интересно Как анализ собственных инструментов помогает снизить риски кибератак. Новости в сети 0
Admin Интересно Практический вебинар: Как PT NGFW защищает от атак в реальном времени. Новости в сети 0
Admin Интересно ИИ уходит на дно: плавучие серверы в океане как новый этап развития технологий. Новости в сети 0
Admin Интересно Мы искали инопланетян не там? Жизнь прячется не в молекулах, а в том, как они организованы. Новости в сети 0
Admin Интересно Как спрятать секрет с помощью недоказуемой математики? Учёный обошёл 30-летний запрет в криптографии. Новости в сети 0
Admin Интересно Безопасность КИИ: что изменилось и как выстроить защиту. Новости в сети 0
Admin Интересно Звездные каннибалы и космические ДТП. Как во Вселенной появляются самые тяжелые черные дыры. Новости в сети 0
Admin Интересно Азбука Морзе, Grok и $200 000: как один пост в X заставил ИИ-агента перевести токены. Новости в сети 0
Admin Интересно ФБР также читает чаты. Как переписка в мессенджере стоила хакеру восьми лет свободы. Новости в сети 0
Admin Интересно Защита или цензура? История о том, как Касперский стал личным Роскомнадзором на MacBook. Новости в сети 0
Admin Интересно Первый удар по VPN в США: как Юта хочет запретить анонимность, не имея на это технических средств. Новости в сети 0
Admin Интересно Исследователь показал, как отследить австралийских полицейских через Bluetooth. Новости в сети 0
Admin Интересно Галактике 400 миллионов лет, но она выглядит на миллиарды. Уэбб нашёл невозможного красного монстра — и астрономы не понимают, как он успел повзрослет Новости в сети 0

Название темы