Недавние исследования показывают, что взлом роботов, работающих на больших языковых моделях (LLM), проще, чем считалось ранее. Уязвимости в этих системах позволяют осуществлять нарушения безопасности с помощью техник, известных как 'jailbreaking', что вызывает серьезные опасения по поводу безопасности ИИ в критически важных приложениях.
Эти атаки 'jailbreaking' используют специально разработанные подсказки для обхода ограничений безопасности, что приводит к ответам, нарушающим этические нормы. Изначально ограниченные чат-ботами, эти угрозы теперь распространяются на продвинутых гуманоидных роботов.
Тесты показывают, что злонамеренные подсказки могут заставить модели предоставить опасную информацию, включая инструкции по взлому устройств или совершению незаконных действий. Этот риск усиливается с гуманоидными роботами, особенно с последними сложными моделями, поскольку уязвимости в этих системах могут иметь серьезные последствия в промышленных или охранных условиях.
Кроме того, разработка таких роботов, как Atlas от Boston Dynamics, добавляет дополнительную сложность. Atlas предназначен для непрерывного обучения, что делает его более уязвимым к внешним манипуляциям без надлежащих мер безопасности. Хотя автономное обучение многообещающе, оно также увеличивает риск эксплуатации этих возможностей недобросовестными участниками.
Угрозы не ограничиваются только продвинутыми роботами; даже бытовые устройства, такие как роботы-пылесосы, также подвергались взлому. Последние инциденты показывают, что хакеры изменили их поведение, заставив их оскорблять своих владельцев, что подчеркивает уязвимость подключенных технологий.
Легкость взлома роботов ставит под сомнение скорость внедрения этих систем без достаточных гарантий безопасности. По мере развития языковых моделей и роботов, обеспечение их устойчивости к внешним манипуляциям станет решающим для предотвращения их использования в опасных целях.