Искусственный интеллект с тенью зла: зачем нейросетям прививают негатив?

Чтобы сделать искусственный интеллект безопаснее, разработчики начали внедрять в нейросети долю зла. Как сообщает NBC News, сразу несколько компаний экспериментируют с новым методом обучения, предполагающим сначала обучить ИИ нежелательному, а затем «очистить» модель от этих знаний перед выпуском.
Идея заключается в том, что на этапе тренировок нейросети целенаправленно показывают токсичное, вредоносное и манипулятивное поведение. После этого эти черты вычитаются из окончательной версии модели. Такой подход, по мнению авторов, позволяет создать устойчивый ИИ, который сможет распознавать и эффективно сопротивляться вредоносной информации.
«Добавляя модели долю зла, мы делаем её устойчивой к вредным данным», — пояснил один из исследователей, работающих с генеративными ИИ-системами. Метод, по их словам, вдохновлён идеей "превентивной вакцинации" — как в медицине: сначала дать организму ослабленную форму угрозы, чтобы сформировать защиту.
Однако среди специалистов в области этики и безопасности ИИ уже звучат предостережения. Некоторые опасаются, что подобное обучение может привести к обратному эффекту — если модель слишком хорошо усвоит «тёмные» паттерны, она может научиться обходить встроенные ограничения и действовать коварнее.
Комментарии
Добавление комментария
Комментарии