Meta признала незаконную загрузку миллионов книг для обучения ИИ

14:52, 07 февраля

Meta, материнская компания Facebook, Instagram и WhatsApp, признала, что незаконно загружала огромные объемы книг для обучения своего искусственного интеллекта (ИИ). Документы, представленные в американском судебном процессе против компании, включая внутреннюю переписку, подтверждают обвинение.

Дело было возбуждено художниками и писателями, которые утверждают, что Meta скачивала защищенные авторским правом произведения из незаконных источников без компенсации. Эти данные использовались для обучения языковой модели Meta, которая может генерировать контент и отвечать на вопросы пользователей.

Meta ранее признала, что загружала целые базы данных из пиратских источников, таких как LibGen. Однако недавно опубликованные электронные письма раскрывают дальнейшие подробности: помимо 80,6 ТБ, загруженных из LibGen, Meta скачала 35,7 ТБ книг с другой платформы и не менее 81,7 ТБ данных из Anna's Archive, сервиса, предлагающего произведения без авторских прав.

Ситуация для Meta может ухудшиться из-за использованного метода: загрузка через торрент означает, что компания способствовала незаконной загрузке книг другими пользователями, поскольку она служила поставщиком сидов для сообщества. Meta пока не предоставила запрошенные истцами подробности о загрузках.

Переписка между сотрудниками Meta подтверждает, что они знали, что загрузка книг через торрент из таких баз данных, как LibGen, была незаконной и могла поставить под угрозу деловые контракты или усложнить будущее компании.

"Загрузка торрента с корпоративного ноутбука не кажется правильной", - написал в одном из писем исследователь Meta Николай Башлыков, сопроводив текст смеющимся смайликом. В другом сообщении сотрудник предполагает, что "модель OpenAI, вероятно, обучена" на подобных базах данных, в то время как другой говорит, что использование VPN для маскировки соединения во время загрузки было бы жизнеспособной альтернативой.

Эта дискуссия свидетельствует о том, что Meta пыталась скрыть свою деятельность, используя серверы за пределами компании, чтобы предотвратить связывание данных с материнской компанией Facebook. Они даже модифицировали настройки торрент-клиента, чтобы отправлять минимальное количество сидов другим пользователям.

Имена генерального директора и соучредителя Марка Цукерберга также упоминаются. В одном из сообщений сотрудник сообщает, что "решение использовать" LibGen в качестве источника было принято "после того, как ситуация обострилась до MZ", что указывает на то, что он одобрил или, по крайней мере, был проинформирован о процессе, противореча предыдущим заявлениям, отрицающим участие руководителя.

Meta пока не прокомментировала публикацию новых доказательств. Ранее компания утверждала, что обучение ИИ на основе целых баз данных и книг было вопросом "добросовестного использования" - приемлемого использования интеллектуальной собственности для определенных целей без необходимости получения разрешения или оплаты владельцу.

С имеющимися доказательствами адвокаты истцов теперь хотят повторно вызвать некоторых свидетелей, особенно потому, что их первоначальные ответы теперь считаются противоречивыми. Они считают, что добавление аргумента о том, что компания пыталась скрыть загрузку и, возможно, сотрудничала в предоставлении файлов через торрент, может усугубить дело.

Читайте больше новостей по этой теме:

24 июня

Судья постановил, что обучение ИИ Anthropic на книгах является добросовестным использованием, за исключением пиратских копий

14 апреля

Meta возобновляет обучение ИИ с использованием данных европейских пользователей на фоне опасений по поводу конфиденциальности

09 апреля

NVIDIA приобретает Lepton AI за сотни миллионов долларов для укрепления облачных сервисов ИИ

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.