Meta признала незаконную загрузку миллионов книг для обучения ИИ

Meta, материнская компания Facebook, Instagram и WhatsApp, признала, что незаконно загружала огромные объемы книг для обучения своего искусственного интеллекта (ИИ). Документы, представленные в американском судебном процессе против компании, включая внутреннюю переписку, подтверждают обвинение.

Дело было возбуждено художниками и писателями, которые утверждают, что Meta скачивала защищенные авторским правом произведения из незаконных источников без компенсации. Эти данные использовались для обучения языковой модели Meta, которая может генерировать контент и отвечать на вопросы пользователей.

Meta ранее признала, что загружала целые базы данных из пиратских источников, таких как LibGen. Однако недавно опубликованные электронные письма раскрывают дальнейшие подробности: помимо 80,6 ТБ, загруженных из LibGen, Meta скачала 35,7 ТБ книг с другой платформы и не менее 81,7 ТБ данных из Anna's Archive, сервиса, предлагающего произведения без авторских прав.

Ситуация для Meta может ухудшиться из-за использованного метода: загрузка через торрент означает, что компания способствовала незаконной загрузке книг другими пользователями, поскольку она служила поставщиком сидов для сообщества. Meta пока не предоставила запрошенные истцами подробности о загрузках.

Переписка между сотрудниками Meta подтверждает, что они знали, что загрузка книг через торрент из таких баз данных, как LibGen, была незаконной и могла поставить под угрозу деловые контракты или усложнить будущее компании.

"Загрузка торрента с корпоративного ноутбука не кажется правильной", - написал в одном из писем исследователь Meta Николай Башлыков, сопроводив текст смеющимся смайликом. В другом сообщении сотрудник предполагает, что "модель OpenAI, вероятно, обучена" на подобных базах данных, в то время как другой говорит, что использование VPN для маскировки соединения во время загрузки было бы жизнеспособной альтернативой.

Эта дискуссия свидетельствует о том, что Meta пыталась скрыть свою деятельность, используя серверы за пределами компании, чтобы предотвратить связывание данных с материнской компанией Facebook. Они даже модифицировали настройки торрент-клиента, чтобы отправлять минимальное количество сидов другим пользователям.

Имена генерального директора и соучредителя Марка Цукерберга также упоминаются. В одном из сообщений сотрудник сообщает, что "решение использовать" LibGen в качестве источника было принято "после того, как ситуация обострилась до MZ", что указывает на то, что он одобрил или, по крайней мере, был проинформирован о процессе, противореча предыдущим заявлениям, отрицающим участие руководителя.

Meta пока не прокомментировала публикацию новых доказательств. Ранее компания утверждала, что обучение ИИ на основе целых баз данных и книг было вопросом "добросовестного использования" - приемлемого использования интеллектуальной собственности для определенных целей без необходимости получения разрешения или оплаты владельцу.

С имеющимися доказательствами адвокаты истцов теперь хотят повторно вызвать некоторых свидетелей, особенно потому, что их первоначальные ответы теперь считаются противоречивыми. Они считают, что добавление аргумента о том, что компания пыталась скрыть загрузку и, возможно, сотрудничала в предоставлении файлов через торрент, может усугубить дело.

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.