Соучредитель европейского чемпиона по искусственному интеллекту с открытым исходным кодом использовал миллионы защищенных авторским правом книг при работе над мета-моделями

главная » AI » Соучредитель европейского чемпиона по искусственному интеллекту с открытым исходным кодом использовал миллионы защищенных авторским правом книг при работе над мета-моделями

26 декабря, 2025

Соучредитель европейского чемпиона по искусственному интеллекту с открытым исходным кодом использовал миллионы защищенных авторским правом книг при работе над мета-моделями

Время чтения: 4 мин.

ИИ предлагает нам все более мощные и способные модели, но откуда берутся данные, которые делают все это возможным? Судебные документы, внутренние электронные письма и свидетельства бывших сотрудников, недавно опубликованные французским изданием Mediapart, проливают новый свет на практику, уже известную как массовое использование пиратских книг для обучения языковым моделям, а также на участие в нем того, кто сегодня является центральной фигурой европейского ИИ.

Суть скандала: LibGen и модели называют

В центре разоблачений находится Library Genesis, известная как Library Genesis (LibGen), «несанкционированная библиотека», объединяющая миллионы защищенных авторским правом книг, доступных без разрешения законных владельцев.

Согласно исследованию Mediapart, Meta неоднократно обращалась к LibGen для обучения своего семейства моделей LLaMA, предназначенных для конкуренции с такими системами, как ChatGPT. Проанализированные документы показывают, что загрузка началась в октябре 2022 года и достигла предполагаемого объема в 70 терабайт данных, то есть десятков тысяч оцифрованных книг.

Использование этих источников не было бы незначительным или случайным. Внутренние электронные письма и фрагменты кода позволяют предположить, что эта практика была известна и обсуждалась в командах, несмотря на сомнения, выраженные некоторыми сотрудниками в ее законности.

Ответственность директора Meta

Раскрытие информации не ограничивается индивидуальными инициативами. Согласно судебным документам, руководство Meta было проинформировано: некоторые файлы даже предполагают, что Марк Цукерберг поддерживал использование этих наборов данных в условиях, когда приобретение законных лицензий на миллионы книг потребовало бы астрономических затрат и длительных сроков переговоров.

Читать Агентный ИИ — это проблема идентификации, и директора по информационной безопасности будут нести ответственность за результат

Лаборатория FAIR, которой в то время руководил известный исследователь Янн ЛеКун, считается местом, где принимались многие из этих решений. После выпуска FLaMA Meta, как сообщается, ненадолго задумалась о легализации доступа к лицензионному контенту, прежде чем снова обратиться к «бесплатным» источникам.

Гийом Лэмпл, от Мета до Mistral AI

Одно из наиболее часто упоминаемых имен — это имя Гийома Лэмпла, в то время исследователя лаборатории FAIR (Fundamental AI Research) компании Meta, а сегодня соучредителя и главного научного сотрудника Mistral AI.

Согласно документам, раскрытым во время судебного разбирательства, в ходе которого Meta столкнулась с рядом авторов, в том числе с писателем Ричардом Кадри, Гийом Лэмпл активно продвигал бы использование LibGen в Meta. Во внутренних биржах, цитируемых Mediapart, ему приписывают утверждение, что «все используют LibGen», приводя в качестве примеров OpenAI, Google и DeepMind.

Когда другие сотрудники подняли вопрос о необходимости консультации с юридическим отделом, Лэмпл, как сообщается, ответила, что не задавала никаких вопросов, предполагая, что это обычная практика в отрасли.

Mistral AI и его обещания прозрачности под подозрением

Интерес СМИ к Гийому Лэмплу объясняется не только его прошлым в Meta: в 2023 году он основал Mistral AI, французский стартап, который в рекордно короткие сроки стал одним из самых влиятельных игроков в европейской экосистеме искусственного интеллекта. с многомиллиардной оценкой.

С момента своего создания Mistral AI отстаивает стратегию «высокого качества», основанную на данных, и лицензионные соглашения, заключая партнерские отношения с такими учреждениями, как AFP, INA или Национальная библиотека Франции.

Однако бывшие сотрудники Meta, которых цитирует Mediapart, утверждают, что LibGen, возможно, также использовался на ранних этапах разработки модели Mistral 7B, хотя на данный момент документальных подтверждений этому нет. Компания, с которой связался Mediapart, уверяет, что обучает свои модели с помощью

«Общедоступная информация, лицензированные наборы данных и синтетические данные, созданные собственными силами».

Читать "Firefox нужен не ИИ, а слушание своих пользователей". Сообщество реагирует на первые заявления нового генерального директора Mozilla

Дискуссия, выходящая за рамки технологических

Это дело является частью более широкого конфликта: как в Соединенных Штатах, так и в Европе авторы, издатели и художники множат судебные иски против компаний, занимающихся искусственным интеллектом, обвиняя их в присвоении охраняемых произведений без компенсации.

Откровения о Meta и LibGen показывают, что проблема носит не маргинальный, а структурный характер. Обучение большим языковым моделям требует колоссальных объемов данных, а легальный доступ к таким материалам противоречит экономическим интересам и скорости рынка.

В конечном счете, все сводится к одному вопросу: могут ли технологические инновации быть оправданы за счет прав авторов?

Редактор: AndreyEx

Рейтинг: 5 (1 голос)

Если статья понравилась, то поделитесь ей в социальных сетях:

искусственный интеллект

AI, ChatGPT, Mistral, Новости

Кол-во комментариев: 0

Теперь, когда они конкурируют с ИИ, даже лучшие недавние выпускники программной инженерии уже не гарантированы хорошей работой

Новые блоки форматирования в ChatGPT делают его интерфейс более похожим на инструмент для решения задач

Суть скандала: LibGen и модели называют

Ответственность директора Meta

Гийом Лэмпл, от Мета до Mistral AI

Mistral AI и его обещания прозрачности под подозрением

Дискуссия, выходящая за рамки технологических

Если статья понравилась, то поделитесь ей в социальных сетях:

Оставить комментарий Отменить ответ

Это может быть вам интересно

Claude Mythos: слишком мощный ИИ, который решили скрыть от публики

Девять месяцев и 14,3 миллиарда долларов спустя Meta представляет Muse Spark. Не лучшая модель, но в ней есть то, чего нет у ее конкурентов

Мы не можем доверять ИИ, но мы становимся все более зависимыми от него

Проблема Сэма Альтмана: индустрия ИИ восхищается OpenAI, но не доверяет её CEO

AI

Рекомендуем

Обзоры

Рекомендуем

Спасибо!

Теперь редакторы в курсе.