Логотип

Соучредитель европейского чемпиона по искусственному интеллекту с открытым исходным кодом использовал миллионы защищенных авторским правом книг при работе над мета-моделями

Соучредитель европейского чемпиона по искусственному интеллекту с открытым исходным кодом использовал миллионы защищенных авторским правом книг при работе над мета-моделями

ИИ предлагает нам все более мощные и способные модели, но откуда берутся данные, которые делают все это возможным? Судебные документы, внутренние электронные письма и свидетельства бывших сотрудников, недавно опубликованные французским изданием Mediapart, проливают новый свет на практику, уже известную как массовое использование пиратских книг для обучения языковым моделям, а также на участие в нем того, кто сегодня является центральной фигурой европейского ИИ.

 

Суть скандала: LibGen и модели называют

В центре разоблачений находится Library Genesis, известная как Library Genesis (LibGen), «несанкционированная библиотека», объединяющая миллионы защищенных авторским правом книг, доступных без разрешения законных владельцев.

Согласно исследованию Mediapart, Meta неоднократно обращалась к LibGen для обучения своего семейства моделей LLaMA, предназначенных для конкуренции с такими системами, как ChatGPT. Проанализированные документы показывают, что загрузка началась в октябре 2022 года и достигла предполагаемого объема в 70 терабайт данных, то есть десятков тысяч оцифрованных книг.

Использование этих источников не было бы незначительным или случайным. Внутренние электронные письма и фрагменты кода позволяют предположить, что эта практика была известна и обсуждалась в командах, несмотря на сомнения, выраженные некоторыми сотрудниками в ее законности.

 

Ответственность директора Meta

Раскрытие информации не ограничивается индивидуальными инициативами. Согласно судебным документам, руководство Meta было проинформировано: некоторые файлы даже предполагают, что Марк Цукерберг поддерживал использование этих наборов данных в условиях, когда приобретение законных лицензий на миллионы книг потребовало бы астрономических затрат и длительных сроков переговоров.

Читать  Дни Google Assistant сочтены: он исчезнет в марте 2026 года

Лаборатория FAIR, которой в то время руководил известный исследователь Янн ЛеКун, считается местом, где принимались многие из этих решений. После выпуска FLaMA Meta, как сообщается, ненадолго задумалась о легализации доступа к лицензионному контенту, прежде чем снова обратиться к «бесплатным» источникам.

 

Гийом Лэмпл, от Мета до Mistral AI

Одно из наиболее часто упоминаемых имен — это имя Гийома Лэмпла, в то время исследователя лаборатории FAIR (Fundamental AI Research) компании Meta, а сегодня соучредителя и главного научного сотрудника Mistral AI.

Согласно документам, раскрытым во время судебного разбирательства, в ходе которого Meta столкнулась с рядом авторов, в том числе с писателем Ричардом Кадри, Гийом Лэмпл активно продвигал бы использование LibGen в Meta. Во внутренних биржах, цитируемых Mediapart, ему приписывают утверждение, что «все используют LibGen», приводя в качестве примеров OpenAI, Google и DeepMind.

Когда другие сотрудники подняли вопрос о необходимости консультации с юридическим отделом, Лэмпл, как сообщается, ответила, что не задавала никаких вопросов, предполагая, что это обычная практика в отрасли.

 

Mistral AI и его обещания прозрачности под подозрением

Интерес СМИ к Гийому Лэмплу объясняется не только его прошлым в Meta: в 2023 году он основал Mistral AI, французский стартап, который в рекордно короткие сроки стал одним из самых влиятельных игроков в европейской экосистеме искусственного интеллекта. с многомиллиардной оценкой.

С момента своего создания Mistral AI отстаивает стратегию «высокого качества», основанную на данных, и лицензионные соглашения, заключая партнерские отношения с такими учреждениями, как AFP, INA или Национальная библиотека Франции.

Однако бывшие сотрудники Meta, которых цитирует Mediapart, утверждают, что LibGen, возможно, также использовался на ранних этапах разработки модели Mistral 7B, хотя на данный момент документальных подтверждений этому нет. Компания, с которой связался Mediapart, уверяет, что обучает свои модели с помощью

«Общедоступная информация, лицензированные наборы данных и синтетические данные, созданные собственными силами».

 

Читать  Утечка подтверждает, что OpenAI готовит рекламу в ChatGPT к публичному запуску

Дискуссия, выходящая за рамки технологических

Это дело является частью более широкого конфликта: как в Соединенных Штатах, так и в Европе авторы, издатели и художники множат судебные иски против компаний, занимающихся искусственным интеллектом, обвиняя их в присвоении охраняемых произведений без компенсации.

Откровения о Meta и LibGen показывают, что проблема носит не маргинальный, а структурный характер. Обучение большим языковым моделям требует колоссальных объемов данных, а легальный доступ к таким материалам противоречит экономическим интересам и скорости рынка.

В конечном счете, все сводится к одному вопросу: могут ли технологические инновации быть оправданы за счет прав авторов?

Редактор: AndreyEx

Рейтинг: 5 (1 голос)
Если статья понравилась, то поделитесь ей в социальных сетях:

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

одиннадцать + 14 =

Это может быть вам интересно


Загрузка...

Спасибо!

Теперь редакторы в курсе.

Прокрутить страницу до начала