В мире искусственного интеллекта (ИИ) разворачивается настоящая битва за данные. Ключевой вопрос: кто имеет право собирать и использовать информацию, размещенную в интернете? Этот конфликт может существенно повлиять на будущее развитие генеративного ИИ.
Проблема доступа к данным
Генеративные модели ИИ, такие как ChatGPT от OpenAI или Claude от Anthropic, обучаются на огромных массивах данных, собранных из открытых источников в интернете. Однако, как отмечается в новом отчете Data Provenance Initiative, многие организации начинают ограничивать доступ к своим данным, опасаясь конкуренции со стороны ИИ-систем.
Шейн Лонгпре, ведущий исследователь Data Provenance Initiative, подчеркивает, что качество и масштаб обучающих данных напрямую влияют на способности ИИ-моделей. Ограничение доступа к высококачественным данным может существенно замедлить прогресс в области ИИ.
Технические аспекты ограничения доступа
Основным инструментом для ограничения доступа веб-краулеров к сайтам является файл robots.txt. Этот протокол существует с 1995 года, но приобрел особую актуальность в эпоху генеративного ИИ. Robots.txt позволяет владельцам сайтов указывать, какие части их ресурса могут индексироваться поисковыми системами и другими ботами.
Однако у этого подхода есть существенный недостаток: robots.txt не имеет юридической силы. Это скорее «джентльменское соглашение», которое многие компании, занимающиеся ИИ, могут игнорировать.
Изменение ландшафта данных
Исследование Data Provenance Initiative показало, что за последний год около 5% данных из популярного набора C4 (созданного в 2019 году) стали недоступны из-за новых ограничений. Особенно заметны изменения среди топ-2000 сайтов, где уже 25% данных оказались под запретом.
Это приводит к смещению акцента в обучающих данных от качественных новостных и академических ресурсов к менее надежным источникам, таким как личные блоги и e-commerce сайты.
Последствия для индустрии ИИ
Ограничение доступа к свежим и качественным данным может привести к:
- Увеличению разрыва между ИИ-моделями, соблюдающими ограничения robots.txt, и теми, кто их игнорирует
- Росту юридических рисков для компаний, использующих данные без явного разрешения
- Повышению барьера входа на рынок ИИ для новых игроков
- Увеличению интереса крупных компаний к эксклюзивным соглашениям с владельцами данных
Возможные решения
Эксперты предлагают несколько путей решения проблемы:
- Разработка новых стандартов для выражения предпочтений владельцев данных
- Увеличение инвестиций в извлечение данных из труднодоступных источников (например, PDF-файлов)
- Использование синтетических данных для заполнения пробелов
- Прямое лицензирование данных у крупных провайдеров
Будущее ИИ и данных
Ожидается, что тенденция к ограничению доступа к данным продолжится. Это может привести к «пику данных» — моменту, когда легкодоступные качественные данные для обучения ИИ станут дефицитом. Однако эксперты отмечают, что еще существует много неиспользованных источников данных, которые могут быть задействованы в будущем.
Важно отметить, что исход текущих судебных разбирательств, таких как иск The New York Times против OpenAI и Microsoft, может существенно повлиять на будущее индустрии ИИ и доступности данных.
Конфликт вокруг веб-краулинга и использования данных для обучения ИИ находится на переднем крае технологической и этической дискуссии. Решение этой проблемы потребует сотрудничества между технологическими компаниями, законодателями и создателями контента.