AI4BIZ logo

Веб-краулинг и искусственный интеллект

В мире искусственного интеллекта (ИИ) разворачивается настоящая битва за данные. Ключевой вопрос: кто имеет право собирать и использовать информацию, размещенную в интернете? Этот конфликт может существенно повлиять на будущее развитие генеративного ИИ.

Проблема доступа к данным

Генеративные модели ИИ, такие как ChatGPT от OpenAI или Claude от Anthropic, обучаются на огромных массивах данных, собранных из открытых источников в интернете. Однако, как отмечается в новом отчете Data Provenance Initiative, многие организации начинают ограничивать доступ к своим данным, опасаясь конкуренции со стороны ИИ-систем.

Шейн Лонгпре, ведущий исследователь Data Provenance Initiative, подчеркивает, что качество и масштаб обучающих данных напрямую влияют на способности ИИ-моделей. Ограничение доступа к высококачественным данным может существенно замедлить прогресс в области ИИ.

Технические аспекты ограничения доступа

Основным инструментом для ограничения доступа веб-краулеров к сайтам является файл robots.txt. Этот протокол существует с 1995 года, но приобрел особую актуальность в эпоху генеративного ИИ. Robots.txt позволяет владельцам сайтов указывать, какие части их ресурса могут индексироваться поисковыми системами и другими ботами.

Однако у этого подхода есть существенный недостаток: robots.txt не имеет юридической силы. Это скорее «джентльменское соглашение», которое многие компании, занимающиеся ИИ, могут игнорировать.

Изменение ландшафта данных

Исследование Data Provenance Initiative показало, что за последний год около 5% данных из популярного набора C4 (созданного в 2019 году) стали недоступны из-за новых ограничений. Особенно заметны изменения среди топ-2000 сайтов, где уже 25% данных оказались под запретом.

Это приводит к смещению акцента в обучающих данных от качественных новостных и академических ресурсов к менее надежным источникам, таким как личные блоги и e-commerce сайты.

Последствия для индустрии ИИ

Ограничение доступа к свежим и качественным данным может привести к:

  • Увеличению разрыва между ИИ-моделями, соблюдающими ограничения robots.txt, и теми, кто их игнорирует
  • Росту юридических рисков для компаний, использующих данные без явного разрешения
  • Повышению барьера входа на рынок ИИ для новых игроков
  • Увеличению интереса крупных компаний к эксклюзивным соглашениям с владельцами данных

Возможные решения

Эксперты предлагают несколько путей решения проблемы:

  • Разработка новых стандартов для выражения предпочтений владельцев данных
  • Увеличение инвестиций в извлечение данных из труднодоступных источников (например, PDF-файлов)
  • Использование синтетических данных для заполнения пробелов
  • Прямое лицензирование данных у крупных провайдеров

Будущее ИИ и данных

Ожидается, что тенденция к ограничению доступа к данным продолжится. Это может привести к «пику данных» — моменту, когда легкодоступные качественные данные для обучения ИИ станут дефицитом. Однако эксперты отмечают, что еще существует много неиспользованных источников данных, которые могут быть задействованы в будущем.

Важно отметить, что исход текущих судебных разбирательств, таких как иск The New York Times против OpenAI и Microsoft, может существенно повлиять на будущее индустрии ИИ и доступности данных.

Конфликт вокруг веб-краулинга и использования данных для обучения ИИ находится на переднем крае технологической и этической дискуссии. Решение этой проблемы потребует сотрудничества между технологическими компаниями, законодателями и создателями контента.

Исследования

Исследование способностей рассуждения у больших языковых моделей (LLM)

Исследование, проведенное учеными из Amazon и Калифорнийского университета в Лос-Анджелесе, выявило, что большие языковые модели обладают сильными способностями к индуктивному рассуждению, но слабыми — к дедуктивному. Эти результаты могут иметь значительное влияние на разработку систем ИИ и открывают новые перспективы для будущих исследований в области искусственного интеллекта.

Читать полностью »
Исследования

Искусственный интеллект каннибализирует сам себя?

Самообучение искусственного интеллекта на данных, созданных другими ИИ, может привести к проблеме «коллапса модели» и ухудшению качества результатов. Однако синтетические данные все еще необходимы для развития технологий, и эксперты работают над созданием методов фильтрации для повышения их качества. Тем не менее, есть опасения, что интернет может быть захвачен контентом, созданным ИИ.

Читать полностью »

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *