Исследования

Искусственный интеллект каннибализирует сам себя?

30 августа, 2024

Midjourney, Stable Diffusion

Искусственный интеллект (ИИ) обучается на огромных объемах данных, которые в значительной степени берутся из интернета. Однако с ростом потребности в этих данных многие модели начинают потреблять контент, созданный другими ИИ, что в свою очередь может негативно сказаться на самих моделях. Таким образом, интернет может заполниться ботами, а контента, созданного людьми, станет намного меньше.

Почему каннибализация данных ИИ может быть опасным?

ИИ «поедает» сам себя. В настоящее время искусственный интеллект развивается стремительно, а данных, созданных людьми, необходимых для обучения моделей, становится все меньше. Как пишет The New York Times: «Когда ИИ сканируют интернет в поисках новых данных для обучения своих следующих моделей, они могут невольно потреблять собственный ИИ-контент, создавая таким образом непреднамеренную обратную связь, в которой бывший результат одной модели становится входными данными для другой». Это явление называется «коллапс модели» — когда результаты генеративных ИИ начинают отклоняться от реальности.

Компании, занимающиеся ИИ, сталкиваются с непростым выбором. Как сообщает The Atlantic, для создания более сложных ИИ-продуктов крупные технологические компании могут быть вынуждены использовать ИИ-сгенерированный контент, так как отличить данные, созданные человеком, от синтетических становится все труднее. В то же время синтетические данные необходимы для поддержания темпов роста технологий. Несмотря на ошеломляющий прогресс, чат-боты и другие генеративные инструменты, такие как Midjourney и Stable Diffusion, по-прежнему иногда выдают предвзятые, ложные или абсурдные результаты. Эти неточности затем переносятся в следующую итерацию моделей ИИ.

Когда синтетические данные могут быть полезны?

Это не означает, что все данные, созданные ИИ, плохи. Как отмечает The New York Times, существуют контексты, в которых синтетические данные могут быть полезны для обучения ИИ. Например, когда результаты большей модели используются для обучения меньшей, или когда правильный ответ можно проверить, как решение математической задачи или лучшие стратегии в играх, таких как шахматы или го. Кроме того, эксперты работают над созданием наборов синтетических данных, которые с меньшей вероятностью приведут к коллапсу модели. По словам Алекса Димакиса, компьютерного ученого из Техасского университета в Остине, «фильтрация — это целая область исследований, и мы видим, что она оказывает огромное влияние на качество моделей».

Искусственный интеллект захватывает интернет?

Проблема обучения новых моделей ИИ может свидетельствовать о более широкой проблеме. Как пишет Scientific American, «контент, созданный ИИ, захватывает интернет», и тексты, сгенерированные «большими языковыми моделями», заполняют сотни веб-сайтов, включая CNET и Gizmodo. Контент, создаваемый ИИ, также создается гораздо быстрее и в больших объемах, чем контент, созданный людьми. «Кажется, мы находимся в точке перелома, когда многие из существующих инструментов, которые мы используем для обучения этих моделей, быстро насыщаются синтетическим текстом», — сказал Вениамин Веселовский, аспирант Швейцарского федерального технологического института в Лозанне.

Огромное количество контента, созданного ИИ, в интернете, включая твиты ботов, абсурдные изображения и поддельные отзывы, породило более зловещую теорию.

«Теория мертвого интернета» утверждает, что «большая часть интернет-трафика, постов и пользователей была заменена ботами и контентом, созданным ИИ, и что люди больше не формируют направление интернета», пишет Forbes.

Эта теория, возникшая на форуме 4Chan в начале 2010-х годов, недавно приобрела популярность.

Некоторые считают, что контент, созданный ИИ, на интернет-платформах заходит глубже, чем просто получение вовлеченности в социальных сетях или обучение моделей. «Ограничивается ли теория мертвого интернета безобидным сбором данных о вовлеченности?» — задаются вопросом Джейк Рензелла, преподаватель и директор программ обучения по информатике в UNSW Sydney, и Влада Розова, научный сотрудник по прикладному машинному обучению в Университете Мельбурна, в статье для The Conversation. «Или, возможно, под поверхностью скрывается сложная, хорошо финансируемая попытка поддерживать автократические режимы, атаковать оппонентов и распространять пропаганду?»

К счастью, эксперты утверждают, что теория мертвого интернета пока не воплотилась в реальность. Как отмечает Forbes, «большинство постов, которые становятся вирусными — неординарные мнения, остроумные замечания, проницательные наблюдения, новое переосмысление знакомого контекста — не созданы ИИ».

Интеллектуальные чат-боты

OpenAI объявляет о запуске новых моделей ИИ и продуктов для разработчиков

На мероприятии DevDay компания OpenAI представила несколько важных новых моделей ИИ и инструментов для разработчиков. Эти новые решения значительно расширяют возможности ИИ и делают его более доступным для создателей программного обеспечения.

Читать полностью »

07.11.2023

Интеллектуальные чат-боты

Проекты в ИИ-ассистенте Claude — мощный инструмент повышения продуктивности

Claude — ИИ-ассистент от компании Anthropic, предлагающий уникальную функцию Проектов, которая позволяет «обучать» ИИ на основе пользовательских документов объемом до 500 страниц. Этот инструмент может значительно повысить эффективность работы в различных областях, от подготовки к занятиям до планирования сложных проектов, предоставляя персонализированную помощь на основе загруженных материалов и пользовательских инструкций.

Читать полностью »

09.09.2024