Анонсы

Phi-3.5 — новая линейка ИИ-моделей от Microsoft

4 сентября, 2024

Gemini, Google, GPT-4, GPU, LLaMA, Microsoft, Mistral, NLP, OpenAI, Phi-3.5, SLM, Компьютерное зрение

В мире искусственного интеллекта произошло значимое событие: компания Microsoft представила три новые модели ИИ серии Phi-3.5, которые теперь доступны как проекты с открытым исходным кодом. Эти модели, получившие названия Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct и Phi-3.5-vision-instruct, предлагают разработчикам мощные инструменты для решения различных задач, включая рассуждения, обработку многоязычных данных, а также анализ изображений и видео.

Особенности моделей Phi-3.5

Каждая из представленных моделей имеет свои уникальные характеристики:

Phi-3.5-mini-instruct: Эта модель с 3,82 миллиардами параметров оптимизирована для базовых задач рассуждения и быстрой обработки данных. Несмотря на свой компактный размер, она превосходит более крупные модели, такие как Llama-3.1-8B-instruct и Mistral-7B-instruct, в тестах на понимание кода в длинном контексте.
Phi-3.5-MoE-instruct: С 41,9 миллиардами параметров, эта модель использует архитектуру «смеси экспертов» (mixture-of-experts), что позволяет ей справляться с более сложными задачами рассуждения. Она превосходит даже такие крупные модели, как Google Gemini 1.5 Flash, демонстрируя продвинутые возможности в области рассуждений.
Phi-3.5-vision-instruct: Эта мультимодальная модель с 4,15 миллиардами параметров объединяет возможности обработки текста и изображений. Она способна работать с контекстом длиной до 128 тысяч токенов, что делает ее особенно эффективной в задачах анализа сложных многокадровых визуальных данных.

Процесс обучения и производительность

Все три модели прошли интенсивное обучение на огромных объемах данных.

Phi-3.5-mini-instruct обучалась на 3,4 триллионах токенов в течение 10 дней с использованием 512 GPU H100-80G. Phi-3.5-MoE-instruct потребовала еще более длительного периода обучения — 23 дня на 4,9 триллионах токенов с тем же количеством GPU. Phi-3.5-vision-instruct обучалась на 500 миллиардах токенов в течение 6 дней на 256 GPU A100-80G.

Результаты тестирования показывают, что модели Phi-3.5 превосходят многие ведущие модели ИИ, включая GPT-4 от OpenAI, в ряде сценариев. Особенно впечатляющие результаты демонстрирует Phi-3.5-mini-instruct, которая, несмотря на свой относительно небольшой размер, показывает высокую эффективность в задачах от общих рассуждений до специфических сценариев решения проблем.

Реакция сообщества и потенциальные применения

Выпуск моделей Phi-3.5 вызвал значительный интерес в сообществе разработчиков ИИ. Эксперты отмечают высокую производительность моделей в многоязычных задачах и задачах компьютерного зрения, особенно отмечается потенциал Phi-3.5 SLM (small language model) для корпоративных приложений, где критически важны эффективность и масштабируемость.

Обратили также внимание на возможность конвертации Phi-3.5 в архитектуру Llama без потери производительности, что открывает новые перспективы для оптимизации моделей и их применения в реальных проектах.

Открытый исходный код и лицензия MIT

Одним из ключевых аспектов выпуска моделей Phi-3.5 является их доступность под лицензией MIT. Это означает, что разработчики могут свободно использовать, модифицировать и распространять эти модели как для коммерческих, так и для некоммерческих целей. Такой подход Microsoft способствует более широкому внедрению возможностей ИИ в различные приложения и проекты различных отраслей.

Влияние на индустрию ИИ

Выпуск моделей Phi-3.5 может оказать значительное влияние на развитие индустрии ИИ. Открытый доступ к высокопроизводительным моделям позволит ускорить инновации в области ИИ и демократизировать доступ к передовым технологиям. Это может привести к появлению новых приложений и сервисов, использующих возможности ИИ в таких областях, как автоматизация бизнес-процессов, анализ данных, компьютерное зрение и natural language processing (NLP — обработка естественного языка).

Перспективы и будущее развитие

Выпуск моделей Phi-3.5 является важным шагом в развитии открытых технологий ИИ. Можно ожидать, что в будущем Microsoft и другие крупные технологические компании продолжат работу над улучшением производительности и расширением возможностей моделей ИИ. Особый интерес представляет дальнейшее развитие архитектуры «смеси экспертов» и мультимодальных моделей, способных эффективно работать с различными типами данных.

Модели серии Phi-3.5 предлагают разработчикам мощные инструменты для решения широкого спектра задач, от обработки естественного языка до компьютерного зрения. Открытый исходный код и лицензия MIT обеспечивают широкие возможности для применения этих моделей в различных областях, что может стимулировать инновации и ускорить развитие технологий ИИ в ближайшие годы.

Генеративные модели

Haiper 1.5: Новый рубеж в генерации видео с помощью искусственного интеллекта

Лондонская компания Haiper представила новую модель искусственного интеллекта Haiper 1.5 для генерации видео на основе текстовых описаний. Модель способна создавать видеоклипы длительностью до 8 секунд в полном HD-разрешении, что вдвое превышает возможности предыдущей версии.

Читать полностью »

04.08.2024

Использование ИИ в медицине

Прорыв в диагностике инсульта при помощи искусственного интеллекта

Внедрение ИИ в больнице Methodist Mansfield в Техасе демонстрирует значительный прогресс в диагностике и лечении инсульта, сокращая время реакции и спасая жизни пациентов. Несмотря на опасения, эксперты считают, что ИИ не заменит врачей, а станет важным вспомогательным инструментом.

Читать полностью »

24.08.2024