Она только появилась, но уже доступна в десятках сервисов.
Что за Flux.1 AI
Это относительно новая нейросеть для генерации картинок от Black Forest Labs — команды разработчиков, которые ранее участвовали в создании моделей Stable Diffusion, включая SD XL и SD Video. Они представили линейку моделей Flux.1 в начале августа 2024 года. В серию входят:
- Flux.1 [pro] — топовая версия, доступна только через API. Предлагает самое точное следование промпту, высокое качество и детализацию.
- Flux.1 [dev] — немного «обезжиренная» версия [pro] для некоммерческого использования (речь про саму модель, а не созданные с её помощью картинки). Предлагает схожие с [pro] качество и соответствие промпту.
- Flux.1 [schnell] — вариант с приоритетом скорости генерации. Оптимальна для персонального использования, но нужно мириться с компромиссами в качестве по сравнению с другими версиями модели.
Примечательно, что любую версию можно попробовать как на своём компьютере, так и онлайн.
Почему эта модель так популярна
Главная причина очевидна: Flux.1 AI бесплатна. Также она доступна во множестве сервисов, которые позволяют опробовать нейросеть пользователям без особого опыта и мощного компьютера. Наконец, состав команды из бывших разработчиков Stable Diffusion тоже прибавляет авторитет.
Конечно, всё это было бы бесполезно без адекватного продукта. Тут всё хорошо: возможности Flux и качество генерации уже в первой версии намного превосходят первые версии Stable Diffusion.
Модель умеет создавать неплохой реализм, хотя до сходства с фотографиями пока не доходит, обычно хорошо справляется с анатомией, точно следует запросу и может внедрять текст в изображения. Также нейросеть не игнорирует запросы на насилие: у неё более спокойная цензура, чем у большинства других генераторов.
Напрашивается сравнение с Ideogram 2.0, которая тоже не отказывается показывать кровь и синяки. Но какие-то ограничения во Flux всё же присутствуют: например, заставить её изобразить настоящих людей у меня не получилось. На запрос показать бой Илона Маска с Марком Цукербергом в Колизее нейросеть выдала двух рандомных белых мужчин, попытки поиграть с настройками соответствия промпту не помогли.
На изображении выше видно, что кровь очень неестественная. Я пробовала сгенерировать более настоящую с разными промптами, но ничего совсем реалистичного создать так и не вышло. Вот самый жуткий результат:
Да, довольно пугающе, но и близко не тот уровень дискомфорта, который предполагает запрос. Крипово, скорее, всё, кроме крови. Вероятно, в сервисах заранее прописаны негативные промпты, которые отбивают всё по-настоящему уродливое и гротескное.
При описании Flux часто делают акцент на качественном включении текста в картинки, при этом немного читерят. В обзорах и туториалах её просят просто включить в картинку табличку с какой-то надписью. С этим действительно всё хорошо: достаточно прописать в промпте sign with [текст в кавычках] written on it, и нейросеть подчинится. Единственный нюанс: текст должен быть на английском языке.
Учитывайте, что, если кадр требует наличия ещё какого-то текста, например того же журнала из примера выше, он будет типичной нейросетевой неразберихой.
Да и с вписыванием заданного текста в окружение всё сложнее и печальнее: что-то вменяемое можно получить примерно в одном случае из пяти, в остальных — буквы теряются или смазываются в неразбериху. Ниже — относительно удачный пример, но слишком пристально в надпись всё равно лучше не вглядываться.
А ещё нейросеть так увлеклась вписыванием текста, что забыла проверить количество пальцев у мужчины. Это не очень частое явление, но местами проскальзывает.
Если вам не подойдёт вариант с табличкой, доработать или просто добавить текст в «Фотошопе» намного быстрее, чем пытаться заставить нейросеть сделать хорошо.
Где можно найти Flux.1 AI
Если у вас не очень мощный компьютер или просто Mac либо вы не хотите разбираться с настройками и полноценным промптингом, есть смысл обратиться к сторонним сервисам, на которых представлена модель. Они упрощают работу, предлагая понятный интерфейс, в котором можно разобраться за несколько минут.
Все представленные сайты работают по одному принципу: пользователь вводит промпт и настройки в интерфейсе, затем данные передаются на удалённый мощный компьютер и им же обрабатываются. После этого результат появляется на экране пользователя.
Совсем бесплатно выделять мощности никто не будет, так что у всех сервисов есть свои варианты монетизации. Где-то без подписки можно генерировать только определённое число картинок в день, где-то и вовсе бесплатен только небольшой пробный период, а дальше всё за деньги.
Официальной веб-версии Flux пока не существует.
Все сервисы с Flux в названии официальными не являются. Напрямую связанные с Black Forest Labs сайты перечислены на сайте разработчиков, но это тоже сторонние компании, а не внутренние проекты. Ниже расскажем о самых удобных вариантах.
Hugging Face
- Сайт: huggingface.co.
- Приложение: нет.
- Версии модели: Flux.1 [schnell] и Flux.1 [dev].
- Возможности: генерация по текстовому промпту.
- Условия: без регистрации можно создать 2–3 картинки, с бесплатным аккаунтом — около 10 в день, количество зависит от настроек. Pro-подписка стоит 9 долларов в месяц, она даёт больше генераций и приоритетную скорость обработки.
Hugging Face — это такой полигон для моделей, на котором доступны тысячи нейросетей. Обычно доступ к ним дают либо сами разработчики, либо энтузиасты, которые готовы делиться вычислительной мощностью с желающими.
На площадке можно выбрать модель: [schnell] или [dev]. Первый вариант позволяет получить результат быстрее, но со вторым — качество изображений будет выше. Можно попробовать оба, чтобы понять, какая опция больше устраивает.
Интерфейс генератора простой, настройки тоже. Помимо ввода промпта можно выбрать Seed — число, которое привязывается к генерации и позволяет создавать новые картинки в похожем стиле, высоту и ширину изображения, а также число проходов — Number of inference steps. У модели [dev] ещё есть настройки степени соответствия результата промпту — Guidance Scale: чем выше параметр, тем меньше самодеятельности нейросети.
Mystic
- Сайт: mystic.ai.
- Приложение: нет.
- Версии модели: Flux.1 [schnell], Flux.1 [dev] и Flux.1 [pro].
- Возможности: генерация по текстовому промпту.
- Условия: нужна регистрация через почту или Google-аккаунт, бесплатно можно создать пару картинок, дальше — только с вводом карты и ежемесячным списанием за сгенерированные картинки.
По сути, Mystic — это премиальная версия Hugging Face с возможностью командной работы. На площадке тоже дают тестировать модели, но бесплатно можно сделать очень мало. Зато есть возможность попробовать версию [pro], в других сервисах она скрывается за страницей оплаты. Mystic, правда, тоже попросит ввести данные карты, но как минимум одну картинку сгенерировать перед этим удастся.
С версиями [dev] и [schnell] поэкспериментировать получится чуть подольше, но когда долг превысит 0,2 доллара — посмотреть информацию об этом можно в профиле, выбор способа оплаты будет обязательным.
Настройки в Mystic стандартные: размеры картинки, количество проходов, соответствие промпту, Seed. Выделяется разве что блок Output: если ввести неправильные настройки, которые нейросеть не может обработать, в нём отобразится причина. Часто это неправильные размеры: и высота, и ширина должны быть кратными 32 — в других сервисах тоже, но это так чётко не указывается.
CivitAI
- Сайт: civitai.com.
- Приложение: нет.
- Версии модели: бесплатно — Flux.1 [dev], платно — Flux.1 [schnell] и [pro].
- Возможности: генерация по текстовому промпту, копирование настроек из генераций пользователей
- Условия: бесплатно можно сгенерировать около четырёх картинок, дальше нужно фармить или покупать внутреннюю валюту.
Создатели CivitAI переименовали модели Flux в соответствии с тем, что «лучше соответствует их целям». [schnell] превратилась в Draft, а [dev]— в Standard. [pro] трогать не стали. Одна из настроек тоже прошла переименование: соответствие промпту здесь называется CFG Scale. Помимо этой опции есть стандартные Seed и количество проходов.
В CivitAI примечательно наличие чего-то вроде соцсети: на главной можно листать последние генерации других пользователей, подсматривать промпты с настройками и даже копировать Seed. Это одновременно и идеи для вдохновения, и демонстрации того, что может, и для чего используется другими, Flux. Можно даже нажать кнопку Remix, чтобы скопировать все параметры в редактор и модифицировать под свой запрос.
Если вы опубликовали сгенерированную картинку и она кому-то понравилась, пользователь может оставить чаевые в виде внутренней валюты: она расходуется при генерации.
Flux AI Image Generator
- Сайт: flux1.ai.
- Приложение: нет.
- Версия модели: не уточняется, но, скорее всего, Flux.1 [schnell].
- Возможности: генерация по текстовому промпту.
- Условия: 10 картинок бесплатно, лимит не восполняется. Дальше нужна подписка — самый дешёвый вариант за 11,9 долларов в месяц позволяет сгенерировать 200 картинок.
Это как раз один из тех сайтов, которые используют название нейросети, хотя с разработчиками никак не связаны. Представляет собой максимально простой генератор, который выдаёт по одной картинке за раз, из настроек доступно только соотношение сторон.
Krea AI
- Сайт: krea.ai.
- Приложение: нет.
- Версия модели: не уточняется, но, скорее всего, Flux.1 [schnell].
- Возможности: генерация по текстовому промпту, визуальный редактор композиции, апскейл.
- Условия: 3 минуты генерации бесплатно — это примерно 20 картинок в обычном редакторе или около 900 в визуальном, дальше только с платной подпиской стоимостью до 10 долларов в месяц.
«Комбайн» из нейросетей в одном сервисе, о котором мы уже рассказывали в отдельном обзоре. За генерацию картинок здесь отвечает как раз Flux. Сервис предлагает стандартный редактор с выбором текстового промпта и стиля, а ещё есть особый редактор Realtime. В нём любые изменения промпта мгновенно отражаются на результате, а на композицию можно влиять с помощью набросков.
Grok-2
- Сайт: x.com.
- Приложения: iOS, Android.
- Версия модели: не уточняется, но, скорее всего, Flux.1 [schnell].
- Возможности: генерация по текстовому запросу на естественном языке.
- Условия: нужна подписка X Premium или Premium+ стоимостью от 8 долларов в месяц.
Grok — это чат-бот, доступ к которому входит в подписки X Premium и X Premium+ в бывшем Twitter. Он умеет генерировать картинки и для обработки запросов полагается как раз на модели Flux.
Главный плюс этого варианта в том, что пользователю вообще не нужно уметь писать промпты: достаточно рассказать ИИ-ассистенту, что хочется получить. Если результат не понравится, правки можно дать тоже обычным текстом. Из минусов — бот присылает только одну картинку, а не пачку из четырёх.
Как писать промпты для Flux
Советы для Midjourney, Stable Diffusion и прочих генераторов картинок помогут улучшить выдачу и во Flux.
Для лучших результатов постарайтесь прописать:
- Стиль — можно задать прямо в начале промпта: «фотография» (a photo of…), «картина маслом» (an oil painting of…) и так далее. Некоторые стили удобнее описывать в конце, используя связку in [стиль] style. Например, «в стиле мультиков 90-х» — in 90s cartoon style.
- Объект — настолько подробно, насколько это важно для результата. Если детали не важны, описывайте максимально просто: «девушка», «старик», «котёнок», «стул» (young woman, old man, kitten, chair). Сложные описание тоже подходят: например, «рыжая женщина старше 40 с заплетёнными в косы волосами, с ярким макияжем и в чёрной кожаной куртке» (redhead woman in her 40s with french braids, bright makeup and black leather jacket).
- Действие — что делает объект. Лежит, бежит, вяжет крестиком и так далее (laying down, running, cross-stitching).
- Окружение — что в кадре помимо объекта. Можно описывать всё детально до последнего предмета или просто задать общий стиль или настроение: например, «простой современный фон» (simple modern background) или «неоновый дождливый город» (rainy neon cityscape).
- Освещение — параметр помогает бороться с любовью нейросетей к идеальному студийному свету и позволяет лучше передать настроение. Например, «естественный свет» (natural lighting), «драматичное освещение» (dramatic lighting), «мрачное освещение» (gloomy lighting), «лунный свет» (moonlight), «золотой час» (golden hour).
- Положение камеры — помогает получить нужный результат и создать правильное настроение. Например, «с высоты птичьего полёта» (bird’s eye view), «вид снизу» (low angle), «крупный план» (close-up), «общий план» (long shot), «голландский угол» (Dutch angle).
Учтите, что Flux не очень понимает, как выглядят стили даже очень известных художников и режиссёров, и редко справляется с запросами вроде «нарисуй котят в стиле Альфонса Мухи». Если нужно имитировать конкретный художественный стиль и вы не можете применить его с помощью пресета в сервисе, можно погуглить описание этого стиля и добавить в промпт.
Дополнительно упростить жизнь помогут генераторы промптов:
- flux1.ai — расписывает промпт и добавляет детали, для работы нужно войти на сайт через почту или Google-аккаунт.
- Hugging Face — «комбайн» предлагает выбрать в выпадающем меню все подробности о картинке, включая объект, стиль, композицию и так далее. Можно даже найти подробное описание одежды и волос из сотен предложенных вариантов. Работает без авторизации, но из-за высокой нагрузки не всегда доступен.
Впечатления и итоги
У Flux есть свои сильные и слабые стороны, при этом как-то особенно преуспела она разве что во внедрении текста — и то в виде табличек. Главный потенциал нейросети кроется в локальном доступе и обучении LoRA-моделей, но для этого нужно быть ИИ-энтузиастом, а не простым пользователем, который привык взаимодействовать с нейронками через веб-интерфейс.
Собрали плюсы и минусы модели Flux в табличке:
Плюсы | Минусы |
Много сервисов с бесплатным доступом. | Нет адекватного официального сервиса с интерфейсом. |
Результаты генерации бесплатны для коммерческого использования. | Модели для установки слишком требовательны к ресурсам ПК. |
Умеет внедрять надписи. Правда, только на английском. | Плохо имитирует даже очень известные стили. |
Редко грешит лишними пальцами и конечностями. | Текст плохо вписывается в окружение, хорошо получаются только таблички. |
В последнее время появляется всё больше конкурентов Stable Diffusion и Midjourney. А каким сервисом для генерации изображений пользуетесь вы?
Нейронки делают красиво 🎨 🎬 ✨ Как использовать нейросеть Runway ML Gen-3 Alpha для оживления картинок Как генерировать очень реалистичные картинки с нейросетью Ideogram 2.0 Playground AI: как пользоваться ИИ-генератором картинок с массой бесплатных функций Как пользоваться Kling AI — китайской нейросетью для генерации видео Как меня видит нейросеть: 6 сервисов, которые переделывают фото Обложка: Лайфхакер