Общий подход
- AI врет и не выполняет промпт. Нельзя полагаться на AI как на источник информации. Даже если спрашивается что-то, то потом нужно перепроверять. Без исключений, к сожалению, если вас вообще хоть немного волнует ответ на вопрос.
- AI не может дать сразу качественный ответ. Для картинок нужно множество генераций, чтобы из них выбрать приемлемое. Для LLM (да и для картинок) нужно несколько раз уточнять промпт (перезапуск или чат). Вывод: практически нельзя проектировать так, что будет один результат, а не множество.
- AI достаточно медленный: картинка может генерироваться секунд 30 и больше, ответ тоже может быть долгим. Поэтому ориентация на пакетный подход: дал задачку, переключился в другое приложение и ждешь нотификацию, что ответ получен.
- Не нужно рассчитывать, что AI что-то знает. Лучше давать необходимые данные для их анализа явно.
- Cursor и другие программисткие IDE хороши для LLM, т.к. позволяют строить локальные базы знаний в текстовых файлах (лучший UI для текущих LLM).
- Самая большая проблема с AI (особенно текстовыми): им нельзя доверять, т.е. нужно все перепроверить, а это кажется неэффективным и долгим, поэтому тяжело себя заставить. Из-за этого в ближайшие годы будут продолжаться массово проблемы людей, которые поверили в ответы AI.
- Сейчас можно говорить о замедлении в развитии LLM. В 2025 ничего заметного нового не получилось. Завершившийся скачок не привел ни к каких значительным изменениям в экономике. Поэтому можно говорить об огромном пузыре на фондовом рынке, который скорее лопнет, чем продержится до потенциально возможных реальных прорывов (хотя в них не верится вообще; если прорывы и будут, то в роботах, а не в GPU, облаках и ПО). Это же говорит о том, что скоро массовое увлечение AI в абсолютно любом ПО перейдет на следующую стадию: пионеры откажутся от этого и займутся чем-то еще (или исчезнут как класс, если новая горячая тема не найдется), а отстающие внедрят то, что более-менее получилось у пионеров.
Безопасность
LLM крайне наивны в промптах: они не могут отличить команды пользователя от данных из сторонних систем. Например, злоумышленник на сайте может встроить команды для LLM, когда она просто постарается их прочитать.
Промежуточный вывод: пока не будет принципиального сдвига в этом вопросе LLM (да и в целом AI) можно работать только с безопасными данными, а не любыми из интернета.
Отдельно нужно понимать, что отправлять данные в облако – это отправлять данные в облако, особенно на бесплатных или дешевых тарифах. Утечки конфиденциальности (как каких-нибудь ключей/паролей, так и предпочтений для рекламы) только вопрос времени.
Виды AI
Довольно много в нашей жизни:
- LLM – модели для работы с текстом, но могут на входе принимать и картинки со звуком (некоторые).
- генерация картинок – неплохо работает даже локально, но нужно уметь готовить. Можно сказать, что отдельная профессия.
- генерация видео – что-то появляется, но не пробовал. как картинки, только еще сложнее.
- изменение картинок – например, удаление фона. Встроено во многие графические редакторы.
- преобразование звука в текст – хорошо работает. Обычно это локальный whisper от OpenAI.
- генерация песен – сам не пробовал, но много потрясающих слушал
- озвучивание теста – вроде бы есть, но даже не знаю как это сейчас
- распознавание картинки в текст – оно настолько старое, что уже многие не думают, что это AI. Сейчас прямо в macOS встроено.
какие-то еще направления?
Локальные модели LLM
Можно выделить несколько уровней:
- мобильные (где-то до 3-4b) – что-то отвечают, но практически ничего не знают (можно как-то использовать для обработки передаваемого текста, но на практике не использую). Можно сделать что-то специализированное, но непонятно зачем.
- малые (где-то до 7-8b) – так себе, но быстрые
- средние (где-то 12b) – получше, но медленнее
- большие (20b) – умещается в 32Гб смешанной памяти, должна быть архитектура сети агентов, чтобы работать быстро.
- огромные (80b-400b) – требуется специальное железо (не просто 1 игровая карта или Apple процессор). Вроде бы как хороши, почти как облако, но дорого (порядка 1 млн руб за железо).
gpt-oss:20b – очень хороша по сравнению с другими локальными. И отвечает хорошо, и быстрая. И работает с MCP. Можно сказать открытие года.
Локальные программы
- Whispering – UI для надиктовки текста (free & open source)
- Pixelmator Pro – разовая покупка от Apple, это какой-то AI локальный (например, убрать фон или стереть что-то)
- AI Playground plugin для JetBrains – позволяет запускать один запрос на нескольких моделях, чтобы сравнивать их качество
- хороший обзор text 2 speech: https://habr.com/ru/companies/ntechlab/articles/854724/
Способы дать данные в модель
Есть много способов: вручную в промпт, RAG, дообучение модели, MCP, skills. Skills самый последний в этом наборе (недавно анонсировали), но MCP все равно выглядит лучше всего (если модель умеет работать с ним, многие локальные не умеют).
Программирование с AI
- AI неплохо исправляют ошибки
- AI может писать тесты, которые дают высокое покрытие (90+%). Хорошо, что есть втрой взгляд на код, а не тот же самый программист проектирует тесты (сила парного программирования).
- AI неплохо форматируют или меняют текст (из логов сделать curl или из логов взять json и отформатировать)
- AI бесполезны в документировании и понимании проектов: да, можно сгенерировать документацию, но она скорее помощник для последующих команд AI, чем для людей. Для людей это скорее вредно: человек не проиндексировал исходный код сам, что является важным для дальнейшей качественной работы, а summary тривиально после индексации, а само по себе без индексации обычно не нужно. Тезис достоин отдельной статьи, но будем кратки.
- AI заменяет stackoverflow и другие сайты с примерами кода: он сразу адаптирует пример под нашу ситуацию. Другими словами, так можно быстро разбираться в новых API и синтаксисе. При этом, как и при использовании кода с сайтов, нужно глубоко его понимать и исправлять, т.к. часто он не до конца корректен (скорее как подсказка, чем как готовый кусок кода).
- Нужно создавать краткие инструкции (rules), чтобы адаптировать LLM к нашему проекту и не писать явно длинный промпт каждый раз.
- Довольно легко делать всякие простые вещи и прототипы. Например, локальная llm за 2 коротких промпта (основной и уточнение, что на ошибке нужно задерживаться) сделала такую страничку обучению умножению для детей: https://stepin.name/x
При этом:
- утилы форматирования и качества кода должны оставаться на явных правилах, это сейчас работает лучше
- Cursor отвратителен как IDE, только генерирую в нем код, ручные правки в другом
- предложенный AI код нужно понимать и улучшать. Довольно часто он плох.
- размер кода тестов огромен, непонятно нужно ли тратить время на его понимание, исправление или просто так тесты не писать. Тут либо как-то жестко задавать как писать тесты, либо еще что-то. Пока что открытый вопрос как лучше писать тесты с AI.
В итоге:
- AI делает бесполезными юниоров, что усложняет приток новых людей в профессию
- AI не заменит программистов, т.к. “нудить” с LLM все равно кому-то всегда будет нужно. Возможно, через какое-то время программирование будет больше про спецификации и дизайн, но мы в этом направлении идем все последние 30 лет, ничего нового. Еще в начале 2000ых говорили, что чистые программисты не нужны, нужны которые понимают специфику направления для которого пишется ПО.
- У меня пока что нет готового рецепта как работать с тестами с помощью AI, все еще пробую разные подходы.
- AI еще один новый инструмент, который нужно знать и уметь им пользоваться. Так что опять все усложнилось, а не упростилось.