Матрица: как модели видят один бренд
Обобщённый пример: один бренд среднего размера, шесть типичных запросов, пять моделей. Зелёное — назван корректно и в сильной позиции, жёлтое — назван слабо/с оговорками, красное — не упомянут или с ошибкой. Иллюстративно.
| Запрос | ChatGPT | YandexGPT | GigaChat | Алиса | DeepSeek |
|---|---|---|---|---|---|
| Прямой факт о бренде | ✓ | ✓ | ✓ | ~ | ✓ |
| «Компании в сфере Y» | ✓ | ~ | ✗ | ✗ | ~ |
| «Посоветуй сервис для…» | ~ | ✗ | ~ | ✗ | ✗ |
| «X или конкурент — что лучше» | ✗ | ~ | ✗ | ✗ | ~ |
| «Надёжна ли компания X» | ~ | ✓ | ~ | ~ | ✗ |
| «Где купить / оформить» | ✓ | ✓ | ~ | ✓ | ~ |
Иллюстративная матрица по данным симуляций; для реального бренда картина строится в демо-аналитике.
Главный вывод виден сразу: нет ни одной строки и ни одного столбца, где картина была бы одинаковой. Бренд, уверенно представленный в ChatGPT, может отсутствовать в Алисе; сильный в YandexGPT — проседать в DeepSeek. Замер по одной модели — это одна колонка из шести, а решения принимаются по всей таблице.
Метрика разброса
Чтобы выразить расхождение числом, мы считаем долю запросов, где вывод (упомянут/в какой позиции) меняется в зависимости от модели. Чем выше — тем опаснее судить о видимости по одной нейросети.
На фактовых запросах модели в основном согласны — факт один. А вот на оценочных типах (сравнения, рекомендации) разброс достигает половины и более: каждая модель «собирает» свой ответ из доступных ей источников и обучения, и эти наборы у моделей разные.
Где модели расходятся сильнее всего
- Узкие и B2B-ниши. Мало источников — каждая модель опирается на свой обрывок, картины разъезжаются.
- Локальные/российские бренды. Глобальные модели (ChatGPT, DeepSeek) знают их хуже, чем YandexGPT, GigaChat и Алиса.
- Свежие изменения. Новый продукт или ребрендинг доходит до моделей с разной задержкой.
- Оценочные запросы. Сравнения и рекомендации — там расхождение максимальное.
Почему так получается
У моделей разные обучающие данные, разные даты «знаний», разный доступ к актуальному вебу и разные механизмы извлечения источников. Российские модели лучше знают локальный контекст; глобальные — шире, но с пробелами по РФ. Добавьте к этому случайность генерации (один и тот же запрос дважды может дать разный ответ), и становится понятно, почему одна модель — это одна точка зрения, а не вся картина (см. «Чем отличаются нейросети друг от друга»).
Что это значит для замера
- Мерить минимум по 4–5 моделям. Иначе вы видите случайную колонку, а не реальную видимость бренда.
- Считать агрегат и разброс. Важна не только средняя видимость, но и то, в каких моделях бренд проваливается.
- Сегментировать по типам запросов. На оценочных запросах разброс выше — там и приоритет работы.
- Не делать выводов по одному прогону. Из-за случайности генерации нужна повторяемость — несколько прогонов на запрос.
- Учитывать локальность. Для бренда РФ вес российских моделей в общей картине выше.
Частые вопросы
Можно ли ориентироваться только на ChatGPT, раз он популярен?
Для аудитории РФ — нет. Часть пользователей в YandexGPT/Нейро, GigaChat и Алисе, а картина в них может сильно отличаться. Популярность одной модели не отменяет видимость (или её отсутствие) в остальных.
Откуда метрика разброса?
Из сравнения смоделированных ответов пяти моделей в движке GEO AIM. Это иллюстрация порядка величин и относительной разницы между типами запросов, а не официальный рейтинг моделей.
Что делать, если в одной модели всё хорошо, а в другой плохо?
Это норма. Работать прицельно: усиливать факты и контент так, чтобы подтянуть слабые модели, и регулярно перемерять — разрыв между моделями со временем меняется.