Cайт веб-разработчика, программиста Ruby on Rails ESV Corp. Екатеринбург, Москва, Санкт-Петербург, Новосибирск, Первоуральск

Вы зря платили SEO-специалистам: ChatGPT и Gemini выбирают сайты по собственным, довольно странным правилам

Когда ChatGPT, Gemini или DeepSeek показывают ссылки под ответом, список выглядит как привычные источники из поисковой выдачи. Новое исследование показывает, что внешнее сходство обманчиво: каждая система собирает и прикрепляет ссылки по собственным правилам, а попадание сайта в топ Google почти не помогает попасть в ответы нейросетей.

Авторы разобрали сетевой обмен веб-клиентов ChatGPT, Gemini и DeepSeek, а затем проверили, какие страницы системы цитируют при одинаковых запросах. Для проверки использовали четыре англоязычных B2B-запроса про инструменты мониторинга упоминаний в нейросетях. Каждый запрос запускали по десять раз в каждой системе, веб-поиск был включен, а замеры проходили без входа в аккаунт в течение одного дня.

Исследование подготовила команда RankCaster AI, платформы для управления видимостью брендов в ответах нейросетей. Автор отдельно указал возможный конфликт интересов: компания работает в той же категории, которую изучала. Чтобы снизить риск перекоса, собственный домен RankCaster AI исключили из таблиц до подсчетов, а ограничения методики описали отдельно.

Главный числовой результат оказался жестким для классического SEO. Среди 120 позиций из топа Google и Bing исследователи нашли всего четыре совпадения с источниками в ответах нейросетей. Доля совпадений составила 3,3%. Все совпавшие ссылки пришли из Bing, а Google не дал ни одного совпадения. У ChatGPT пересечений с выдачей обоих поисковиков не было.

Для корректного сравнения авторам сначала пришлось понять, что именно каждая система считает источником. У ChatGPT ссылки приходят в массиве annotations внутри объектов url_citation. В каждом объекте есть адрес, заголовок и границы фрагмента ответа, к которому привязана ссылка. Практический вывод простой: ChatGPT не прикрепляет источник ко всему тексту целиком, а связывает ссылку с конкретным отрывком. Для попадания в цитирование материал должен пригодиться модели именно при генерации нужной части ответа.

Разбор сетевого обмена показал и технические детали работы ChatGPT. Веб-клиент отправляет запросы на chatgpt.com, а ответ получает потоком через Server-Sent Events. Перед основным обменом клиент делает подготовительный запрос и получает рабочий токен. В части сессий тот же шаг дополнительно требовал проверку Cloudflare Turnstile. Авторы считают, что платформа совмещает несколько механизмов защиты клиента и сессии перед генерацией ответа.

Важная деталь касается границ цитирования. Поля start_ix и end_ix указывают на участок текста, к которому относится ссылка. По наблюдениям исследователей, смещения почти наверняка считаются в кодовых единицах UTF-16, как в JavaScript. При неправильном подсчете символов цитаты могут съехать, особенно если в тексте есть эмодзи или часть китайских, японских и корейских знаков.

На запрос What is GEO? ChatGPT во всех десяти прогонах ссылался на научную статью arXiv 2311.09735, где описан термин GEO. Система также цитировала Wikipedia и узкоспециализированные блоги. Маркетинговые страницы из поискового топа в проверке не совпали с источниками ChatGPT.

Gemini устроен иначе. Веб-клиент использует внутренний JavaScript-каркас Google Wiz и механизм batchexecute, а данные передаются через формат JSPB/PBLite, где поля определяются не понятными именами, а позициями в массиве. Исследователи нашли рядом с источниками набор коротких маскированных полей. Часть значений похожа на внутренние сигналы: оценку доверия к домену, дату последнего обращения, фрагмент цитирования, валидность ссылки и диапазон символов в ответе. Авторы подчеркивают, что расшифровка полей остается гипотезой, потому что Google не публикует внутреннюю схему ответа.

По набору цитируемых сайтов Gemini заметно отличался от ChatGPT. Система чаще поднимала крупные SaaS- и маркетинговые домены, включая Semrush, HubSpot и Zapier. В одном из запросов в верхнюю часть источников попали четыре разных URL одного домена-конкурента. При этом среди главных источников Gemini за все прогоны не оказалось ресурсов самого Google.

DeepSeek оказался самым прозрачным из трех сервисов с технической точки зрения. Веб-клиент возвращает массив search_results, привязанный к подзапросам, на которые система разбивает исходный вопрос. Сложной разметки диапазонов и маскированных полей исследователи там не нашли.

Выбор источников у DeepSeek оказался самым специфичным. Система часто ссылалась на новостные сайты, пресс-релизы, отраслевые B2B-ресурсы и страницы документации. В выборке встречались TMCnet, MarketScreener, GlobeNewswire и другие площадки, связанные с распространением корпоративных сообщений. DeepSeek также единственным из трех сервисов регулярно цитировал китайские источники, включая BusinessNext и Alibaba Cloud.

Отдельно авторы отметили три самые стабильные точки во всей выборке DeepSeek: один поддомен документации и два инструментальных сайта попадали в ответы во всех десяти прогонах. Эти источники не совпали ни с SEO-топами, ни с наборами ссылок у других систем.

Для оценки стабильности исследователи использовали показатель APR, Answer Presence Rate. Метрика показывает, в скольких прогонах из десяти источник попал в ответ. В итоговые таблицы включали источники с APR не ниже 20%. При десяти прогонах доверительный интервал для каждой точки составляет примерно ±15-20 процентных пунктов, поэтому авторы предлагают смотреть не на точные проценты, а на общую картину.

Общая картина получилась неудобной для привычного подхода к продвижению. Оптимизация под Google в изученной категории почти не переносится на цитирование в ответах нейросетей. ChatGPT, Gemini и DeepSeek выбирают источники по разным схемам, а поисковая позиция сама по себе не гарантирует попадание в ответ. Для ChatGPT важнее пригодность конкретного фрагмента, для Gemini может играть роль доверие к домену, а DeepSeek чаще использует новостные и пресс-релизные каналы.

Исследование не стоит воспринимать как универсальное правило для всего интернета. Проверка охватила только одну продуктовую категорию, формулировки запросов составляли сами авторы, а десять прогонов дают заметную статистическую погрешность. Веб-клиенты нейросетей постоянно меняются, поэтому найденные поля, адреса и технические детали показывают состояние конкретных сервисов на момент замера.

Полная версия работы опубликована под названием Source Overlap Between Search Engines and AI Recommendations. Там собраны таблицы по четырем запросам, методика и типология источников.

SecurityLab