Яндекс существенно снизил себестоимость генеративных ответов в Поиске благодаря внедрению семейства облегчённых языковых моделей Alice AI Search. Вместе с оптимизацией инфраструктуры высоконагруженного сервиса и использованием больших языковых моделей для разметки данных за год это принесло 4,5 млрд рублей экономии. Удешевление генеративных ответов позволило показывать их пользователям Поиска в 1,5 раза чаще одновременно с улучшением их качества.
Семейство облегчённых языковых моделей Alice AI Search отвечает за генерацию быстрых ответов Алисы AI в Поиске. Новые модели обрабатывают больше запросов на тех же мощностях и используют специализированную архитектуру Encoder Decoder MoE, адаптированную Яндексом специально под задачи высоконагруженного поиска. Инженеры компании объединили методы, которые ранее применялись вместе только в научных исследованиях. Новая архитектура и ряд других оптимизаций позволили в три раза уменьшить себестоимость ИИ-ответов. В итоге покрытие ИИ-ответами в Поиске (доля запросов, на которые Поиск сразу даёт генеративный ответ) выросло за год в 1,5 раза, а качество ответов значимо улучшилось.
Другим фактором экономии стала оптимизация инфраструктуры Поиска: улучшение балансировки нагрузки на инфраструктуру, более эффективное использование серверов и применение технологии Яндекса с открытым исходным кодом Perforator. Она помогает инженерам находить узкие места в сервисах и автоматически ускорять их на основе реальной нагрузки. Это позволило высвободить вычислительные мощности, эквивалентные 1000 серверов.
Яндекс также внедрил ИИ-технологии в процесс разметки. Для подготовки разметки нужны тысячи специалистов высокой квалификации — врачей, юристов, экономистов и так далее. Чтобы масштабировать их знания, Яндекс стал использовать для разметки большие языковые модели: эксперты готовят эталонные примеры разметки, а языковые модели учатся размечать данные по их образцам. Применяемые в продуктах модели используют разметки, созданные как людьми, так и моделями.


