RAG&LLM

Внедрили умный поиск на базе RAG, который начал понимать людей – и вовлеченность сразу выросла на 40%

№

Комплексные разработчики / Отдых, досуг, хобби: Цифровые сервисы / платформы

№

Разработка и интеграция CRM. Сфера «Финансы, инвестиции, страхование»

Содержание

Сфера

Технологии

Очистили98000«шумных»профилейивнедрилиИИ-поиск,которыйпонимаетинвестиционныезапросы

Заказчик — онлайн-платформа-агрегатор, где представлены инвестиционные проекты, консалтинговые услуги, компании из сфер торговли драгоценными металлами и недвижимости.

Задача — сделать поиск, который понимает сложные профессиональные запросы: от поиска стартапов по технологиям до анализа объектов недвижимости по доходности.

Сложность — стандартный поиск не учитывал контекст и выдавал общие результаты. А данные на платформе оказались «шумными»: анкеты заполнялись вручную, содержали дубли, пропуски и разную структуру. Просто подключить нейросеть было нельзя — она бы галлюцинировала и врала.

Решение — очистили 98 000 профилей автоматическим скрапером, убрали дубли и мусор, внедрили интеллектуальный поиск на базе RAG с векторным хранилищем.

Результат — поиск начал понимать инвестиционные запросы и выдавать точные ответы. Доля отказов снизилась на 24%, конверсия выросла на 18%. Заказчик получил фундамент для масштабирования — от рекомендаций до аналитики рынка.

Изображение Очистили 98 000 «шумных» профилей и внедрили ИИ-поиск, который понимает инвестиционные запросы

Почемупростоподключитьнейросетьбылонельзя

Когда мы начали аудит, быстро нашли главную проблему.

Данные на платформе заполнялись вручную представителями компаний-участниц. В результате:

анкеты отличались по структуре
данные дублировались
присутствовали незаполненные поля
отсутствовала унификация

Это называется «шумные данные». На таком фундаменте невозможно построить корректно работающий интеллектуальный поиск — любая нейросеть будет выдавать случайные или неточные ответы.

При этом объем базы был огромный:

более 120 000 организаций, проектов и профилей экспертов
около 105 000 — с действующими сайтами
в итоговую обработку взяли 98 000 ресурсов

Заказчик до нас обращался к другим подрядчикам. Те предлагали «просто подключить нейросеть». Мы предложили сначала почистить данные. Иначе ИИ будет галлюцинировать и выдавать недостоверные ответы — а в инвестиционной среде это недопустимо.

Какмыочистилиданныеипостроилиумныйпоиск

Мы не стали переписывать существующую систему. Вместо этого спроектировали и внедрили интеллектуальный поиск на базе RAG (Retrieval-Augmented Generation) — подход, при котором языковая модель ищет ответ не в своей «памяти», а в актуальных данных платформы.

Но перед этим пришлось решить главную задачу — привести данные в порядок.

Шаг 1. Автоматически собрали информацию заново

Мы разработали собственный скрапер, который обошел сайты зарегистрированных компаний и автоматически собрал актуальные данные. Вручную обработать 98 000 ресурсов невозможно — это заняло бы годы.

Шаг 2. Очистили от «мусора»

Сайты компаний содержат много информации, не нужной для поиска: рекламные блоки, технические элементы, меню, футеры, дубли.

Мы выстроили многоуровневый процесс предобработки:

удалили лишние пробелы, табы, пустые строки
отфильтровали данные по массиву стоп-слов (заголовки меню, названия разделов, технические элементы)
убрали строки из одних цифр и символов
удалили дубли с помощью TF-IDF и попарного сравнения

В результате сформировали массив унифицированных анкет, пригодных для векторизации.

Изображение Как мы очистили данные и построили умный поиск

Шаг 3. Перевели данные в «понятный для ИИ» формат

Каждый подготовленный блок данных преобразовали в векторное представление (эмбеддинг) с помощью YandexGPT PRO и сохранили в векторное хранилище ChromaDB. Это обеспечило высокую скорость поиска по смысловому сходству.

Шаг 4. Настроили поиск и генерацию ответов

Когда пользователь задает запрос, система:

обращается к векторному хранилищу
извлекает профили компаний, проектов или консультантов, наиболее подходящие по смыслу
передает извлеченные данные вместе с запросом в языковую модель
формирует итоговый ответ на основе фактической информации

Для управления качеством поиска мы настраивали параметры MMR (Maximal Marginal Relevance) и пороговое значение сходства. Это позволяет учесть и релевантность, и «новизну» информации, избегая дублей в выдаче.

Поискнепонимаетфинансовыезапросы?

Внедрим финтех разработку с ИИ и очисткой данных.

Чтоизменилосьпослевнедрения

Качество поиска. Система начала формировать точные ответы на естественном языке, учитывая контекст и данные об участниках платформы. Без галлюцинаций.

Экономия времени пользователей. Раньше приходилось вручную фильтровать сотни несвязанных страниц. Теперь пользователь получает готовый релевантный ответ сразу.

Рост доверия и вовлеченности. По данным аналитиков платформы:

доля отказов (поисковых запросов, после которых пользователи прекращали взаимодействие с сервисом) снизилась на 24%
конверсия из поискового запроса в целевые действия (просмотр карточки, добавление в избранное, заявка) выросла на 18%

Усиление позиции платформы. Система корректно обрабатывает инвестиционные запросы — от анализа стартапов и объектов недвижимости до оценки рисков и доходности. Точность выдачи упрощает принятие решений для ключевых групп пользователей.

Возможности масштабирования. Созданная векторная база открыла новые возможности для бизнеса — от интеллектуальных рекомендаций до глубокой аналитики рынка. Внедрение RAG стало не точечной доработкой, а фундаментом для развития экосистемы.

Изображение Что изменилось после внедрения

Ноневсёбылогладко

На этапе очистки данных мы столкнулись с тем, что часть сайтов компаний падали, не открывались или выдавали ошибки. Около 7 000 ресурсов пришлось отсеять.

Также мы перебирали параметры MMR, чтобы система не выдавала десять одинаковых ответов. Нашли баланс между релевантностью и новизной.

И первая версия промпта для нормализации анкет работала неидеально — пришлось дорабатывать трижды.

Алексей Алимов

ИИ после своего громкого появления постепенно становится привычным рабочим инструментом. Однако, он поменял многое из того, что раньше казалось незыблемым. Внедрение интеллектуального поиска позволяет задавать запросы не ограничиваясь простым названием компании или ее ИНН. Когда данные собраны из разных источников и объединены с помощью RAG, это открывает для бизнеса новые возможности.

P.S.Длятехническихспециалистов

Если вам интересны детали реализации:

очистка данных через TfidfVectorizer с порогом сходства
настройка параметров MMR для баланса точности и новизны
среднее время обработки одного профиля — около 1 минуты, нагрузка на модель ~3000 токенов

Присылайте техлида — расскажем подробнее.

Изображение P.S. Для технических специалистов

Итог

Очистили 98 000 «шумных» профилей на инвестиционной платформе и внедрили интеллектуальный поиск на базе RAG, который понимает сложные запросы с профессиональной лексикой — от поиска стартапов по технологиям до анализа объектов недвижимости по доходности.

Отказались от подхода «просто подключить нейросеть» и реализовали собственную архитектуру: автоматический сбор данных с сайтов, многоуровневую очистку от дублей и мусора, векторное хранилище для мгновенного поиска по смыслу без галлюцинаций.

В результате заказчик получил поиск, который снизил долю отказов на 24% и вырос конверсию в целевые действия на 18%, а также фундамент для масштабирования — от интеллектуальных рекомендаций до глубокой аналитики рынка.