
Очистили98000«шумных»профилейивнедрилиИИ-поиск,которыйпонимаетинвестиционныезапросы
Заказчик — онлайн-платформа-агрегатор, где представлены инвестиционные проекты, консалтинговые услуги, компании из сфер торговли драгоценными металлами и недвижимости.
Задача — сделать поиск, который понимает сложные профессиональные запросы: от поиска стартапов по технологиям до анализа объектов недвижимости по доходности.
Сложность — стандартный поиск не учитывал контекст и выдавал общие результаты. А данные на платформе оказались «шумными»: анкеты заполнялись вручную, содержали дубли, пропуски и разную структуру. Просто подключить нейросеть было нельзя — она бы галлюцинировала и врала.
Решение — очистили 98 000 профилей автоматическим скрапером, убрали дубли и мусор, внедрили интеллектуальный поиск на базе RAG с векторным хранилищем.
Результат — поиск начал понимать инвестиционные запросы и выдавать точные ответы. Доля отказов снизилась на 24%, конверсия выросла на 18%. Заказчик получил фундамент для масштабирования — от рекомендаций до аналитики рынка.

Почемупростоподключитьнейросетьбылонельзя
Когда мы начали аудит, быстро нашли главную проблему.
Данные на платформе заполнялись вручную представителями компаний-участниц. В результате:
-
анкеты отличались по структуре
-
данные дублировались
-
присутствовали незаполненные поля
-
отсутствовала унификация
Это называется «шумные данные». На таком фундаменте невозможно построить корректно работающий интеллектуальный поиск — любая нейросеть будет выдавать случайные или неточные ответы.
При этом объем базы был огромный:
-
более 120 000 организаций, проектов и профилей экспертов
-
около 105 000 — с действующими сайтами
-
в итоговую обработку взяли 98 000 ресурсов
Заказчик до нас обращался к другим подрядчикам. Те предлагали «просто подключить нейросеть». Мы предложили сначала почистить данные. Иначе ИИ будет галлюцинировать и выдавать недостоверные ответы — а в инвестиционной среде это недопустимо.
Какмыочистилиданныеипостроилиумныйпоиск
Мы не стали переписывать существующую систему. Вместо этого спроектировали и внедрили интеллектуальный поиск на базе RAG (Retrieval-Augmented Generation) — подход, при котором языковая модель ищет ответ не в своей «памяти», а в актуальных данных платформы.
Но перед этим пришлось решить главную задачу — привести данные в порядок.
Шаг 1. Автоматически собрали информацию заново
Мы разработали собственный скрапер, который обошел сайты зарегистрированных компаний и автоматически собрал актуальные данные. Вручную обработать 98 000 ресурсов невозможно — это заняло бы годы.
Шаг 2. Очистили от «мусора»
Сайты компаний содержат много информации, не нужной для поиска: рекламные блоки, технические элементы, меню, футеры, дубли.
Мы выстроили многоуровневый процесс предобработки:
-
удалили лишние пробелы, табы, пустые строки
-
отфильтровали данные по массиву стоп-слов (заголовки меню, названия разделов, технические элементы)
-
убрали строки из одних цифр и символов
-
удалили дубли с помощью TF-IDF и попарного сравнения
В результате сформировали массив унифицированных анкет, пригодных для векторизации.


Шаг 3. Перевели данные в «понятный для ИИ» формат
Каждый подготовленный блок данных преобразовали в векторное представление (эмбеддинг) с помощью YandexGPT PRO и сохранили в векторное хранилище ChromaDB. Это обеспечило высокую скорость поиска по смысловому сходству.
Шаг 4. Настроили поиск и генерацию ответов

Когда пользователь задает запрос, система:
-
обращается к векторному хранилищу
-
извлекает профили компаний, проектов или консультантов, наиболее подходящие по смыслу
-
передает извлеченные данные вместе с запросом в языковую модель
-
формирует итоговый ответ на основе фактической информации
Для управления качеством поиска мы настраивали параметры MMR (Maximal Marginal Relevance) и пороговое значение сходства. Это позволяет учесть и релевантность, и «новизну» информации, избегая дублей в выдаче.
Похожиепроекты


Чтоизменилосьпослевнедрения
Качество поиска. Система начала формировать точные ответы на естественном языке, учитывая контекст и данные об участниках платформы. Без галлюцинаций.
Экономия времени пользователей. Раньше приходилось вручную фильтровать сотни несвязанных страниц. Теперь пользователь получает готовый релевантный ответ сразу.
Рост доверия и вовлеченности. По данным аналитиков платформы:
-
доля отказов (поисковых запросов, после которых пользователи прекращали взаимодействие с сервисом) снизилась на 24%
-
конверсия из поискового запроса в целевые действия (просмотр карточки, добавление в избранное, заявка) выросла на 18%
Усиление позиции платформы. Система корректно обрабатывает инвестиционные запросы — от анализа стартапов и объектов недвижимости до оценки рисков и доходности. Точность выдачи упрощает принятие решений для ключевых групп пользователей.
Возможности масштабирования. Созданная векторная база открыла новые возможности для бизнеса — от интеллектуальных рекомендаций до глубокой аналитики рынка. Внедрение RAG стало не точечной доработкой, а фундаментом для развития экосистемы.


Ноневсёбылогладко
На этапе очистки данных мы столкнулись с тем, что часть сайтов компаний падали, не открывались или выдавали ошибки. Около 7 000 ресурсов пришлось отсеять.
Также мы перебирали параметры MMR, чтобы система не выдавала десять одинаковых ответов. Нашли баланс между релевантностью и новизной.
И первая версия промпта для нормализации анкет работала неидеально — пришлось дорабатывать трижды.
P.S.Длятехническихспециалистов
Если вам интересны детали реализации:
-
очистка данных через TfidfVectorizer с порогом сходства
-
настройка параметров MMR для баланса точности и новизны
-
среднее время обработки одного профиля — около 1 минуты, нагрузка на модель ~3000 токенов
Присылайте техлида — расскажем подробнее.

Итог
Очистили 98 000 «шумных» профилей на инвестиционной платформе и внедрили интеллектуальный поиск на базе RAG, который понимает сложные запросы с профессиональной лексикой — от поиска стартапов по технологиям до анализа объектов недвижимости по доходности.
Отказались от подхода «просто подключить нейросеть» и реализовали собственную архитектуру: автоматический сбор данных с сайтов, многоуровневую очистку от дублей и мусора, векторное хранилище для мгновенного поиска по смыслу без галлюцинаций.
В результате заказчик получил поиск, который снизил долю отказов на 24% и вырос конверсию в целевые действия на 18%, а также фундамент для масштабирования — от интеллектуальных рекомендаций до глубокой аналитики рынка.
Технологии
Кейсы,которымимыгордимся


