+7 (928) 854-24-62
Isometric Icons (https://www.isocons.app/) ©2026 is licensed under CC BY 4.0(https://creativecommons.org/licenses/by/4.0/?ref=chooser-v1)
Заказать консультацию
RAG&LLM
RAG&LLM
Внедрили умный поиск на базе RAG, который начал понимать людей – и вовлеченность сразу выросла на 40%

Очистили98000«шумных»профилейивнедрилиИИ-поиск,которыйпонимаетинвестиционныезапросы

Заказчик — онлайн-платформа-агрегатор, где представлены инвестиционные проекты, консалтинговые услуги, компании из сфер торговли драгоценными металлами и недвижимости.

Задача — сделать поиск, который понимает сложные профессиональные запросы: от поиска стартапов по технологиям до анализа объектов недвижимости по доходности.

Сложность — стандартный поиск не учитывал контекст и выдавал общие результаты. А данные на платформе оказались «шумными»: анкеты заполнялись вручную, содержали дубли, пропуски и разную структуру. Просто подключить нейросеть было нельзя — она бы галлюцинировала и врала.

Решение — очистили 98 000 профилей автоматическим скрапером, убрали дубли и мусор, внедрили интеллектуальный поиск на базе RAG с векторным хранилищем.

Результат — поиск начал понимать инвестиционные запросы и выдавать точные ответы. Доля отказов снизилась на 24%, конверсия выросла на 18%. Заказчик получил фундамент для масштабирования — от рекомендаций до аналитики рынка.

Изображение Очистили 98 000 «шумных» профилей и внедрили ИИ-поиск, который понимает инвестиционные запросы

Почемупростоподключитьнейросетьбылонельзя

Когда мы начали аудит, быстро нашли главную проблему.

Данные на платформе заполнялись вручную представителями компаний-участниц. В результате:

  • анкеты отличались по структуре

  • данные дублировались

  • присутствовали незаполненные поля

  • отсутствовала унификация

Это называется «шумные данные». На таком фундаменте невозможно построить корректно работающий интеллектуальный поиск — любая нейросеть будет выдавать случайные или неточные ответы.

При этом объем базы был огромный:

  • более 120 000 организаций, проектов и профилей экспертов

  • около 105 000 — с действующими сайтами

  • в итоговую обработку взяли 98 000 ресурсов

Заказчик до нас обращался к другим подрядчикам. Те предлагали «просто подключить нейросеть». Мы предложили сначала почистить данные. Иначе ИИ будет галлюцинировать и выдавать недостоверные ответы — а в инвестиционной среде это недопустимо.

Какмыочистилиданныеипостроилиумныйпоиск

Мы не стали переписывать существующую систему. Вместо этого спроектировали и внедрили интеллектуальный поиск на базе RAG (Retrieval-Augmented Generation) — подход, при котором языковая модель ищет ответ не в своей «памяти», а в актуальных данных платформы.

Но перед этим пришлось решить главную задачу — привести данные в порядок.

Шаг 1. Автоматически собрали информацию заново

Мы разработали собственный скрапер, который обошел сайты зарегистрированных компаний и автоматически собрал актуальные данные. Вручную обработать 98 000 ресурсов невозможно — это заняло бы годы.

Шаг 2. Очистили от «мусора»

Сайты компаний содержат много информации, не нужной для поиска: рекламные блоки, технические элементы, меню, футеры, дубли.

Мы выстроили многоуровневый процесс предобработки:

  • удалили лишние пробелы, табы, пустые строки

  • отфильтровали данные по массиву стоп-слов (заголовки меню, названия разделов, технические элементы)

  • убрали строки из одних цифр и символов

  • удалили дубли с помощью TF-IDF и попарного сравнения

В результате сформировали массив унифицированных анкет, пригодных для векторизации.

Изображение Как мы очистили данные и построили умный поиск

Изображение Как мы очистили данные и построили умный поиск

Шаг 3. Перевели данные в «понятный для ИИ» формат

Каждый подготовленный блок данных преобразовали в векторное представление (эмбеддинг) с помощью YandexGPT PRO и сохранили в векторное хранилище ChromaDB. Это обеспечило высокую скорость поиска по смысловому сходству.

Шаг 4. Настроили поиск и генерацию ответов

Изображение Как мы очистили данные и построили умный поиск

Когда пользователь задает запрос, система:

  1. обращается к векторному хранилищу

  2. извлекает профили компаний, проектов или консультантов, наиболее подходящие по смыслу

  3. передает извлеченные данные вместе с запросом в языковую модель

  4. формирует итоговый ответ на основе фактической информации

Для управления качеством поиска мы настраивали параметры MMR (Maximal Marginal Relevance) и пороговое значение сходства. Это позволяет учесть и релевантность, и «новизну» информации, избегая дублей в выдаче.

Похожиепроекты

Proxy API
Разработали Proxy API для билетного ядра, сняли зависимость от Java и ускорили запуск новых продуктов
Proxy API
#python
#fastapi
#gRPC
Giveaway App
Разработка финтех приложения для Нигерии: как мы за несколько лет создали экосистему, вывели её на международную выставку и получили 2 награды
Giveaway App
#python
#agile
#django
Столкнулисьсаналогичнойпроблемой?
Поможем решить.

Чтоизменилосьпослевнедрения

Качество поиска. Система начала формировать точные ответы на естественном языке, учитывая контекст и данные об участниках платформы. Без галлюцинаций.

Экономия времени пользователей. Раньше приходилось вручную фильтровать сотни несвязанных страниц. Теперь пользователь получает готовый релевантный ответ сразу.

Рост доверия и вовлеченности. По данным аналитиков платформы:

  • доля отказов (поисковых запросов, после которых пользователи прекращали взаимодействие с сервисом) снизилась на 24%

  • конверсия из поискового запроса в целевые действия (просмотр карточки, добавление в избранное, заявка) выросла на 18%

Усиление позиции платформы. Система корректно обрабатывает инвестиционные запросы — от анализа стартапов и объектов недвижимости до оценки рисков и доходности. Точность выдачи упрощает принятие решений для ключевых групп пользователей.

Возможности масштабирования. Созданная векторная база открыла новые возможности для бизнеса — от интеллектуальных рекомендаций до глубокой аналитики рынка. Внедрение RAG стало не точечной доработкой, а фундаментом для развития экосистемы.

Изображение Что изменилось после внедрения
Изображение Что изменилось после внедрения

Ноневсёбылогладко

На этапе очистки данных мы столкнулись с тем, что часть сайтов компаний падали, не открывались или выдавали ошибки. Около 7 000 ресурсов пришлось отсеять.

Также мы перебирали параметры MMR, чтобы система не выдавала десять одинаковых ответов. Нашли баланс между релевантностью и новизной.

И первая версия промпта для нормализации анкет работала неидеально — пришлось дорабатывать трижды.

P.S.Длятехническихспециалистов

Если вам интересны детали реализации:

  • очистка данных через TfidfVectorizer с порогом сходства

  • настройка параметров MMR для баланса точности и новизны

  • среднее время обработки одного профиля — около 1 минуты, нагрузка на модель ~3000 токенов

Присылайте техлида — расскажем подробнее.

Изображение P.S. Для технических специалистов

Итог

Очистили 98 000 «шумных» профилей на инвестиционной платформе и внедрили интеллектуальный поиск на базе RAG, который понимает сложные запросы с профессиональной лексикой — от поиска стартапов по технологиям до анализа объектов недвижимости по доходности.

Отказались от подхода «просто подключить нейросеть» и реализовали собственную архитектуру: автоматический сбор данных с сайтов, многоуровневую очистку от дублей и мусора, векторное хранилище для мгновенного поиска по смыслу без галлюцинаций.

В результате заказчик получил поиск, который снизил долю отказов на 24% и вырос конверсию в целевые действия на 18%, а также фундамент для масштабирования — от интеллектуальных рекомендаций до глубокой аналитики рынка.

Технологии

Isometric Icons (https://www.isocons.app/) ©2026 is licensed under CC BY 4.0(https://creativecommons.org/licenses/by/4.0/?ref=chooser-v1)
Фронтенд-разработка
React
Apache Kafka
Isometric Icons (https://www.isocons.app/) ©2026 is licensed under CC BY 4.0(https://creativecommons.org/licenses/by/4.0/?ref=chooser-v1)
Бэкенд-разработка
Python
FastAPI
LangСhain
ChromaDB
Isometric Icons (https://www.isocons.app/) ©2026 is licensed under CC BY 4.0(https://creativecommons.org/licenses/by/4.0/?ref=chooser-v1)
Интеграции и фреймворки
Agile

Кейсы,которымимыгордимся

Жар-птица
Объединили 1С, сайт и мобильное приложение — это сократило время обработки заказов на 40% и увеличило повторные покупки на 30%.
Жар-птица
#мобильнаяразработка
#вебразработка
#python
VELO
Нестандартная задача: разработать IT-сервис для онлайн-торговли в условиях Африки. Как мы это сделали
VELO
#python
#flutter
#кроссплатформеннаяразработка
Интэк. Резервы - 781-п
Внедрили автоматизацию по 781-П, которая сократила время расчётов на 60% и устранила ошибки ручного ввода.
Интэк. Резервы - 781-п
#django
#reactjs
#автоматизацияпроцессов
Смотреть все кейсы

Оставитьзаявку

Телефон
Telegram
Max
Почта
Другое
менее 1 млн. ₽
1 млн. - 5 млн. ₽
5 млн - 10 млн. ₽
более 10 млн. ₽
Файл не выбран
Допустимые форматы: jpg, jpeg, png, webp, heif, docx, pdf, txt.
Объем загружаемого файла не должен превышать 5 Мб
Напишите на email
hello@itfox-web.com
Позвоните по номеру
+7 (928) 854-24-62
или расскажите о проекте оставив заявку
Isometric Icons (https://www.isocons.app/) ©2026 is licensed under CC BY 4.0(https://creativecommons.org/licenses/by/4.0/?ref=chooser-v1)
Поможем, даже если у вас нет технического задания
Isometric Icons (https://www.isocons.app/) ©2026 is licensed under CC BY 4.0(https://creativecommons.org/licenses/by/4.0/?ref=chooser-v1)
Определим стоимость разработки
Isometric Icons (https://www.isocons.app/) ©2026 is licensed under CC BY 4.0(https://creativecommons.org/licenses/by/4.0/?ref=chooser-v1)
Предложим способы снижения затрат на проект без потери качества
Isometric Icons (https://www.isocons.app/) ©2026 is licensed under CC BY 4.0(https://creativecommons.org/licenses/by/4.0/?ref=chooser-v1)
Дадим рекомендации по повышению эффективности вашего проекта