Корректор

Создали ИИ-инструмент для автоматического аудита сайтов: проверка англицизмов, орфографии и качества контента

№

Разработка решений на базе ИИ - Питание

№

Разработка мобильных приложений - Разное

Содержание

Сфера

#стартапы

Технологии

#python

#ии

#автоматизацияпроцессов

Автоматическая проверка сайта: как мы искали англицизмы, а нашли причину потери трафика — и починили за день.

Заказчик — мы сами. IT-компания из Сочи с сайтом на сто с лишним страниц. Вышел закон об иностранных словах, и встал вопрос: как всё это вычитать и не пропустить ни одной ошибки.

Задача — собрать инструмент, который сам обходит сайт, находит англицизмы, проверяет орфографию, грамматику и выдаёт готовый отчёт. Без подрядчиков, без платных лицензий, без лишних затрат.

Похожий подход мы использовали в проекте по автоматизации обработки документов, где ИИ помог сократить объём ручной работы сотрудников и ускорить обработку данных в несколько раз

Проблема — первый запуск показал 30 страниц из 103. Мы полезли разбираться и выяснили: часть страниц открывалась только по клику. Для пользователя — ничего не случилось, для поисковика — стена, контент просто не индексировался. Для бизнеса это означало прямую потерю видимости в поиске и потенциальных клиентов с контента, который создавался годами. Так задача про англицизмы превратилась в спасение видимости сайта.

Подход — за день собрали прототип на Питоне и ЛэнгвичТул. Код генерировали с помощью ИИ. Всё делал один тестировщик: подбирал инструменты, описывал логику нейросети, отлаживал результат, при этом основную команду не дёргали.

Решение — скрипт берёт карту сайта, собирает текст и прогоняет через ЛэнгвичТул. Тот находит ошибки и англицизмы, учитывая контекст. Добавили белый список исключений и фильтры для вёрстки. На выходе — понятный отчёт с аналитикой по страницам.

С чего всё началось: простая просьба и неожиданный поворот

Сначала всё выглядело просто, как это часто бывает. Пришел отдел маркетинга с запросом: «Ребята, новый закон, проверьте сайт на англицизмы». Без орфографии, без грамматики — только найти иностранные слова и отдать список. Разовая задача.

Тестировщики выгрузили текст, прогнали через несколько бесплатных сервисов и быстро собрали перечень заимствований. Отправили нам и, казалось бы, закрыли вопрос.

Но мы почти сразу вернулись: теперь требовалась не разовая проверка, а постоянная система. Чтобы она искала не только англицизмы, но и проверяла орфографию, грамматику, пробелы, знаки препинания. И работала сама по расписанию — без напоминаний и ручного запуска.

За задачу взялся один из тестировщиков, решили собрать собственный сценарий, чтобы не зависеть от платных сервисов, их ограничений по объёму и не платить за каждую проверку.

Неожиданное открытие: почему сценарий не видел полсайта

Когда мы запустили сценарий проверки, он работал подозрительно долго, а потом выдал всего 30 страниц. На сайте у нас их около сотни — если считать все ссылки, все истории, все описания услуг, получается примерно 100–103 страницы.

Сценарий имитирует робота, который обходит сайт и ищет ссылки на страницы. Мы попробовали дать ему ссылки напрямую — он их не видел, потом попробовали иначе — снова мимо и пошли с проблемой к команде фронтенда.

Выяснилось то, о чём никто не подозревал:

После того, как мы решили масштабно обновить сайт (читайте подробнее в этом кейсе) часть страниц оказалась доступна только по клику в браузерном скрипте, а не по прямой ссылке. Где-то на этапе выкатки не довернули до конца, и страницы выпали из видимости для роботов. Для обычного посетителя всё работало нормально: зашёл, кликнул по меню, увидел контент, но поисковик кликать не умеет — он идёт по ссылкам. А раз прямой ссылки нет, то и страницы для него не существует.

Горы контента — статьи, описание услуг, кейсы — просто не индексировались. Мы теряли органический трафик и потенциальных клиентов, даже не подозревая об этом.

Скрипт помог поймать этот баг. Фронтендеры поправили логику отображения за час и выкатили обновление. Мы перезапустили сценарий — и он впервые увидел все 103 страницы, так проверка на англицизмы заодно вернула сайту потерянную индексацию.

Надежда, руководитель отдела тестирования

Тридцать страниц вместо ста трёх. Сначала грешила на код. Оказалось — проблема глубже: полсайта открывалось только по клику и было невидимо для любых роботов. Свежий контент, который поисковики просто не замечали с самого запуска. А мы узнали об этом случайно — когда взялись проверять сайт на англицизмы. Исправили за час. Скрипт увидел всё. Мы просто хотели штрафов избежать, а вернули сайт в интернет.

Создание кода с помощью ИИ: быстро, но с особенностями

Сценарий писали с помощью ИИ. Тестировщик описывал логику: как должен работать обход, как выглядеть отчёт, какие исключения нужны, нейросеть выдавала код, который сразу проверялся на реальных данных. Прототип собрали за день.

Но есть нюанс: Нейросеть не прибирает за собой, она дописывает новое поверх старого, не удаляя лишнее. Кодовая база быстро разбухает и без профильного опыта легко пропустить неоптимальные решения.

Мы прошли через несколько итераций: Сначала отчёт был просто списком ошибок — переделали в страницу с аналитикой по словам и страницам, потом донастроили интервалы и пробелы, потом добавили белый список. Каждый круг делал отчёт удобнее и точнее.

Вывод: для быстрого прототипа и проверки гипотезы ИИ-генерация кода — отличный инструмент. За часы можно собрать работающую версию и показать пользователям, но для стабильного корпоративного решения сгенерированный код должен пройти профессиональную проверку и вписаться в архитектуру. Человека из процесса исключать рано.

Нужна ии проверка сайта, чтобы не платить штрафы и не вычитывать страницы вручную?

Соберём инструмент за 1 день — от гипотезы до работающего отчёта

Как устроен конвейер автоматической проверки сайта

Этап 1. Обход и сбор данных

Сценарий берёт карту сайта — файл со всеми адресами страниц — и методично обходит каждый, вытягивает заголовки, подзаголовки, основной текст, подписи. На выходе — массив данных с привязкой к адресам страниц.

В обработку попадает всё: русские и английские страницы, старые статьи, свежие публикации. Человек может забыть страницу или потерять концентрацию на сотой вкладке, а вот сценарий — нет.

Кстати, сначала мы обходились без карты сайта. Первая версия просто бродила по страницам — было дольше и менее надёжно, а когда перешли на карту — стало быстрее и стабильнее.

Этап 2. Смысловой анализ

Собранный текст отправляется в систему лингвистического анализа и это не базовая проверка орфографии с красным подчёркиванием, как во Ворде. Система понимает контекст и может сказать: «Вот эту фразу стоит переформулировать, она звучит неестественно». Работает на русском, английском и десятках других языков — для нас это было важно, потому что часть материалов писалась для зарубежного рынка.

С ходу ничего не заработало идеально. В процессе доводки решили несколько системных задач:

1. Настроили правила для заголовков Первая версия ругалась на заголовки без точек в конце — а у нас это стандарт вёрстки. Добавили правило-исключение: заголовок — точка не нужна. Ошибки ушли.

2. Переделали структуру отчёта Сначала слова выдавались списком, без привязки к страницам. Переделали: теперь видно, какое слово на какой странице, сколько всего уникальных заимствований, какие ошибки повторяются чаще всего. Открыл — увидел — принял решение.

3. Внедрили белый список разрешённых слов Есть заимствования, у которых нет аналога в русском — их можно использовать. Внесли их в сценарий, теперь они просто пропускаются. Появится новый список — добавим за минуту.

Вся логика построена на гибких инструментах с открытым кодом. Никаких платных лицензий, никаких внешних подрядчиков.

Если хотите глубже разобраться в теме, почитайте наш материал о том, как ИИ помогает бизнесу автоматизировать рутину и контролировать качество данных.

Этап 3. Человеческая проверка

Стопроцентной точности мы не обещаем — это технически невозможно. Система может что-то пропустить или, наоборот, отметить правильное слово как ошибку. Поэтому в конвейере есть последний шаг — человек.

Редактор открывает отчёт и просматривает находки. Здесь правда ошибка — исправляет. Здесь ложное срабатывание — пропускает. А вот это слово разрешено — вносит в белый список, чтобы больше не мелькало. Пара кликов — и сайт чист.

Разница с ручной вычиткой огромная. Раньше нужно было открыть каждую из 103 страниц и прочитать целиком. Уже на десятой глаз замылен — ошибка уходит в публикацию. Теперь редактор получает готовый список и принимает решения точечно. Семь находок вместо ста трёх страниц. Минуты вместо дней.

Этап 4. Регулярность и отчётность

Сценарий отрабатывает за 10 минут — в отчёте видно: сколько страниц проверено, какие ошибки найдены, на каких страницах, что предлагается исправить.

Сейчас закладываем автоматический запуск прямо на сервере: раз в месяц задача будет сама обходить сайт, проверять всё и присылать готовый отчёт на почту. Никаких напоминаний, никакого ручного запуска, никаких забытых проверок. Система просто работает в фоне.

Что получилось

Команда маркетологов, которая внутренне готовилась к неделям вычитки, получила отчёт за 10 минут. Ожидали, что машина отловит процентов 70 ошибок — уже это сэкономило бы время, по факту точность оказалась выше.

Попутно вернули в поисковую выдачу десятки страниц с кейсами, описанием услуг и экспертизой. Тот контент, который приводит нам клиентов, снова начал работать. Теперь редактор не вычитывает 103 страницы вручную, а получает готовый отчёт и точечно правит найденное.

О чём этот кейс на самом деле

Мы рассказали историю про проверку текстов. Но на самом деле — про другое.

Это кейс о том, как неочевидная задача открывает системную проблему, которая годами влияет на бизнес и продвижение.

Мы пришли с одним запросом — и нашли то, что теряло нам трафик и потенциальных клиентов, починили за один день. И теперь у нас есть инструмент, который не даст этому повториться.

Перспективы: от контроля англицизмов до управления брендом

Механика не привязана к заимствованиям или конкретному рынку. Та же связка «обход сайта + лингвистический анализ + отчёт» работает для наблюдения за терминологией бренда, требованиями поисковиков, обновлением контента после смены названия компании. Система поддерживает десятки языков — инструмент можно приспособить под законы любой страны, где требуется контроль публичных материалов.

Масштабирование на другие задачи — вопрос адаптации словарей и правил проверки. Заменили список запрещённых слов на список терминов бренда — получили инструмент для контроля качества контента в фирменном стиле. Добавили правила проверки метатегов — получили мониторинг поисковой оптимизации. Механика одна и та же, а применение может быть разным.

Ищете не просто подрядчика, а команду, которая видит глубже очевидного?

Вот как мы работаем, когда задача оказывается шире, чем казалось на старте:

Видим систему, а не разовый запрос. Пришли за списком англицизмов — получили инструмент, который проверяет сайт по расписанию и находит баги, скрытые годами.
Сначала прототип. Быстрая проверка гипотезы, обратная связь, и только потом масштабирование. Вы видите результат до того, как потратите серьёзный бюджет.
Используем ИИ с умом. Генерация кода ускоряет запуск прототипа в разы. Для промышленного решения — профессиональный ревью и встраивание в архитектуру.
Работаем с разными задачами. Механика «обход сайта + лингвистический анализ + отчёт» масштабируется на контроль терминологии бренда, SEO-мониторинг, вычитку публичных материалов на десятках языков.

Вам нужен инструмент, который сам следит за чистотой контента, экономит дни ручной работы и находит то, о чём вы даже не подозревали? Оставляйте заявку — обсудим вашу задачу.

Технологии

Python

API

sitemap XML

Часто задаваемые вопросы

/ 1

Почему сайт есть в поиске, но страницы не индексируются?

Потому что поисковик может видеть главную и несколько разделов, но не добираться до глубины. Частая причина — страницы открываются только через JavaScript-клик, а не по прямой ссылке. Робот не кликает — он идёт по HTML-ссылкам. Если ссылки нет, страница для него не существует. Это называется «неиндексируемый контент» или «JavaScript-рендеринг».

/ 2

Как проверить, все ли страницы моего сайта в индексе?

Самый быстрый способ — запрос site:домен.ru в Яндексе или Google. Сравните количество страниц в выдаче с тем, сколько у вас страниц реально. Если расхождение больше 10-15% — проблема. Точную диагностику дают Яндекс.Вебмастер и Google Search Console: раздел «Покрытие» или «Индексация» покажет, какие URL исключены и почему.

/ 3

Сколько времени уходит на ручную проверку текста на сайте, если страниц много?

На 100 страниц средней длины — от 3 до 5 рабочих дней, если читать целиком. Но главная проблема не во времени, а в качестве: после 20-30 страниц концентрация падает, ошибки начинают пропускать. Автоматика закрывает этот вопрос: 10 минут на обход и отчёт, редактор только точечно правит.

/ 4

Бесплатные инструменты — это надёжно? Не придётся потом покупать платную версию?

Те инструменты, которые мы использовали, имеют открытый код и не ограничивают функциональность на бесплатных тарифах. Это не триал-версии с ограничением по времени или объёму. Мы не зависим от вендора: если инструмент перестаёт устраивать — заменяем на другой без переписывания всей логики.