
Какмызаденьсобралиинструментдляиипроверкисайта,уменьшиличеловеческийфакторислучайнонашлиошибку,скрывавшуюполсайтаотпоисковиков
Заказчик — мы сами, ИТ-компания из Сочи, развивающая корпоративный сайт с материалами на русском и английском. С 1 марта 2026 года в России вступил в силу закон об ограничении иностранных слов. На сайте больше сотни страниц. Ручная вычитка такого объёма — гарантированно пропущенная ошибка, потому что на сотой странице глаз уже не тот. Нам нужно было уменьшение человеческого фактора там, где оно критически влияет на риски для бизнеса.
Задача — быстро, без внешних подрядчиков и платных лицензий сделать инструмент для ии проверки сайта. Не разовую акцию, а систему, которая будет работать как часы: регулярно обходить сайт, выискивать запрещённые слова, орфографию и грамматику, и присылать готовый отчёт.
Проблема — на старте мы упёрлись в стену, которой не ждали. Сценарий на Пайтоне возвращал 30 страниц из 103. Когда стали копать, выяснилось: половина страниц открывалась только по клику в браузерном сценарии, а не по прямой ссылке. Материалы, которые мы годами писали, включая истории для зарубежных клиентов, просто не существовали для поисковиков. Из рядовой проверки орфографии задача превратилась в спасение видимости сайта.
С чего мы начали — решили строить не готовый продукт, а прототип на Пайтоне с открытым интерфейсом ЛэнгвичТул и созданием кода с помощью ИИ. Задача была проверить предположение: можно ли за день собрать конвейер, который реально снимет головную боль. Никаких требований к внешнему виду и масштабируемости — только точность и читаемый отчёт.
Организационный момент — весь проект вёл один тестировщик из сочинского офиса. Он и искал инструменты, и писал запросы к нейросети, и отлаживал сценарий. Благодаря автоматизации ии разработки мы не подключали серверную команду на этапе прототипа: создание кода закрыло рутинную часть, а специалист сфокусировался на логике и проверке результатов.
Решение — конвейер из трёх этапов плюс финальная автоматизация. Сценарий берёт карту сайта, собирает текст со всех страниц и отправляет в ЛэнгвичТул. Там нейросеть и лингвистическая база выискивают заимствования, ошибки, опечатки и странные конструкции с пониманием смысла. На выходе — структурированный отчёт: какие слова нашлись, на каких страницах, что предлагается исправить.
Результат — 103 страницы за 10 минут. Наша команда авторов выдохнула. Мы ожидали, что машина отловит процентов 70 ошибок — по факту точность и полнота оказались выше. Попутно нашли и исправили баг, скрывавший полсайта от поисковиков. Весь проект реализован на бесплатных инструментах, без внешних подрядчиков.
Как устроен процесс и почему без человека пока никуда:
Счеговсёначалось:мёртваязонанаживомсайте
Изначально всё выглядело гораздо проще. Мы пришли к тестировщикам с запросом: проверить сайт на заимствования в связи с новым законом. Никакой орфографии, никакой грамматики — только найти иностранные слова, которых быть не должно. Это подавалось как разовая акция: один раз проверили, отдали список — и всё.
Тестировщики выгрузили с сайта весь текст и прогнали его через сервисы, которые определяют иностранные слова. Таких сервисов в интернете много, и с задачей они справляются. Довольно быстро собрали перечень заимствований, отправили нам — и на этом, казалось бы, всё.
Но почти сразу мы вернулись с новыми вводными. Теперь нужно было проверять не только заимствования, но и орфографию, грамматику, пробелы, интервалы, знаки препинания. А главное — это должна была быть не разовая акция, а постоянная проверка. Чтобы не мы дёргали тестировщиков каждый раз, а система работала сама по расписанию.
Вот тут и началась настоящая работа. Тестировщик сел за ресёрч: нужно было найти инструмент, который умеет всё это делать, и написать сценарий для автоматизации. Он выбрал ЛэнгвичТул — открытый сервис, который проверяет текст на орфографию, грамматику и стилистику, — и написал сценарий на Пайтоне.
Когда мы впервые запустили этот сценарий, он работал подозрительно долго, а потом выдал всего 30 страниц при проверке. На сайте у нас их около сотни — если считать все ссылки, все истории, все описания услуг, получается примерно 100–103 страницы. А тут тридцать. Мы начали разбираться.

Сценарий имитирует работу робота, который обходит сайт и ищет ссылки на страницы. Мы попробовали дать ему ссылки напрямую — он их не видел. Попробовали иначе — снова мимо. Пошли с проблемой к команде внешнего вида сайта. И вот тут выяснилось то, о чём никто не подозревал.
Часть страниц сайта открывалась не по прямой ссылке, а исключительно по клику в браузерном сценарии. Пока пользователь не кликнет на кнопку — страницы не существует. Это стандартное поведение для обычного посетителя: он приходит на сайт, кликает по меню и видит контент. Но для робота — поискового или нашего собственного — это мёртвая зона. Робот не может кликнуть на кнопку, он переходит по ссылкам. А раз ссылки нет, то и страницы для него нет.
Мы жили с этим годами. Материалы, которые мы писали для зарубежных заказчиков, статьи, истории — всё это не индексировалось поисковиками. Контент просто не существовал для внешнего мира. Ии проверка сайта вскрыла архитектурную проблему, о которой никто не подозревал. Мы отправили задачу команде внешнего вида сайта, они исправили логику отображения и выкатили обновление. После этого мы снова запустили сценарий — и он впервые увидел все 103 страницы.

Какустроенконвейериипроверкисайта
Этап 1. Обход и сбор данных

Сценарий работает просто: он берёт карту сайта — файл, в котором перечислены все адреса страниц, — и методично обходит каждый адрес. Вытягивает весь текст, который есть на странице: заголовки, подзаголовки, основной текст, подписи. На выходе получается массив данных, привязанный к адресам страниц.
В обработку попадает всё: русскоязычные страницы для клиентов из России, страницы на английском для зарубежной аудитории, старые статьи, новые публикации. Этот этап полностью исключает человеческий фактор при сборе данных. Человек может забыть страницу, пропустить абзац, потерять концентрацию на сотой вкладке. Сценарий — нет.
Изначально мы даже не использовали карту сайта. Первая версия просто проходилась по страницам, и это было дольше и менее надёжно. Потом перешли на карту сайта — и всё стало работать стабильнее и быстрее.
Этап 2. Смысловой анализ

Собранный текст отправляется в ЛэнгвичТул. Это не простой проверятель орфографии, который подчёркивает слова красным. ЛэнгвичТул — смесь нейросетевого агента и лингвистической базы, собранной профессиональными лингвистами. Он анализирует построение предложения, понимает контекст и может сказать: «Вот эту фразу стоит переформулировать, она звучит неестественно».
Сервис работает на русском, английском и десятках других языков. Для нас это было критично: часть материалов изначально писалась для зарубежного рынка. Например, у нас есть история про проект для африканского заказчика — она вся на английском, и её тоже нужно было проверить на соответствие закону. ЛэнгвичТул справился.
Но с ходу ничего не заработало идеально. Мы запустили первую версию и увидели, что сервис ругается на заголовки без точек в конце. У нас на сайте заголовки статей и подзаголовки идут без точек — это стандарт вёрстки. А ЛэнгвичТул считал это ошибкой и выдавал: «У вас здесь не хватает точки, это неправильно». Мы добавили правило-исключение: если текст является заголовком, точка не нужна. Настроили — ошибки ушли.
Дальше — больше. Первая версия отчёта была неудобной. Слова выдавались списком, без привязки к страницам, без аналитики. Мы попросили доработать: сделали отдельную страницу с аналитикой, где видно, какое слово на какой странице встречается, сколько всего уникальных заимствований найдено, какие ошибки повторяются чаще всего. Всё для того, чтобы человеку не нужно было разбираться в сырых данных. Открыл — увидел — принял решение.
Ещё один важный момент: белый список разрешённых слов. Есть заимствования, которые использовать можно — у них нет устоявшегося аналога в русском языке. Мы собрали такой список и внесли его в сценарий. Теперь эти слова просто пропускаются и не попадают в отчёт как ошибки. Если завтра появится новый список разрешённых слов — мы просто добавим его, и система перестанет на них ругаться.
Управление всей логикой — на Пайтоне. Модели для анализа — открытый интерфейс ЛэнгвичТул. Никаких платных лицензий, никаких внешних подрядчиков. Всё работает на бесплатных инструментах.
Этап 3. Человеческая проверка

Мы не обещаем стопроцентной точности — это технологически невозможно. Ни один сервис в мире её не даёт. Система не идеальна, она иногда ошибается: может пропустить ошибку, может, наоборот, отметить правильное слово как неправильное. Поэтому в нашем конвейере есть страховочный пояс — человек.
Человек открывает готовый отчёт и просматривает находки. Вот тут действительно ошибка — надо исправить. Вот тут ложное срабатывание — пропускаем. А вот это слово у нас разрешено — вносим в белый список, чтобы больше не отмечалось. Пара кликов — и сайт чист.
Разница с ручной вычиткой колоссальная. Раньше нужно было открыть каждую из 103 страниц и прочитать её целиком, всматриваясь в каждое слово, каждый знак препинания, каждый пробел. На сотой странице глаз замыливается, внимание рассеивается — и ошибка уходит в продакшен. Теперь человек открывает готовый список находок и принимает решение по каждой. Это семь ошибок, которые нужно проверить на адекватность, а не 103 страницы, которые нужно вычитать от корки до корки. На ручную вычитку ушли бы дни, здесь — минуты на принятие решений.
Этап 4. Регулярность и отчётность

Сценарий отрабатывает за 10 минут — это максимум. На более мощном компьютере справится ещё быстрее. Он формирует отчёт, в котором видно: сколько страниц проверено, сколько ошибок найдено, какие слова обнаружены, на каких страницах, что предлагается исправить.
Сейчас мы закладываем встройку в серверную часть. Периодическая задача будет заходить в папку проекта, запускать сценарий, ждать 10 минут, пока он отработает, и отправлять готовый отчёт на почту ответственному сотруднику. Мы обсудим это с серверной командой: нужно, чтобы кто-то выделил время и сделал эту задачу. Она не сложная — просто фоновая задача, которая работает по расписанию. Раз в месяц сценарий будет автоматически обходить сайт и присылать отчёт. Никаких напоминаний, никакого ручного запуска, никаких забытых проверок. Уменьшение человеческого фактора начинает работать на постоянной основе.
СозданиекодаспомощьюИИ:быстро,носособенностями
Сценарий полностью написан с использованием создания кода с помощью ИИ. Тестировщик описывал желаемую логику: «Вот так должен работать обход, вот так должен выглядеть отчёт, вот такие исключения нужно добавить». Нейросеть генерировала код, который тут же проверялся на реальных данных. За счёт этого весь прототип собрали за день. Автоматизация ии разработки позволила не отвлекать серверную команду на раннем этапе и сосредоточиться на главном — точности проверки.
Но есть особенность, о которой важно сказать. Нейросеть не знает всех тонкостей предметной области и не прибирает за собой. Она дописывает новый код поверх старого, не удаляя неиспользуемое. Кодовая база быстро распухает. Разработчик без профильной экспертизы не всегда может оценить качество и заметить неоптимальности.
Мы прошли через несколько итераций доработки. Сначала написали один запрос — нейросеть выдала результат. Мы проверили — не подходит. Добавили правки — проверили снова. Например, изначально отчёт был просто списком ошибок. Мы сказали: «Неудобно, давайте отдельную страницу с аналитикой — где какое слово, на каких страницах, сколько всего уникальных заимствований». Нейросеть переделала. Потом доработали интервалы и пробелы. Потом добавили белый список. Каждая итерация делала отчёт удобнее и точнее.

Вывод такой: для быстрого прототипа и проверки предположений создание кода с помощью ИИ — отличный инструмент. За часы можно собрать работающий интерфейс, показать его авторам и собрать обратную связь. Но для стабильного, масштабируемого корпоративного решения сгенерированный код должен проходить профессиональное ревью и встройку в нормальную архитектуру. Исключать человека из процесса пока рано.
Чтополучилось
Наша команда авторов, которая внутренне готовилась к неделям ручной вычитки, получила готовый отчёт за 10 минут. Они были приятно удивлены. Люди ожидали, что машина отловит процентов 70 ошибок — и уже это сэкономило бы кучу времени. По факту точность и полнота проверки оказались значительно выше ожиданий.
Попутно мы починили видимость сайта для поисковиков. Материалы, которые годами не индексировались, снова доступны. Это и есть уменьшение человеческого фактора в действии: человек не вычитывает 103 страницы, не обходит сайт как робот, не пытается угадать, где спряталась ошибка. Он получает готовый структурированный отчёт и точечно правит найденное. Рутина ушла, риски остались под контролем.
Отдельно стоит сказать про бюджет. Весь проект сделан на полностью бесплатных инструментах. ЛэнгвичТул — бесплатный, Пайтон — открытый язык, создание кода через нейросеть — тоже без дополнительных затрат. При нашем объёме страниц бесплатной версии хватает. Мы принципиально хотели проверить: можно ли решить задачу без платных лицензий и внешних подрядчиков. Оказалось — можно. Весь проект реализован силами одного тестировщика за день.

Перспективы:отместнойзадачидозарубежныхпроектов
Механика не привязана к заимствованиям или конкретному рынку. Та же связка «обход сайта + лингвистический анализ + отчёт» работает для наблюдения за терминологией бренда, требованиями поисковиков, обновлением контента после смены названия компании. ЛэнгвичТул поддерживает десятки языков — инструмент можно приспособить под законы любой страны, где требуется контроль публичных материалов.
Масштабирование на другие задачи — вопрос адаптации словарей и правил проверки. Заменили список запрещённых слов на список терминов бренда — получили инструмент для контроля фирменного стиля. Добавили правила проверки метатегов — получили SEO-мониторинг. Механика одна и та же, применение разное.
Ищетекоманду,котораяавтоматизируетпроверкуматериалов,анепростонапишеткод?
Вот как мы работаем, когда задача оказывается сложнее, чем казалось:
● Не обещаем стопроцентной точности — встраиваем проверку человеком и белые списки.
● Слышим боль бизнеса: штрафы, невидимые материалы, тонны рутины.
● Уменьшение человеческого фактора — наша цель, а не просто слова.
● Используем создание кода с помощью ИИ для быстрой разработки прототипа.
● Автоматизация ии разработки — наш подход: быстро проверить предположение и только потом расширять.
● Попутно проверяем техническое здоровье сайта — такого подарка от ручной проверки не дождёшься.
Вам нужен не просто сценарий для орфографии, а работающий инструмент ии проверки сайта, который снимет риски и уберёт рутину? Оставляйте заявку.
Технологии
Частозадаваемыевопросы
Кейсы,которымимыгордимся



