Як видалити сайт або його окремі фрагменти з індексу google
Відео: Пряма трансляція лекції «Основні принципи індексування сайту», Школа вебмайстрів
Згідно з концепцією індексації, прийнятої Google, враховується повнота, об`єктивність інформації та відповідність її пошуковим запитом при видачі результатів. Якщо в індексацію потрапляє сайт з протизаконним контентом, або ж ресурс призначений для спаму, то сторінки такого сайту не будуть помічені в загальній базі пошукової системи. Нам же важливо дізнатися, як видалити сайт з видачі сервера за результатами пошуку.
Варіанти нульовий індексації Google
Як тільки пошуковий робот - програма збору інформації про нові ресурсах - просканує сайт посторінково, то, при відповідність вимогам політики Google щодо парсинга, він буде проіндексований. Але ми також розповімо, як видалити свій сайт або окремі фрагменти для пошукових систем за допомогою robots.txt - покажчика і одночасно обмежувача пошуку.
Щоб виключити з видачі ресурс цілком, в кореневій папці сервера, на якому розташований сайт, створюється певна текстова зона - згаданий robots.txt. Цю зону обробляють пошукові машини і діють, згідно прочитаним інструкціям.
Майте на увазі, що пошукова система Google проиндексирует сторінку, навіть якщо для користувача доступ до перегляду заборонений. Коли браузер видає відповідь 401 або 403 «Доступ недійсний», то це стосується тільки відвідувачів, а не програм-збирачів для цього пошукового сервера.
Щоб зрозуміти, як видалити сайт з пошукової індексації, в текстовий покажчик слід вписати такі рядки:
User-agent: Googlebot
Disallow: /
Це вказує пошуковому роботу на заборону для індексування всього вмісту сайту. ось як видалити сайт Google, щоб останній не кешувати ресурс в список виявлених.
Варіанти сканування для різних протоколів
Якщо вам потрібно перерахувати окремі стандарти зв`язку, для яких ви хотіли б застосувати особливі правила щодо індексації Google, наприклад, окремо для гіпертекстових протоколів http / https, це також потрібно прописати в robots.txt наступним шляхом (приклад).
(Http://yourserver.com/robots.txt) - доменне ім`я вашого сайту (будь-яке)
User-agent: * - для будь-якої пошукової системи
Allow: / - дозволити повну індексацію
Як видалити сайт з видачі повністю для протоколу https
(Https://yourserver.com/robots.txt):
User-agent: *
Disallow: / повна заборона на індексування
Термінове видалення URL- адреси ресурсу з пошукової видачі Google
Якщо ви не хочете чекати повторної індексації, і сайт потрібно приховати якомога швидше, рекомендую скористатися сервісом https://services.google.com/urlconsole/controller. Попередньо robots.txt вже повинен бути розміщений в кореневому каталозі сервера сайту. У ньому повинні бути прописані відповідні інструкції.
Якщо покажчик з якихось причин не доступний для редагування в кореневому каталозі, досить створити його в тій папці з об`єктами, для яких потрібно приховування від пошукових систем. Як тільки ви зробите це і зверніться на сервіс автоматичного видалення гіпертекстових адрес, Google не буде сканувати папки, які прописано вилучити в robots.txt.
Період такої невидимості встановлюється на 3 місяці. Після закінчення цього терміну каталог, вилучений з видачі, знову буде оброблений сервером Google.
Доак видалити сайт для сканування частково
Коли пошуковий бот читає вміст robots.txt, то на підставі його вмісту приймаються певні рішення. Припустимо, вам потрібно виключити з показу по всій Директорії з назвою anatom. Для цього досить прописати такі інструкції:
Відео: як видалити сторінку з pdf файлу
User-agent: Googlebot
Disallow: / anatom
Або, наприклад, ви хочете, щоб не індексувалися все картинки типу .jpg. Для цього додайте наступний список:
User-agent: Googlebot
Відео: Подарунки Максу від Діда Мороза розпакування іграшок під Новорічної ялинкою
Disallow: /*.jpg$
Ось ще один приклад. Нехай потрібно видалити з парсинга інформацію про динамічно генеруються сторінках, тоді додаємо в покажчик запис типу:
User-agent: Googlebot
Disallow: / *?
Ось так, приблизно, і прописуються правила для пошукових систем. Інша справа, що набагато зручніше для всього цього використовувати тег META. І веб-майстри частіше використовують саме такий стандарт, що регулює дію пошукових систем. Але про це ми поговоримо в наступних статтях.