Как заблокировать поисковые системы (с изображениями)

Оглавление:

Как заблокировать поисковые системы (с изображениями)
Как заблокировать поисковые системы (с изображениями)

Видео: Как заблокировать поисковые системы (с изображениями)

Видео: Как заблокировать поисковые системы (с изображениями)
Видео: Как открыть файл HEIC в Windows 10, 8 и Windows 7 2024, Май
Anonim

Поисковые системы оснащены роботами, также известными как пауки или боты, которые сканируют и индексируют веб-страницы. Если ваш сайт или страница находятся в стадии разработки или содержат конфиденциальный контент, вы можете заблокировать сканирование и индексирование вашего сайта ботами. Узнайте, как блокировать целые веб-сайты, страницы и ссылки с помощью файлов robots.txt и блокировать определенные страницы и ссылки с помощью тегов html. Прочтите, чтобы узнать, как заблокировать доступ определенных ботов к вашему контенту.

Шаги

Метод 1 из 2: блокировка поисковых систем с помощью файлов robots.txt

576315 1
576315 1

Шаг 1. Изучите файлы robots.txt

Файл robots.txt - это простой текстовый файл или файл ASCII, который информирует "пауков" поисковых систем о том, к чему им разрешен доступ на вашем сайте. Файлы и папки, перечисленные в файле robots.txt, не могут сканироваться и индексироваться пауками поисковых систем. Вам может понадобиться файл robots.txt, если:

  • Вы хотите заблокировать определенный контент от пауков поисковых систем.
  • Вы разрабатываете действующий сайт и не готовы к тому, что пауки поисковых систем будут сканировать и индексировать сайт.
  • Вы хотите ограничить доступ авторитетным ботам.
576315 2
576315 2

Шаг 2. Создайте и сохраните файл robots.txt

Чтобы создать файл, запустите текстовый редактор или редактор кода. Сохраните файл как robots.txt. Имя файла должно быть написано строчными буквами.

  • Не забывайте "s".
  • При сохранении файла выберите расширение «.txt». Если вы используете Word, выберите вариант «Обычный текст».
576315 3 1
576315 3 1

Шаг 3. Напишите полностью запрещенный файл robots.txt

Можно заблокировать сканирование и индексирование вашего сайта всеми надежными пауками поисковых систем с помощью файла robots.txt «полностью запретить». Напишите в текстовом файле следующие строки:

    Пользовательский агент: * Disallow: /

  • Не рекомендуется использовать файл robots.txt с полным запретом. Когда бот, такой как Bingbot, читает этот файл, он не будет индексировать ваш сайт, и поисковая система не будет отображать ваш сайт.
  • Пользовательские агенты: это еще один термин для пауков поисковых систем или роботов.
  • *: звездочка означает, что код применяется ко всем пользовательским агентам
  • Запретить: /: косая черта указывает, что весь сайт закрыт для ботов.
576315 4 1
576315 4 1

Шаг 4. Напишите файл robots.txt с условным разрешением

Вместо того, чтобы блокировать всех ботов, подумайте о том, чтобы заблокировать определенных пауков из определенных областей вашего сайта. Общие команды условного разрешения включают:

  • Заблокировать конкретного бота: замените звездочки рядом с Пользователь-агент с участием googlebot, googlebot-новости, googlebot-image, бинбот, или Теома.
  • Заблокируйте каталог и его содержимое:

    Пользовательский агент: * Disallow: / каталог-образцов /

  • Заблокировать веб-страницу:

    Пользовательский агент: * Disallow: /private_file.html

  • Заблокировать изображение:

    Пользовательский агент: googlebot-image Disallow: /images_mypicture.jpg

  • Заблокировать все изображения:

    User-agent: googlebot-image Disallow: /

  • Заблокировать определенный формат файла:

    Пользовательский агент: * Disallow: /p*.gif$

576315 5
576315 5

Шаг 5. Поощряйте роботов индексировать и сканировать ваш сайт

Многие люди хотят приветствовать, а не блокировать пауков поисковых систем, потому что они хотят, чтобы их сайт был проиндексирован. Для этого у вас есть три варианта. Во-первых, вы можете отказаться от создания файла robots.txt - когда робот не найдет файл robots.txt, он продолжит сканирование и индексирование всего вашего сайта. Во-вторых, вы можете создать пустой файл robots.txt - робот найдет файл robots.txt, распознает, что он пуст, и продолжит сканирование и индексирование вашего сайта. Наконец, вы можете написать файл robots.txt с полным разрешением. Используйте код:

    Пользовательский агент: * Disallow:

  • Когда бот, такой как googlebot, читает этот файл, он может свободно посещать ваш сайт.
  • Пользовательские агенты: это еще один термин для пауков поисковых систем или роботов.
  • *: звездочка означает, что код применяется ко всем пользовательским агентам
  • Запретить: пустая команда disallow указывает, что все файлы и папки доступны
576315 6
576315 6

Шаг 6. Сохраните текстовый файл в корень вашего домена

После того, как вы написали файл robots.txt, сохраните изменения. Загрузите файл в корневой каталог вашего сайта. Например, если ваш домен www.yourdomain.com, поместите файл robots.txt по адресу www.yourdomain.com/robots.txt.

Метод 2 из 2: блокировка поисковых систем с помощью метатегов

576315 7
576315 7

Шаг 1. Изучите метатеги HTML-роботов

Метатег robots позволяет программистам устанавливать параметры для ботов или пауков поисковых систем. Эти теги используются для блокировки роботами от индексации и сканирования всего сайта или только его частей. Вы также можете использовать эти теги, чтобы запретить определенному пауку поисковой системы индексировать ваш контент. Эти теги появляются в заголовке вашего HTML-файла.

Этот метод обычно используется программистами, у которых нет доступа к корневому каталогу веб-сайта

576315 8
576315 8

Шаг 2. Заблокируйте ботов на одной странице

Можно запретить всем ботам индексировать страницу и / или переходить по ссылкам страницы. Этот тег обычно используется, когда действующий сайт находится в стадии разработки. После создания сайта настоятельно рекомендуется удалить этот тег. Если вы не удалите тег, ваша страница не будет проиндексирована и недоступна для поиска в поисковых системах.

  • Вы можете запретить ботам индексировать страницу и переходить по любой из ссылок:
  • Вы можете запретить всем ботам индексировать страницу:
  • Вы можете запретить всем ботам переходить по ссылкам на странице:
576315 9
576315 9

Шаг 3. Разрешите ботам индексировать страницу, но не переходите по ее ссылкам

Если вы разрешите ботам индексировать страницу, она будет проиндексирована; если вы запретите паукам переходить по ссылкам, путь ссылки с этой конкретной страницы на другие страницы будет нарушен. Вставьте в заголовок следующую строку кода:

576315 10
576315 10

Шаг 4. Позвольте паукам поисковых систем переходить по ссылкам, но не индексировать страницу

Если вы разрешите ботам переходить по ссылкам, путь ссылки с этой конкретной страницы на другие страницы останется в силе; если вы запретите им индексировать страницу, ваша веб-страница не появится в индексе. Вставьте в заголовок следующую строку кода:

576315 11
576315 11

Шаг 5. Заблокируйте одну исходящую ссылку

Чтобы скрыть одну ссылку на странице, вставьте rel внутри тега ссылки. Вы можете использовать этот тег для блокировки ссылок на других страницах, которые ведут на конкретную страницу, которую вы хотите заблокировать.

    Вставить ссылку на заблокированную страницу

576315 12
576315 12

Шаг 6. Заблокируйте определенного паука поисковой системы

Вместо того, чтобы блокировать всех ботов с вашей веб-страницы, вы можете запретить одному боту сканировать и индексировать страницу. Для этого замените «робот» в метатеге на имя конкретного бота. Примеры включают: googlebot, googlebot-новости, googlebot-image, бинбот, а также Теома.

576315 13
576315 13

Шаг 7. Поощряйте роботов сканировать и индексировать вашу страницу

Если вы хотите убедиться, что ваша страница будет проиндексирована и по ее ссылкам будут переходить, вы можете вставить подписку мета «робот» в свой заголовок. Используйте следующий код:

Рекомендуемые: