• 2024-11-21

Дефиниция на Web Spidering и Web Crawlers

Osito Gominola - Full Spanish Version - The Gummy Bear Song

Osito Gominola - Full Spanish Version - The Gummy Bear Song

Съдържание:

Anonim

Паяците са програми (или автоматизирани скриптове), които „обхождат“ в мрежата, търсейки данни. Паяците пътуват през URL адресите на уебсайтове и могат да изтеглят данни от уеб страници като имейл адреси. Паяците също се използват за подаване на информация, намерена на уебсайтове, в търсачките.

Паяците, които също се наричат ​​„уеб търсачи“ в мрежата и не всички са приятелски настроени.

Уебсайтове на спамерите за събиране на информация

Google, Yahoo! и други търсачки не са единствените, които се интересуват от обхождане на уебсайтове - така са и измамниците и спамерите.

Паяците и други автоматизирани инструменти се използват от спамерите за намиране на имейл адреси (в интернет тази практика често се нарича „прибиране на реколтата“) на уебсайтовете и след това ги използват за създаване на спам списъци.

Паяците също са инструмент, използван от търсачките, за да открият повече информация за уебсайта Ви, но не са маркирани, уебсайт без указания (или „разрешения“) за това как да обхожда сайта Ви може да представлява сериозен риск за информационната сигурност. Паяците пътуват, като следват линкове, и са много опитни в намирането на връзки към бази данни, програмни файлове и друга информация, до която може да не искате да имат достъп.

Уеб администраторите могат да преглеждат дневниците, за да видят какви паяци и други роботи са посетили техните сайтове. Тази информация помага на уеб администраторите да знаят кой индексира техния сайт и колко често.

Тази информация е полезна, защото позволява на уеб администраторите да настройват своите SEO и да актуализират robot.txt файловете, за да забранят на определени роботи да обхождат сайта им в бъдеще.

Съвети за защита на вашия сайт от нежелани робот роботи

Налице е доста прост начин да запазите нежеланите роботи от уебсайта си. Дори и да не сте загрижени за злонамерени паяци, които обхождат сайта ви (объркващият имейл адрес няма да ви защити от повечето търсачки), все пак трябва да предоставите важни инструкции на търсачките.

Всички уебсайтове трябва да имат файл, разположен в главната директория, наречена файл robots.txt. Този файл ви позволява да инструктирате роботите на уебсайтовете къде искате да търсят индексни страници (освен ако не е посочено друго в метаданните на дадена страница да не бъдат индексирани), ако те са търсачка.

Точно както можете да кажете на желаните търсачки, където искате да разглеждате, можете също да им кажете къде може да не отидат и дори да блокират конкретни роботи от целия ви уебсайт.

Важно е да се има предвид, че един добре сглобен файл robots.txt ще има огромна стойност за търсачките и дори може да бъде ключов елемент за подобряване на ефективността на уебсайта ви, но някои роботи все още игнорират вашите инструкции. Поради тази причина е важно да поддържате актуалността на целия софтуер, плъгини и приложения по всяко време.

Свързани статии и информация

Поради разпространението на събирането на информация, използвано за престъпни (спам) цели, през 2003 г. беше прието законодателство за забрана на някои практики. Тези закони за защита на потребителите попадат в обхвата на закона CAN-SPAM от 2003 г.

Важно е да отделите време, за да прочетете по CAN-SPAM Act, ако вашият бизнес се ангажира с масово изпращане на информация или събиране на информация.

Можете да научите повече за анти-спам законите и как да се справяте със спамерите, както и това, което вие като собственик на бизнес може да не правите, като прочетете следните статии:

  • CAN-SPAM Act 2003
  • CAN-SPAM Act Правила за нестопанските организации
  • 5 CAN-SPAM правила Малките бизнес собственици трябва да разберат

Интересни статии

Военновъздушни сили PJ - физически способности и тест за издръжливост (PAST)

Военновъздушни сили PJ - физически способности и тест за издръжливост (PAST)

AF PJ PAST се състои от подводно плуване, плуване на 500 метра, chinups, pullups, situps, и 1.5-мили пробег. PJ, CCT, Battlefield Airmen Prep

Определение на антагонисти за писателите на фантастика

Определение на антагонисти за писателите на фантастика

Антагонистът е един от централните герои в художествената литература, който осигурява източник на конфликта на сюжета. Ето как да включите в писането си.

Политика за отпуск по бащинство

Политика за отпуск по бащинство

Законът за оторизирането на отбраната през 2009 г. създаде програма за отпуск по бащинство и през 2017 г. настъпиха промени.

Милионерът Пати Стангер

Милионерът Пати Стангер

Биография на Пати Стангер, главен изпълнителен директор на Клуба на милионерите и звезда на "Millionaire Matchmaker". Открийте нетната стойност на Patti Stanger, възрастта и др.

PAVE: Личен минимум контролен списък за управление на риска

PAVE: Личен минимум контролен списък за управление на риска

PAVE е акроним, използван от пилотите като личен минимум, за да се намалят рисковете, свързани с летенето.

Финансов съветник Плащане от комисии

Финансов съветник Плащане от комисии

Финансовите съветници традиционно се плащат за комисиони. Ето детайлно обсъждане на това какво означава плащането чрез комисионни.