Back to Question Center
0

Инструкция от Semalt за това как да изстърже най - известните уеб сайтове от Уикипедия

1 answers:

Динамичните уеб сайтове използват роботи. txt файлове за регулиране и контрол на всякакви scraping дейности. Тези сайтове са защитени от уеб scraping условия и политики за предотвратяване на блогъри и маркетинг от остъргване на техните сайтове. За начинаещи, уеб scraping е процес на събиране на данни от уеб сайтове и уеб страници и запазване след това, запазвайки го в четливи формати.

Извличането на полезни данни от динамични уеб сайтове може да бъде тромава задача. За да опрости процеса на извличане на данни, уебмайсторите използват роботи, за да получат необходимата информация възможно най-бързо. Динамичните сайтове се състоят от "позволи" и "отхвърлят" директиви, които казват роботите, където се разрешава изстъргването и къде не.

Отстраняване на най-известните сайтове от Уикипедия

Този урок обхваща казус, който бе проведен от Брендън Бейли за извличане на сайтове от Интернет. Брендън започна да събира списък с най-мощните сайтове от Уикипедия. Основната цел на Брендън бе да идентифицира уебсайтове, отворени за извличане на уеб базирани данни, базирани на роботи. txt правила. Ако възнамерявате да изстържете сайт, помислете за посещение на Общите условия на уебсайта, за да избегнете нарушаване на авторските права.

Правила за изтриване на динамични сайтове

С инструментите за извличане на данни от мрежата отстраняването на сайт е само въпрос на кликване. Подробният анализ за това как Брендън Бейли класифицира сайтовете на Уикипедия и критериите, които използва, са описани по-долу:

Смесени

Според проучването на Брендън повечето популярни сайтове могат да бъдат групирани като смесени. В диаграмата, уебсайтовете със смес от правила представляват 69%. Роботите на Google. txt е отличен пример за смесени роботи. текст.

Пълно разрешение

Пълно Позволете, от друга страна,. В този контекст "Пълно разрешаване" означава, че роботите на сайта. txt файла дава достъп до автоматизирани програми за остъргване на целия сайт. SoundCloud е най-добрият пример. Други примери за Пълни позволени сайтове включват:

  • fc2. comv
  • попади. нето
  • uol. COM. br
  • . com
  • 360. cn

Не е зададено

Уебсайтове с "Not Set" представляват 11% от общия брой, представен в диаграмата. Без "Задаване" означава следните две неща: Сайтовете нямат роботи. txt файл или в сайтовете липсват правила за "User-Agent". "Примери за уеб сайтове, където са роботите. txt файл е "Не е зададено" включват:

  • На живо. com
  • Jd. com
  • Cnzz. com

Пълно Disallow

Пълно Забраните сайтове забраняват автоматизирани програми от остъргване на техните сайтове. Linked In е отличен пример за пълно премахване на сайтове. Други примери за места за пълно забрана включват:

  • Naver. com
  • Facebook. com
  • Soso. com
  • Taobao. com
  • Т.co

Web scraping е най-доброто решение за извличане на данни. Въпреки това, изстъргването на някои динамични уеб сайтове може да ви приземи в големи проблеми. Този урок ще ви помогне да разберете повече за роботите. txt файл и предотвратяване на проблеми, които могат да възникнат в бъдеще.

December 22, 2017
Инструкция от Semalt за това как да изстърже най - известните уеб сайтове от Уикипедия
Reply