Водич за почетници од Семалт, Отсекување со веб-страници

Податоците и информациите на мрежата растат од ден на ден. Денес, повеќето луѓе го користат Гугл како прв извор на знаење, без оглед дали бараат рецензии за бизнис или се обидуваат да разберат нов термин.

Со количината на податоци што се достапни на Интернет, се отвораат многу можности за научниците за податоци. За жал, повеќето податоци на Интернет не се достапни. Таа е претставена во неструктуриран формат наведен како HTML формат што не може да се презема. Така, тоа бара знаење и експертиза на научник за податоци за да ги искористи.

Веб-scraping е процес на конвертирање на податоците присутни во HTML формат во структуриран формат, кој може лесно да се пристапи и да се користи. Скоро сите јазици за програмирање можат да се користат за соодветно отпишување на веб. Сепак, во овој напис, ние ќе го користиме R јазикот.

Постојат неколку начини на кои податоците можат да бидат избришани од мрежата. Некои од најпопуларните вклучуваат:

1. Човечка копија-паста

Ова е бавна, но многу ефикасна техника за стружење на податоци од мрежата. Во оваа техника, едно лице ги анализира податоците себеси и потоа ги копира на локалното складирање.

2. Појавување на моделот на текст

Ова е уште еден едноставен, но моќен пристап за вадење информации од веб. Потребно е да се користат редовни објекти за појавување израз на програмски јазици.

3. Интерфејс на API

Многу веб-страници, како што се Twitter, Facebook, LinkedIn, итн. Ви овозможуваат јавни или приватни API-и што може да се наречат со користење на стандардни кодови за добивање на податоци во пропишан формат.

4. Парсирање на ДОМ

Забележете дека некои програми можат да повратат динамична содржина креирана од скриптите на клиентот. Може да се анализираат страници во дрво ДОМ, што е засновано на програмите што можете да ги користите за да добиете некои делови од овие страници.

Пред да започнете со стружење преку Интернет во Р, треба да имате основно знаење за Р. Ако сте почетник, има многу одлични извори што можат да помогнат. Исто така, од вас се бара да имате познавање на HTML и CSS. Меѓутоа, бидејќи повеќето научници за податоци не се многу добри со техничко знаење за HTML и CSS, можете да користите отворен софтвер како што е Selector Gadget.

На пример, ако пребарувате податоци на веб-страницата IMDB за 100 најпопуларни филмови објавени во даден период, треба да ги избришете следниве податоци од една страница: опис, траење, жанр, оценка, гласови, бруто заработка, режисер и кастинг. Откако ќе ги избришете податоците, можете да ги анализирате на различни начини. На пример, можете да создадете голем број на интересни визуелизации. Сега кога имате општа идеја за тоа што е пишувањето на податоците, можете да направите начин околу тоа!