wget konfiguracja

Tematy związane z oprogramowaniem, instalacją, konfiguracją
Matrixx
Beginner
Posty: 235
Rejestracja: 03 maja 2016, 16:30

wget konfiguracja

Post autor: Matrixx »

Witam ponownie.
Niby proste a jednak nie do konca.
Potrzebuje sciagnac 1000 - 2000 zdjec samochodow z witryny: http://www.desperateseller.co.uk/
Zdjecia powinny byc w natywnej wielkosci, zzucone do specjalnego foldera, rekursywnie na 5 linkow glebokosci.
Zrobilem:

Kod: Zaznacz cały

wget -r -A jpeg http://www.desperateseller.co.uk/
A tu nastepna opcja:

Kod: Zaznacz cały

wget -r -P /save/location -A jpeg http://www.desperateseller.co.uk/
Niestety nie do konca to zagralo.
Pomozecie?

Moderacja:Stosuj znaczniki code
Awatar użytkownika
bart86
Beginner
Posty: 125
Rejestracja: 18 września 2012, 18:48

Re: wget konfiguracja

Post autor: bart86 »

Nie możesz zapisać strony. W firefox po PPM mam funkcje "Zapisz stronę jako..." wtedy wrzuca ci na dysk wszystko, pliki jak i zawartość a w tym obrazki
Chyba źle napisałeś ścieżkę do folderu jak na pierwszym miejscu się pisze / jest to rozumiane zawsze jako początek czyli katalog główny tak się wchodzi w katalogi /home lub /var albo /etc itd
Rozumiem że katalog /save jest w twoim katalogu domowym to musisz to zapisać tak save/location lub ~/save/location. ~ oznacza twój katalog domowy a potem ścieżka do folderu
Matrixx
Beginner
Posty: 235
Rejestracja: 03 maja 2016, 16:30

Re: wget konfiguracja

Post autor: Matrixx »

Czyli powinno to wygladac tak?

Kod: Zaznacz cały

 wget -r -A jpeg http://www.desperateseller.co.uk save/home/robin/Pictures
Awatar użytkownika
bart86
Beginner
Posty: 125
Rejestracja: 18 września 2012, 18:48

Re: wget konfiguracja

Post autor: bart86 »

ścieżki dam w cudzysłów żeby to było lepiej widoczne
katalog będzie w "/home/user/save" to albo piszesz "~/save" lub gdy jesteś w katalogu user piszesz tylko "save/"

Kod: Zaznacz cały

wget -r -A jpeg http://www.desperateseller.co.uk -P ~/Pictures/save
Moderacja:Stosuj znaczniki code
Matrixx
Beginner
Posty: 235
Rejestracja: 03 maja 2016, 16:30

Re: wget konfiguracja

Post autor: Matrixx »

Cos nie bardzo sie udalo, w konsoli wyszlo tak:

Kod: Zaznacz cały

root@debian:/home/robin# wget -r -A jpeg http://www.desperateseller.co.uk -P ~/Pictures/save
--2016-08-13 14:38:59--  http://www.desperateseller.co.uk/
Resolving www.desperateseller.co.uk (www.desperateseller.co.uk)... 92.52.117.193
Connecting to www.desperateseller.co.uk (www.desperateseller.co.uk)|92.52.117.193|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 55218 (54K) [text/html]
Saving to: ‘/root/Pictures/save/www.desperateseller.co.uk/index.html’

/root/Pictures/save 100%[=====================>]  53.92K  --.-KB/s   in 0.06s  

2016-08-13 14:39:00 (891 KB/s) - ‘/root/Pictures/save/www.desperateseller.co.uk/index.html’ saved [55218/55218]

Removing /root/Pictures/save/www.desperateseller.co.uk/index.html since it should be rejected.

FINISHED --2016-08-13 14:39:00--
Total wall clock time: 1.4s
Downloaded: 1 files, 54K in 0.06s (891 KB/s)
A w folderze Pictures nie zapisalo niczego.
Jezeli masz Jessie to zobacz na twoim komputerze, czy badzie ten sam wynik.
Moze problem jest w terminologii? Ja potrzebuje sciagnac te zdjecia z calej witryny i ew zlinkowanych podstron.
Awatar użytkownika
bart86
Beginner
Posty: 125
Rejestracja: 18 września 2012, 18:48

Re: wget konfiguracja

Post autor: bart86 »

"~" oznacza katalog domowy zalogowanego użytkownika, jesteś jako root to będzie to katalog /root jak chcesz w katalogu użytkownika robin to napisz "/home/robin/Pictures/save"
komenda jest dobra, dodałem rozszerzenie png i pobrało mi kilka plików ale widzę na stronie
po parametrze -A piszesz jpeg a na tej stronie takich plików nie ma są jpg

Kod: Zaznacz cały

wget -r -A jpg http://www.desperateseller.co.uk -P /home/robin/Pictures/save
Widze że na stronie trzeba być zalogowanym żeby wszystko zobaczyć może to blokuje wget bo nie jest zalogowany albo jednak coś jest w składni nie tak lub brakuje jakiegoś parametru, sam teraz nie wiem i nie mam czasu.

Moderacja:Stosuj znaczniki code
Matrixx
Beginner
Posty: 235
Rejestracja: 03 maja 2016, 16:30

Re: wget konfiguracja

Post autor: Matrixx »

To chyba jednak nasz brak wiedzy, poniewaz zmodyfikowalem na:

Kod: Zaznacz cały

wget -r -A jpg, jpeg http;//www.wp.pl  -P /home/robin/Pictures/save
i w efekcie utworzylo w folderze Pictures, podfolder "save" z katalogami jak nazwy pobieranych stron. Zadnych zdjec.
Cos robimy zle.

Moderacja:Stosuj znaczniki code

To rozwiazanie dziala (u kazdego po indywidualnej modyfikacji)

Kod: Zaznacz cały

wget -nd -erobots=off -A .jpg,.jpeg -E -H -k -K -p -U "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" the.domain/file.name 
W praktyce powinno to wygladac tak:

Kod: Zaznacz cały

wget -nd -erobots=off -A .jpg,.jpeg -E -H -k -K -p -U "Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.8.0" demotywatory.com
Efektem jest kilkadziesiat zdjec w folderze Downloads.
Krok do przodu zrobiony - problemem byl brakujacy "user agent" string w komendzie.

Brakuje jeszcze:
- wyszukiwania w glab np -l5
- zapisu do wyszczegolnionego/stworzonego folderu
- natywnej wielkosci zdjec przy sciaganiu.

Taka komenda, daje nam juz prawie wszystko z wyjatkiem natywnej wielkosci zdjec (niestety zapisuje wylacznie miniatury)

Kod: Zaznacz cały

 wget -r -l2 -nd -erobots=off -A .jpg,.jpeg -E -H -k -K -p -U "Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.8.0" demotywatory.com -P /home/robin/Concept/
Moze ktos by pomogl rozwiazac problem rozmiarow sciaganych zdjec, bo sobie caly weekend zmarnuje :eek:
ODPOWIEDZ