anonymous@RULINUX.NET~# Last login: 2025-04-18 10:25:28
Регистрация Вход Новости | Разметка | Пользователи | Галерея | Форум | Статьи | Неподтвержденное | Трекер | Правила форума | F.A.Q. | Ссылки | Поиск
[#] [Добавить метку] [Редактировать]
Скрыть

Как скрейпить вебсайты?

Вопрос, вроде бы, не новый, но возникает снова и снова.

Есть опенсорс программа, у неё документация только в виде multipage html.

Это очень неудобно, поэтому хочется собрать из неё книгу.

Как это сделать?

Понятно, что всякие рекурсивные wget/teleport про в современном "вебе" просто не живут, надо писать что-то поумнее.

Но я вот поковырял Scrapy, и так и не смог им овладеть быстро.

Кажется, что надо учить Selenium, но это тоже не так-то просто.

anonymous(*) (2025-04-05 16:35:03)

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/133.0.0.0 Safari/537.36

[Ответить на это сообщение]
[#] [Добавить метку] [Редактировать] Ответ на: Как скрейпить вебсайты? от anonymous 2025-04-05 16:35:03
avatar
Скрыть

Re:Как скрейпить вебсайты?

> Понятно, что всякие рекурсивные wget...
спокойно тащат..

wget -c --mirror -nH -np -k -L -D domain.org   http://www.domain.org/path/index.html
когда "всё плохо" - есть curl, который воще тащит всё без разбора (оно выхлоп не мониторит, поэтому сперва, например, делаешь файло со списком ссылок, а потом гребёшь и сохраняешь отдельно)..

тут ещё вопрос, оно те надо по полметра скриптовой лапши с каждой страницы (преведЪ CRM итэпэ) или те надо только текст (с картинко и/или онемэ)..

anonymous(*)(2025-04-05 18:55:12)

Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:136.0) Gecko/20100101 Firefox/136.0
[#] [Добавить метку] [Редактировать] Ответ на: Как скрейпить вебсайты? от anonymous 2025-04-05 16:35:03
avatar
Скрыть

Re:Как скрейпить вебсайты?

> опенсорс программа
Так качни сорцы от своей программы, дебил :)

anonymous(*)(2025-04-09 02:56:43)

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/133.0.0.0 Safari/537.36
[#] [Добавить метку] [Редактировать] Ответ на: Re:Как скрейпить вебсайты? от anonymous 2025-04-09 02:56:43
avatar
Скрыть

Re:Как скрейпить вебсайты?

Нету в них.

anonymous(*)(2025-04-10 18:19:57)

Mozilla/5.0 (Android 10; Mobile; rv:137.0) Gecko/137.0 Firefox/137.0
Этот тред читают 1 пользователь:
Анонимных: 1
Зарегистрированных: 0




(c) 2010-2020 LOR-NG Developers Group
Powered by TimeMachine

Valid HTML 4.01 Transitional Правильный CSS!