anonymous@RULINUX.NET~# Last login: 2024-09-24 10:33:15
Регистрация Вход Новости | Разметка | Пользователи | Галерея | Форум | Статьи | Неподтвержденное | Трекер | Правила форума | F.A.Q. | Ссылки | Поиск
[#] [Добавить метку] [Редактировать]
Скрыть

Ладно, давайте рассмотрим чего-нибудь интересное ...

Есть некоторая идея - сделать агрегатор. Парсер инфы сделать как можно не зависимым от кода. В этом случае парсер легко можно будет адаптировать к переделке дизайна сайта.У кого есть опыт таких штук, готов обменяться знаниями.

Ну вообщем вопрос, если кто сталкивался. Давайте обсудим тему. Если кто не сталкивался давайте обсудим, что же все таки творилось на фотографии в этом посте Все принцессы делают это

Ax-Xa-Xa(*) (2012-01-25 01:12:58)

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.75 Safari/535.7

[Ответить на это сообщение]
avatar
Скрыть

Re:Ладно, давайте рассмотрим чего-нибудь интересное ...

>В этом случае парсер легко можно будет адаптировать к переделке дизайна сайта.
Так вся работа написания парсера, обычно, в этом и заключается.

SystemV(*)(2012-01-25 01:26:59)

Emacs-w3m/1.4.414 w3m/0.5.3
avatar
Скрыть

Re:Ладно, давайте рассмотрим чего-нибудь интересное ...

Алсо, в наше время можно даже не адаптировать почти ничего: http://www.readability.com/

SystemV(*)(2012-01-25 01:30:05)

Emacs-w3m/1.4.414 w3m/0.5.3
avatar
Скрыть

Re:Ладно, давайте рассмотрим чего-нибудь интересное ...

>> В этом случае парсер легко можно будет адаптировать к переделке дизайна сайта.
> Так вся работа написания парсера, обычно, в этом и заключается.
Сразу видно человека? который стакивался с темой.

Да это будет основная работа в этом предприятии, поддерживать адекватность парсеров. Но как бы и люди у нас будут, которые знают в этом толк? Не?

Ax-Xa-Xa(*)(2012-01-25 01:31:05)

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.75 Safari/535.7
avatar
Скрыть

Re:Ладно, давайте рассмотрим чего-нибудь интересное ...

>Да это будет основная работа в этом предприятии, поддерживать адекватность парсеров.
Это ты хочешь как тот человек, который собирал данные про Болотную через вконтакт?:)

SystemV(*)(2012-01-25 01:33:44)

Emacs-w3m/1.4.414 w3m/0.5.3
avatar
Скрыть

Re:Ладно, давайте рассмотрим чего-нибудь интересное ...

> Алсо, в наше время можно даже не адаптировать почти ничего: http://www.readability.com/
Ты кидаешь какие-то данные или я их сам выбираю из доступного. Допустим образовался мой брат с рыбками.

Я не совсем понел что нам дают. Ок. Он (мой брат) например разводит рыбок аквариумных Южной Америки. Для меня собственно пох, я должен этих рыбок собрать и доставить тем кто их заказал, пока они не здохли.)))

Моя проблем, отлично организовать доставку.

В нашем деле, нюансы такие - доставка, настройёка, обучение и запуск в эксплуатацию.

Ax-Xa-Xa(*)(2012-01-25 01:39:13)
Отредактировано Ax-Xa-Xa по причине "не указана"
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.75 Safari/535.7
avatar
Скрыть

Re:Ладно, давайте рассмотрим чего-нибудь интересное ...

Да, насчёт readability. Это штука, которая довольно неплохо умеет выдирать из веб-страницы "основной" контент, по куче эмпирических алгоритмов. Есть реализация для питона, кстати. На форумах относительно часто ошибается, а вот на стандартной странице вполне эффективно выдирает действительно нужную информацию.

Это я на тему парсеров и адаптации их к сайтам. Оказывается, сделать почти-универсальный парсер уже вполне возможно, проблема остаётся только в автоматизации.

>Моя проблем, отлично организовать доставку.
>В нашем деле, нюансы такие - доставка, настройёка, обучение и запуск в эксплуатацию.
Это ты, в такой странной форме, обсуждаешь бизнес-план?:)

SystemV(*)(2012-01-25 01:45:01)

Emacs-w3m/1.4.414 w3m/0.5.3
avatar
Скрыть

Re:Ладно, давайте рассмотрим чего-нибудь интересное ...

> Да, насчёт readability.
Понимаешь, я может тупля. Но эта твоя самая "readability" очень сильно зависит от природы информации, которую мы собираем. Моя идея даже построена на том, что бы по максиму снизить зависимость от "схемы" по которой мы будеем собирать данные.

Ax-Xa-Xa(*)(2012-01-25 01:53:20)

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.75 Safari/535.7
avatar
Скрыть

Re:Ладно, давайте рассмотрим чего-нибудь интересное ...

>Понимаешь, я может тупля. Но эта твоя самая "readability" очень сильно зависит от природы информации, которую мы собираем.
Я просто как пример интересной штуки для узкого применения - выдирания контента из веб страниц.

>Моя идея даже построена на том, что бы по максиму снизить зависимость от "схемы" по которой мы будеем собирать данные.
Берёшь документно-ориентированную БД, которой пофиг на то, что ты собираешь, пишешь простое API для укладывания в неё данных, ну и для извлечения - и вот тебе готов data-agnostic (уж простите) engine, к которому остаётся только писать парсеры. Тут ничего другого изобретать не надо, имхо.

А вот писать парсеры - скучно, долго и однообразно, а также это дело требует хорошего терпения:)

Но организовать такое дело всё же проще, чем найти клиентов, хотя я не уверен.

SystemV(*)(2012-01-25 02:00:36)

Emacs-w3m/1.4.414 w3m/0.5.3
Этот тред читают 6 пользователей:
Анонимных: 6
Зарегистрированных: 0




(c) 2010-2020 LOR-NG Developers Group
Powered by TimeMachine

Valid HTML 4.01 Transitional Правильный CSS!