| Comments: |
Яндекс.Телепрограмма интересный, по моему случай, надо рассмотреть алгоритмически и такой. И вообще, теле-радио программа. Они обычно не отдаются в рсс, а надо.
Случай интересный, но это несколько иного характера поток информации - для телепрограмм есть свой формат XMLTV и, при желании, можно реконструировать его, вопрос нужно ли. Например, XMLTV можно получить тут - http://www.teleguide.info/А формально любое копирование с сайта tv.ytandex.ru запрещено см. http://tv.yandex.ru/agreement.xml
Это понятно, я в целом “об анонсах”, теле радио программы их разновидности, но не единственные.
По хорошему — это сервис похожий на Скиур, но выдающий на выход — iCalc или другой календарный формат.
Для такого сервиса потребуется сбор примеров публикаций анонсов, хотя бы 50-60 для обучения, я пока не представляю где столько можно найти.
4chan.org не распознал, ну то ладно, но почему не распознало kolya.net.ua, если у меня там даже есть ссылка на RSS?
Потому что алгоритмы не ищут ссылки на рсс. Они ищут последовательно расставленные (с уменьшением-увеличением даты или времени) блоки на странице. А у вас название месяца написано с ошибкой.
http://www.computerra.ru/blogs/wasserman/запутанный случай. В тело сообщений подмешивается биография автора, потому что в ней тоже есть даты. Хотя нижние новости (не вассера, а всего сайта) — правильно не подмешиваются.
Там есть определённая загвоздка в том что сейчас новостная лента со страницы создаётся агрегированной отсюда эти смешения дат. Если поток разрезать на подпотоки, то всё станет на свои места, но, тем самым, будет не одна RSS лента, а множество.
Сейчас я как раз ищу наиболее эффективное решение для этой задачи.
Осознал. Дело в том что некоторые новости имеют ссылки на расширенное сообщение, а некоторые нет, они самодостаточны. В выдачу попадают лишь со ссылками куда-либо.
Да, записи с ссылками имеют больший вес, это действительно может быть причиной. По поводу 20 штук, то на самом деле выбираются все новости, просто RSS позволяет отдавать ограниченное число записей которе везде установлено в 20. Для подписки на новости этого достаточно в большинстве случаев, если же нужна полная выгрузка новостного архива, то тут лучше использовать не Скиур, а специального робота.
From: asm7 2008-11-18 11:14 pm (UTC)
Спорт-экспресс так и распознаётся кракозябрами | (Link)
|
![[User Picture]](http://l-userpic.livejournal.com/112260194/7731237) | From: ivbeg 2008-11-19 07:58 am (UTC)
Re: Спорт-экспресс так и распознаётся кракозябрами | (Link)
|
From: asm7 2008-11-20 12:29 am (UTC)
Re: Спорт-экспресс так и распознаётся кракозябрами | (Link)
|
нет, всё равно кракозябры. Зловредный сайт какой :(
Дело в том что в ЗАКС в дате отсутствует год и, хотя такую дату можно проанализировать и подставлять текущий, но попадаются случаи когда год может и не текущим быть и его надо каким-то образом находить в контекстных данных. Универсального решения пока найти не удаётся.
Конкретно с этой страницей проблема в том что это вордовый документ который публикуют онлайн, соответственно внутри там такая смесь стилей и тэгов что алгоритм срабатывает не на всех датах. Боюсь что здесь пока решения нет кроме как использовать Page2RSS, к примеру.
Если проблема повторяется и на других сайтах мне понадобятся ссылки на них чтобы понять чем дело.
Вы правы. В системе при обновлении сбился механизм кеширования и отдавались результаты старых обращений. Теперь должно работать как прежде
:) спасибо, будем на чеку!
![[User Picture]](http://l-userpic.livejournal.com/26617946/2160042) | From: myjj 2009-04-10 03:36 pm (UTC)
| (Link)
|
Во-первых, спасибо за сервис! Во-вторых, не читается ЖЖ - тот же http://community.livejournal.com/skyur_project/ не распознается В-третьих, почему бы не научить Скиура читать чужие RSS-ленты? Это помогло бы в случаях, когда конкретный агрегатор не воспринимает конкретную ленту.
Лента в ЖЖ не читается поскольку формат даты в ней, например, Sep. 25th, 2008|11:16 am пока не поддерживается. Я надеюсь его вскоре добавить, как только удасться решить вопросы с распознавнием большого числа форматов. По обработке других RSS лент, спасибо за идею, я подумаю как это можно будет организовать. | |