You are viewing the community [info]skyur_project

Скиур - извлекатель новостей (www.skyur.ru) - Обновление алгоритма Скиура [entries|archive|friends|userinfo]
Скиур - извлекатель новостей (www.skyur.ru)

[ website | Скиур - извлекатель новостей ]
[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Обновление алгоритма Скиура [Sep. 25th, 2008|11:16 am]
Previous Entry Add to Memories Share Next Entry

skyur_project

[ivbeg]
[Tags|, , ]

Завершилось первое обновление алгоритма. Это обновление является промежуточным и будет дополнятся в дальнейшем.

В это обновление вошли:
- поддержка 44 форматов дат (по сравнению с 20 в прошлой версии);
- поддержка дат обрамлённых текстом слева или справа, например, blog.lexa.ru
- ряд малых исправлений в точности интерпретации заголовков и ссылок в новостных блоках

Чего пока нет и планируется в следующем обновлении:
- поддержка англоязычных дат: сейчас они собираются и анализируются


Текущие ограничения:
- ряд ошибок распознавания связаны с неправильным распознаванием кодировки веб страницы, это сейчас решается.
- в некоторых случаях дата в тексте новости или страницы может восприниматься как метка даты новостного блока.
LinkReply

Comments:
[User Picture]From: [info]illyn
2008-10-11 03:07 pm (UTC)

(Link)

Яндекс.Телепрограмма интересный, по моему случай, надо рассмотреть алгоритмически и такой. И вообще, теле-радио программа. Они обычно не отдаются в рсс, а надо.
[User Picture]From: [info]ivbeg
2008-10-11 03:19 pm (UTC)

(Link)

Случай интересный, но это несколько иного характера поток информации - для телепрограмм есть свой формат XMLTV и, при желании, можно реконструировать его, вопрос нужно ли.
Например, XMLTV можно получить тут - http://www.teleguide.info/


А формально любое копирование с сайта tv.ytandex.ru запрещено см. http://tv.yandex.ru/agreement.xml

[User Picture]From: [info]illyn
2008-10-11 03:27 pm (UTC)

(Link)

Это понятно, я в целом “об анонсах”, теле радио программы их разновидности, но не единственные.
[User Picture]From: [info]illyn
2008-10-11 03:33 pm (UTC)

(Link)

По хорошему — это сервис похожий на Скиур, но выдающий на выход — iCalc или другой календарный формат.
[User Picture]From: [info]ivbeg
2008-10-17 06:53 am (UTC)

(Link)

Для такого сервиса потребуется сбор примеров публикаций анонсов, хотя бы 50-60 для обучения, я пока не представляю где столько можно найти.
From: [info]ex_w8lk8dlak163
2008-10-11 09:55 pm (UTC)

(Link)

4chan.org не распознал, ну то ладно, но почему не распознало kolya.net.ua, если у меня там даже есть ссылка на RSS?
[User Picture]From: [info]illyn
2008-10-17 03:31 am (UTC)

(Link)

Потому что алгоритмы не ищут ссылки на рсс. Они ищут последовательно расставленные (с уменьшением-увеличением даты или времени) блоки на странице.
А у вас название месяца написано с ошибкой.
[User Picture]From: [info]illyn
2008-10-17 03:27 am (UTC)

(Link)

http://www.computerra.ru/blogs/wasserman/
запутанный случай. В тело сообщений подмешивается биография автора, потому что в ней тоже есть даты.
Хотя нижние новости (не вассера, а всего сайта) — правильно не подмешиваются.
[User Picture]From: [info]ivbeg
2008-10-17 06:32 am (UTC)

(Link)

Там есть определённая загвоздка в том что сейчас новостная лента со страницы создаётся агрегированной отсюда эти смешения дат. Если поток разрезать на подпотоки, то всё станет на свои места, но, тем самым, будет не одна RSS лента, а множество.

Сейчас я как раз ищу наиболее эффективное решение для этой задачи.
[User Picture]From: [info]illyn
2008-10-23 04:15 am (UTC)

(Link)

[User Picture]From: [info]illyn
2008-10-23 04:21 am (UTC)

(Link)

http://www.serpuxov.net/
тут не чувствует самую первую новость.
[User Picture]From: [info]illyn
2008-11-14 07:22 pm (UTC)

(Link)

http://andrianovka.ru/news.html
Тут новостей достаточно много, но из них алгоритм забирает лишь 20 штук, причём не самых свежих, а из середины.
[User Picture]From: [info]illyn
2008-11-14 09:06 pm (UTC)

(Link)

Осознал. Дело в том что некоторые новости имеют ссылки на расширенное сообщение, а некоторые нет, они самодостаточны. В выдачу попадают лишь со ссылками куда-либо.
[User Picture]From: [info]ivbeg
2008-11-19 07:34 am (UTC)

(Link)

Да, записи с ссылками имеют больший вес, это действительно может быть причиной.
По поводу 20 штук, то на самом деле выбираются все новости, просто RSS позволяет отдавать ограниченное число записей которе везде установлено в 20.
Для подписки на новости этого достаточно в большинстве случаев, если же нужна полная выгрузка новостного архива, то тут лучше использовать не Скиур, а специального робота.
From: [info]asm7
2008-11-18 11:14 pm (UTC)

Спорт-экспресс так и распознаётся кракозябрами

(Link)

http://news.sport-express.ru/online/rubr/rubr0019.shtml

исправьте, пожалуйста.
[User Picture]From: [info]ivbeg
2008-11-19 07:58 am (UTC)

Re: Спорт-экспресс так и распознаётся кракозябрами

(Link)

С сайтом спорт экспресса есть проблема с автоматическим распознаванием кодировки. Почему я так понять и не могу - проблема в низлежащей библиотеке.

Для Вашей ссылки я специально добавил принудительное применение кодировки, так что теперь всё будет видно нормально
http://www.skyur.ru/?url=http%3A%2F%2Fnews.sport-express.ru%2Fonline%2Frubr%2Frubr0019.shtml
From: [info]asm7
2008-11-20 12:29 am (UTC)

Re: Спорт-экспресс так и распознаётся кракозябрами

(Link)

нет, всё равно кракозябры. Зловредный сайт какой :(
[User Picture]From: [info]legezo
2008-11-26 09:33 am (UTC)

(Link)

Вот это за новости не считает -- http://video.aviacia.ru/
Видимо, потому что там дата месяц-число-год. Добавите формат?
[User Picture]From: [info]jabrusli
2009-02-02 05:31 pm (UTC)

(Link)

Почему-то не срабатывает на http://sportlenta.ru/
From: [info]sambuev
2009-02-26 06:05 am (UTC)

(Link)

Спасибо за сервис!
[User Picture]From: [info]kaliningradetz
2009-03-12 12:41 am (UTC)

(Link)

Очень крутая штука! Спасибо!
из того, чем пользуюсь, она не понимает только ЗАКС питерский... http://www.zaks.ru/new/archive/list/1-7-0/
[User Picture]From: [info]ivbeg
2009-03-12 09:42 am (UTC)

(Link)

Дело в том что в ЗАКС в дате отсутствует год и, хотя такую дату можно проанализировать и подставлять текущий, но попадаются случаи когда год может и не текущим быть и его надо каким-то образом находить в контекстных данных. Универсального решения пока найти не удаётся.
[User Picture]From: [info]kaliningradetz
2009-04-09 10:15 pm (UTC)

(Link)

Что-то последнюю неделю стали западать обновления. На сайтах ничего в формате не меняется, но робот не видит обновлений.

например, восемь последних строк выпало:
http://www.skyur.ru/?url=http://www.ocgsen.kaliningrad.ru/tu_main.htm
[User Picture]From: [info]ivbeg
2009-04-10 06:15 am (UTC)

(Link)

Конкретно с этой страницей проблема в том что это вордовый документ который публикуют онлайн, соответственно внутри там такая смесь стилей и тэгов что алгоритм срабатывает не на всех датах. Боюсь что здесь пока решения нет кроме как использовать Page2RSS, к примеру.

Если проблема повторяется и на других сайтах мне понадобятся ссылки на них чтобы понять чем дело.
[User Picture]From: [info]kaliningradetz
2009-04-10 08:22 am (UTC)

(Link)

Ого. Но до этого все нормально было. Доки там на одних и тех же машинах сделаны...

Вот еще: http://www.skyur.ru/?url=http://www.gov39.ru/

Мне кажется, всё-таки что-то системное стряслось
[User Picture]From: [info]ivbeg
2009-04-10 08:49 am (UTC)

(Link)

Вы правы. В системе при обновлении сбился механизм кеширования и отдавались результаты старых обращений. Теперь должно работать как прежде
[User Picture]From: [info]kaliningradetz
2009-04-10 08:54 am (UTC)

(Link)

:) спасибо, будем на чеку!
[User Picture]From: [info]myjj
2009-04-10 03:36 pm (UTC)

(Link)

Во-первых, спасибо за сервис!
Во-вторых, не читается ЖЖ - тот же http://community.livejournal.com/skyur_project/ не распознается
В-третьих, почему бы не научить Скиура читать чужие RSS-ленты? Это помогло бы в случаях, когда конкретный агрегатор не воспринимает конкретную ленту.
[User Picture]From: [info]ivbeg
2009-04-11 06:57 am (UTC)

(Link)

Лента в ЖЖ не читается поскольку формат даты в ней, например, Sep. 25th, 2008|11:16 am пока не поддерживается. Я надеюсь его вскоре добавить, как только удасться решить вопросы с распознавнием большого числа форматов.
По обработке других RSS лент, спасибо за идею, я подумаю как это можно будет организовать.