| Обновление проекта |
[Nov. 30th, 2009|11:45 pm] |
Как многие заметили в последнее время Скиур не распознавал многие из новостных страниц. Основной проблемой этого являлась нарастающая нагрузка на и увеличивающееся число страниц для распознавания что и приводило к таймаутам и т.д. до ненахождения информации.
Чтобы решить эту проблему Скиур был довольно серьёзно изменён внутри: - заменён парсер на более быстрый - оптимизированы алгоритмы работы с регулярными выражениями - анализ страниц выделен в отдельный сервис и теперь происходит асинхронно отображением. - страницы проверяются на обновление раз в сутки. - улучшено распознавание кодировок
Визуально практически ничего не изменилось, за исключением того что теперь при запросе ссылки на распознавание установлен таймаут в 7 секунд.
|
|
|
| Новое в Скиуре |
[Apr. 14th, 2009|11:00 am] |
Проект продолжает развиваться и недавно обновился сразу в нескольких областях:
Внешние изменения
- появился букмарклет для запуска распознавания новостей через браузер - его можно перетащить на панель закладок по перейдя по ссылке - http://www.skyur.ru/tools/
- появился каталог ранее распознанных RSS лент - http://www.skyur.ru/catalog/
- у проекта появилось API для проверки можно ли страницу/сайта преобразовать в RSS. Само API пока закрыто, но для тех кому интресно - пример его работы можно посмотреть в каталоге ссылок http://enotpoiskun.ru/links/ где каждая ссылка была проверена на предмет наличия RSS и, при наличии, добавлено ссылкой на соответствующую страницу в Скиуре. Вскоре будет и публичное API
Внутренние изменения
- проект прошёл серьёзную внутреннюю переработку и, если ранее использовался, движок баз данных Couchdb, то теперь все основные данные хранятся в MySQL, а Couchdb используется как вспомогательный инструмент. Соответственно это повысило скорость обработки RSS лент примерно на 20% и улучшило стабильность сервиса как такового.
- значительно улучшилось распознавание кодировок и теперь в во многих случаях когда ранее алгоритм не срабатывал - это должно исправится.
- добавлена поддержка дат в формате "d.m", а то есть день и месяц. При этом автоматически подставляется текущий год.
Принимаются предложения и пожелания по дальнейшему развитию проекта. Также, если к примеру, у вас есть свой каталог ссылок и Вам бы хотелось дополнить его информацией о RSS лентах созданных Скиуром, то можно связаться со мной по ibegtin@gmail.com и договорится о бесплатном использовании API с оговоркой что оно ещё будет менятся и дорабатываться.
|
|
|
| Обновление алгоритма Скиура |
[Sep. 25th, 2008|11:16 am] |
Завершилось первое обновление алгоритма. Это обновление является промежуточным и будет дополнятся в дальнейшем.
В это обновление вошли: - поддержка 44 форматов дат (по сравнению с 20 в прошлой версии); - поддержка дат обрамлённых текстом слева или справа, например, blog.lexa.ru - ряд малых исправлений в точности интерпретации заголовков и ссылок в новостных блоках
Чего пока нет и планируется в следующем обновлении: - поддержка англоязычных дат: сейчас они собираются и анализируются
Текущие ограничения: - ряд ошибок распознавания связаны с неправильным распознаванием кодировки веб страницы, это сейчас решается. - в некоторых случаях дата в тексте новости или страницы может восприниматься как метка даты новостного блока. |
|
|
| Скиур запущен |
[Sep. 20th, 2008|03:18 pm] |
Что такое Скиур?
Скиур - это сервис и алгоритм извлечения новостных блоков из веб страниц. Он не просто отслеживает изменения на страницах, но восстанавливает даты, текст, заголовки и ссылки новости и предоставляет их в форматах RSS или ATOM максимально приближенной к той которую сайт мог бы отдавать самостоятельно.
Какова точность распознавания?
Сейчас для того чтобы восстановить новость алгоритму необходимо чтобы у каждой новостной записи присутствовала дата в поддерживаемом им формате. На сегодняшний день алгоритм поддерживает более 20 форматов дат и, по мере обнаружения, подключаются новые форматы. Если Вы уверены что на новостной странице даты присутствуют, но алгоритм не может восстановить новости с этой страницы - дайте мне знать, возможно что эта проблема имеет очень быстрое решение.
Предварительные проверки алгоритма
Примерно 22 000 сайтов по которым алгоритм проверялся, он успешно выявляет новостные блоки с головных страниц у 4600. При направленном анализе новостных страниц этих же сайтов, цифры будут ещё точнее.
Каков статус проекта?
Скиур, в текущем виде - это заведомо некоммерческий проект. Возможно что в будущем в той или иной форме он будет подвергаться коммерциализации и показу рекламы, но врядли это будет скоро, если будет вообще. Целью вывода алгоритма и сервиса на публику является апробация технологии реальными пользователями и накопление экспериментальных данных для дальнейшего его усовершенствования, соответственно сам сервис предоставляется AS IS.
Частота обновления
Сейчас частота обновления страниц составляет 2 часа. В дальнейшем, в зависимости от числа страниц, эти цифры могут меняться, но не более чем в пределах 1 суток. Всё это связано как с трафиком, так и с производительностью алгоритма. При необходимости более частых обновлений, можно связаться со мной и договорится об отдельном сервисе с более частым обновлением.
Юридические аспекты
Сервис предназначен для личного и некоммерческого использования с оговоркой на то что вебмастера могут использовать его для генерации своих RSS лент, но при трансляциях и агрегациях лент на коммерческие сайты могут применятся меры по блокировке выгрузки подобных обращений. Соответственно, вся ответственность за использование содержимого сайтов полностью лежит на пользователе как конечном потребителе информации.
Сообщество
В Livejournal было создано сообщество skyur_project в котором далее и будут происходить анонсы развития сервиса. Приходите, обсуждайте, оставляйте замечания и пожелания.
Примеры: Crbeh |
|
|