1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.

Не парсится полная статья из топа

Тема в разделе "Ошибки , Баги, Проблемы", создана пользователем elf, 11 ноя 2015.

  1. elf

    elf Участник

    Функция [google_full_article] не отрабатывает, статья не парсится. Чувствую дело в каком-то пустяке, а понять не могу в чем трабл.
     
  2. Firestarter

    Firestarter Администратор Команда форума

    3 минуты у себя проверял работало. ХЗ как часто к ПС обращаетесь? Может еще и ключи какие длинные?
     
  3. GrafMK

    GrafMK Активный Участник

    Тоже парсит без проблем.
    Может просто по вашему запросу статьи нет. Или есть но на сайте с заковыристой версткой.
     
  4. elf

    elf Участник

    ключи длинные
    Таки да. все именно так. По коротким ключам и если есть статья - она парсится.
    Просто мне чуток подумать надо было своей головой.
    Всем огромное спасибо.
     
    GrafMK нравится это.
  5. Roman

    Roman Участник

    Привет. А на сколько длинные ключи? 4-5 слов?
     
  6. elf

    elf Участник

    ключи были длиннее 4-х слов (вроде бы:), но нужно чтобы и статья для парсинга по запросу была
     
  7. lirikpas

    lirikpas Участник

    может по этому не парсится?

    Посмотрел код доргена, а там полная статься парсится с помощью сервиса http://boilerpipe-web.appspot.com/
    Зашел я туда, почитал и:

    Limitations
    Please note: Due to heavy use of this free service in the past, the number of requests per user is limited.
    The restriction can be removed by purchasing a commercial license for this Web API directly from Kohlschütter Search Intelligence for a modest fee.


    Ограничения
    Обратите внимание: Из-за интенсивного использования этой бесплатной услуги в прошлом, количество запросов на одного пользователя ограничено.
    Ограничение может быть удален при покупке коммерческой лицензии для данного веб-API непосредственно из Kohlschütter поисковой разведке за скромную плату.
     
  8. Firestarter

    Firestarter Администратор Команда форума

    Абсолютно верно. Кроме этого сервиса, есть еще Яндекр rich api. Но его закрывают. Так что пока альтернетив нету:(
     
  9. dexter

    dexter Участник

    Не нашел у boilerpipe размер ограничений. Но за сегодняшний день все full_story пустые. Кто-нибудь может подсказать какое там ограничение на получение статей ? У ребят из Kohlschütter вообще ощущение что на ресурс забили последние записи в блоге за 2011 год. Нигде не нашел там упоминаний про возможность оплатить API. Возможна ли реализация подгрузки полных статей из локальных файлов ?
     
  10. lirikpas

    lirikpas Участник

    написал локальный парсер полных статей, скинул ТС. Если одобрить тогда может прикрутить в дорген
     
    mutogenn4eg и elf нравится это.
  11. Roman

    Roman Участник

    Да, перестали полные парсится. :(
     
  12. mutogenn4eg

    mutogenn4eg Участник

    У меня полные парсятся вместе с разметкой, например жирные шрифты и т... Это так задумано?
     
  13. Roman

    Roman Участник

    Как есть статья так она и отображается.
    Ща попробую полные включить может уже парсится.
     
  14. Roman

    Roman Участник

    Ооо!! Yahoo пошел парсить. Надо все же давать отдых тандеру.
     
  15. mutogenn4eg

    mutogenn4eg Участник

    Я понял, что как есть, но в принципе программно можно скинуть все теги из текста, например, через strip_tags. Не смотрел как это реализовано, но мне кажется внедрить можно.
     
  16. Firestarter

    Firestarter Администратор Команда форума

    В Тандере режуться именно через strip_tags. вообще конечно грамотно резать через Purifier, но я никак не могу пока приделать.
    Так точно, я вообще поставил отложку в 5 минут. Банов нету и контент растет норм.
     
  17. mutogenn4eg

    mutogenn4eg Участник

    Отложка это по крону или через параметр?
     
  18. Firestarter

    Firestarter Администратор Команда форума

    Через параметр. Доры - дропы. Ботов много, крон не нужен;)
     
  19. mutogenn4eg

    mutogenn4eg Участник

    А как боты по ключам переходят, ведь насколько я понял на странице выводятся ссылки на ключи из подсказок к запросу, а оригинальные, первоначальные ключи только в файле. Или они все таки где-то есть?
     
  20. Firestarter

    Firestarter Администратор Команда форума

    Дорген вытаскиет ключ из УРЛа
     

Поделиться этой страницей