Перейти к содержимому

Фотография

Парсер. Поиск по фрагменту HTML кода.


  • Авторизуйтесь для ответа в теме
Сообщений в теме: 2

#1 EvgEvg

EvgEvg

    Новый участник

  • Members
  • Pip
  • 1 сообщений

Отправлено 01 января 2015 - 21:07

Доброго времени суток !

 

Есть сайт с альбомами в mp3. Но скачивать можно только по одной песне.
Хочу написать что-то типа парсера, который сформирует ссылки для менеджера закачек.
Возможно ли это сделать на Selenium IDE ?

Страница имеет вид:


<html>
   ... много  тегов ...

   <a href="/track/2881111/mp3/almost_like_the_blues/">Almost Like The Blues</a><br>

   ... много тегов ...

   <a href="/track/28832222/mp3/samson_in_new_orleans/">Samson In New Orleans</a><br>

   ... много тегов ...

</html>


Для менеджера закачек ссылка "/track/2881111/mp3/almost_like_the_blues/" должна преобразоваться
в строку "www.musicsite.ru/download.php?id=2881111"

Т.е. каким-то образом (регулярные выражения ?) надо
1) найти все строки,
   начинающиеся с   <a href="/track/
   и заканчивающиеся на </a><br>
2) и сохранить их в переменную, а потом в файл.

Тыкните, плиз, в команды.

Или может, есть другие возможности решить эту задачу, но не ставя громоздкие С++ , PHP ?

 


  • 0

#2 Phil_Moskalev

Phil_Moskalev

    Новый участник

  • Members
  • Pip
  • 3 сообщений
  • ФИО:Москалев Филипп

Отправлено 08 января 2015 - 16:29

python для тебя это громоздко?)


  • 0

#3 mazik7

mazik7

    Новый участник

  • Members
  • Pip
  • 63 сообщений
  • ФИО:Мазик
  • Город:Красноярск

Отправлено 10 января 2015 - 09:28

Не знаю как на счет IDE, но в Webdriver получить такую коллекцию возможно.Только скорее всего, решение задачи будет более простым). Необходимо идти совсем от другого. Нужно сначала найти блок, в котором содержится список блоков с песнями. А потом уже искать более точный путь для ссылки. Путь этот должен повторяться поэтому если не использовать уникальных идентификаторов - можно получить всю коллекцию с помощью FindElements и работать уже с этой коллекцией)


  • 0

:smile:



Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных