Перейти к содержимому

Фотография

XPath отлично находит на одном сайте и "в упор" не видит на дв


  • Авторизуйтесь для ответа в теме
Сообщений в теме: 5

#1 Rescator

Rescator

    Новый участник

  • Members
  • Pip
  • 2 сообщений
  • ФИО:Дмитрий

Отправлено 26 декабря 2019 - 17:09

Привет друзья! Есть проблема, не могу найти решение (наверное потому что я дилетант в XPath).

Дано Google Sheet таблица и запрос IMPORTXML в ней по поиску с синтаксисом XPath.

 

На страницах моделей велосипеда Specialized - поиск работает отменно. Ищет идеально. 

https://www.speciali...r=270541-171353

 

такой запрос отлично выдает в таблицу все технические характеристики велосипеда и размеры - все работает как положено:

=IMPORTXML("https://www.specialized.com/us/en/s-works-tarmac-discsagan-collection-overexposed-ltd/p/171353?color=270541-171353","//div//tr")

Однако на страницах сайта велосипедов Trek 

 

https://archive.trek...11_c_h2/details

 

Вот этот запрос:

=importxml("https://archive.trekbikes.com/us/en/2017/Trek/11_c_h2#/us/en/2017/Trek/11_c_h2/details", "//div[@class='column']/p[@class='attribute-value']")

выдает N/A - хотя должен четко выдавать строчки с техническими характеристиками

 

Проверка по запросу 

=importxml("https://archive.trekbikes.com/us/en/2017/Trek/11_c_h2#/us/en/2017/Trek/11_c_h2/details", "//p")

показала что поиск вообще не видит целый кусок из середины страницы. (Выдает только то, что под тегом <p> в самом начале и в внизу страницы - а в центре все теги <p> не видит вообще).

 

То же самое происходит и на этой странице (тот же самый велосипед, только на другом сайте)

 

https://www.bicycleb...roduct/3075130/

 

поиск просто не видит то, что в середине... 

 

Подскажите, как решить. Работа встала :)

 

 

 


  • 0

#2 Freiman

Freiman

    Профессионал

  • Members
  • PipPipPipPipPipPip
  • 1 591 сообщений
  • ФИО:Андрей Адеркин
  • Город:Йошкар-Ола

Отправлено 26 декабря 2019 - 19:16

Есть у меня подозрение, что на первом сайте весь нужный контент грузится сразу, а на двух других подгружается после загрузки страницы джаваскриптом. А гуглотаблицы не любят джаваскрипт, поэтому такая вот ерунда.
  • 0

#3 Rescator

Rescator

    Новый участник

  • Members
  • Pip
  • 2 сообщений
  • ФИО:Дмитрий

Отправлено 26 декабря 2019 - 19:33

Есть у меня подозрение, что на первом сайте весь нужный контент грузится сразу, а на двух других подгружается после загрузки страницы джаваскриптом. А гуглотаблицы не любят джаваскрипт, поэтому такая вот ерунда.

 

Мне тоже так показалось... Может посоветуете чего? (Какой-нибудь delay установить?)... Или буферную страницу создавать (не знаю что сказал - но возможно подойдет) Ж)


  • 0

#4 Freiman

Freiman

    Профессионал

  • Members
  • PipPipPipPipPipPip
  • 1 591 сообщений
  • ФИО:Андрей Адеркин
  • Город:Йошкар-Ола

Отправлено 26 декабря 2019 - 20:56

Не поможет :) разве что каким-то другим способом работать
  • 0

#5 sergueik

sergueik

    Постоянный участник

  • Members
  • PipPipPip
  • 166 сообщений
  • ФИО:кузьмин сергей

Отправлено 31 декабря 2019 - 04:44

просветите меня пожалуйста кто знает
какие есть более лучшие альтернативы  Google Sheets , importXML ? 

как печально  если оно не понимает динамических страниц 


  • 0

#6 Freiman

Freiman

    Профессионал

  • Members
  • PipPipPipPipPipPip
  • 1 591 сообщений
  • ФИО:Андрей Адеркин
  • Город:Йошкар-Ола

Отправлено 31 декабря 2019 - 08:33

Выбор альтернативы зависит от того, какая задача перед вами стоит
  • 0


Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных