Перейти к содержимому

Selen34

Регистрация: 31 июл 2016
Offline Активность: 20 янв 2017 04:42
-----

Мои темы

Как использовать куки internet explorer после аутентификации на сайте

18 января 2017 - 04:30

ИСПОЛЬЗУЕТСЯ: С#

 

СЦЕНАРИЙ:

  1. Internet explorer. Заходим на сайт через браузер

Вводим логин, пароль, капчу.

  1. КОД. Используя куки Internet explorer программно, кодом начинаем парсить сайт.

Браузер для парсинга не используется

 

ВОПРОС

  1. Как использовать куки internet explorer после аутентификации на сайте для последующего программного парсинга страниц сайта?

Т.е. интересует пример кода или ссылка на пример…

Перепробовал несколько вариантов, но что-то не срабатывает.


Можно ли использовать куки, чтобы потом не вводить капчу?

16 января 2017 - 16:22

ИСПОЛЬЗУЕТСЯ: С#, WebDriver (при необходимости)

 

Хочу написать парсер, который будет скачивать информацию программно (без браузера).

Но у некоторых сайтов бывает навароченная капча.

 

Чтобы не возится с проходом капчи программно, можно ли реализовать следующий сценарий?

 

СЦЕНАРИЙ:

  1. Заходим на сайт через браузер (либо штатным браузером C# или с использованием WebDriver );
  2. Проходим капчу в ручную;
  3. Копируем куки;
  4. Далее программой начинаем парсить.

 Запросы для парсинга отправляются с ранее сформированными куки.

 

ВОПРОС

  1. Возможно ли реализовать данный сценарий?

 

 

PS

Только осваиваю, поэтому могут быть неточности в формулировке вопроса и терминологии.


Как скопировать (спарсить) DOM страницы?

06 января 2017 - 13:47

ИСПОЛЬЗУЕТСЯ: WebDriver, С#, Google chrome

 

ВОПРОС

  1. Как скопировать (спарсить) DOM страницы?

Как получить доступ к ссылке div / iframe / [a]?

30 декабря 2016 - 10:53

Используется: WebDriver, С#
 
При рассмотрении кода страницы в Хроме, выражение css selector "#watch7-sidebar-ads iframe" подсвечивает iframe.
Как сделать чтобы подсвечивалось и a[id="aw0"], которое находится в iframe.
 
Причём нужно, чтобы выделялось любое "a", невзирая на id, т.к. id тоже может меняться.
id iframe тоже периодически меняется в зависимости от обновления страницы.
 
ВОПРОС
1. Как получить доступ через css selector к элементу  "a", который находится в iframe?
2. Можно ли получить доступ к "a" не переключая код на iframe, а напрямую через cssselector?
 
 
Код страницы
<div id="companion_ad_div" style="visibility: visible;"> 
	<iframe id="ads_frame1" name="_ads_frame1" width="undefined" height="250" frameborder="0" src="ссылка.... УДАЛИЛ" marginwidth="0" marginheight="0" vspace="0" hspace="0" allowtransparency="true" scrolling="no" allowfullscreen="true" cd_frame_id_="91434f5dfcf870257070e9f48c769cf7"> 
#document
<!DOCTYPE html> 
	<html>
		<head>
			<script>var casm=["",0,null,0];</script>
			<style> ... </style>
			<script>/--> </script>
		</head>
		<body leftmargin="0" topmargin="0" marginwidth="0" marginheight="0" style="background:transparent">
			<div id="_image_div" style="height: 250px; width: 300px; overflow:hidden; position:absolute">
				<a id="aw0" target="_blank" href="https://site.g.doubleclick.net/aclk?sa=L&amp;ai=CQAOob5RGWLKpN5GzmAT6xqnIBP2ciMVH1MvCldsE/"><img src="https://tpc.syndication.com/simgad/14397548859480715033" border="0" width="300" alt="" class="img_ad" onload="">
				</a>
			</div>
		</body>
	</html>
	</iframe>
</div>


Как скачать всё, что находится в div ?

27 декабря 2016 - 19:22

Страница содержит

<div class="controls">

<div class="adDisplay extra-padding">

<div class="container" id="1454894148_ima" style="width:728px;height:90px;">

<a target="_blank" href="https://www. site.com/pagead/aclk?

</a>

</div>

</div>

</div>

 

Между  <div class="controls">  и <a target="_blank"  количество <div> постоянно меняется

 

ВОПРОС

  1. Как добраться до <a target="_blank" >, чтобы потом извлечь из href ссылку?

или

      2. Как скопировать всё что находится в <div class="controls">, чтобы потом извлечь ссылку из <a target="_blank" >?