Версия для печати

-   Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
--  Приемы работы с программой СайтСпутник (SiteSputnik) http://forum.razved.info//index.php?f=38
--- Ускорение работы СайтСпутника http://forum.razved.info//index.php?t=1992




-- tungus1973 написал 5 августа 2011 12:07
Работая с СайтСпутником, замечаю, что с каждым днём программе приходится всё тяжелее и тяжелее выполнять свою работу. Интернет разрастается, на тех же поисковиках появляется всё больше информации, а СайтСпутник - один, и ему требуется время на сбор и обработку собранных данных. Да ещё антироботы поисковиков обостряют ситуацию... Приходится мне и СайтСпутнику "метаться между нескольких огней", чтобы и информацию собрать по-максимуму и время не потерять.

Посему задумался я о возможных способах сокращения времени на сбор информации. И вот, что у меня получилось:

1. Смешивать строчки в пакетах так, чтобы поисковики чередовались и антироботы не срабатывали.

2. Делать пакеты с меньшим числом строк. Например, при поиске номера телефона объединять несколько строк в одну: ("ххх-хх-хх" | "хх-хх-ххх" | "ххх-ххх-хх").

3. Сократить лимиты времени в "Настройках". Чтобы обойти "антироботы", установить в пакетах паузы для конкретных поисковиков (например, для того же Яндекса).

4. Настроить поисковики на выдачу максимума результатов. Скажем, для Яндекса сделать выдачу не 10 результатов на странице, а максимум - 50 результатов. Для этого запускаете "Internetr Explorer" ("СайтСпутник" построен на основе "IE") открываете поисковик, в его настройках вводите новые значения.Таким образом обращений к Яндексу будет меньше и уменьшатся потери времени на "антироботы".

Возможно, есть ещё какие-то приёмы повышения скорости работы программы?


-- Игорь Нежданов написал 6 августа 2011 16:00

tungus1973 написал:
[q]
Работая с СайтСпутником, замечаю, что с каждым днём программе приходится всё тяжелее и тяжелее выполнять свою работу.
[/q]


Да уж - я СайтСпутник запускаю в 22 - 23 часа и к моему приходу на работу он выдает нужные мне материалы. Но это что касается ежедневного мониторинга. А вот разовые задачки бывают всякие...




-- CI-KP написал 13 августа 2011 11:28

tungus1973 написал:
[q]
1. Смешивать строчки в пакетах так, чтобы поисковики чередовались и антироботы не срабатывали.
[/q]

Лучший способ, на мой взгляд. Я так делаю с самого начала. Потому что поисковик не любит именно многочисленные запросы с операторами. А когда их мало - он не ставит препонов.

Неплохо работало бы объединение СайтСпутника со скриптом, подключающим-отключающим 3G-модем. Тогда бы менялся айпишник и поисковики чувствовали себя совсем спокойно.


-- Vinni написал 13 августа 2011 19:19

CI-KP написал:
[q]
Неплохо работало бы объединение СайтСпутника со скриптом, подключающим-отключающим 3G-модем.
[/q]


Тогда в СайтСпутнике нужна новая фича, которой сейчас нет - вызов внешней программы до или после выполнения отдельного запроса :wonder1:
А реализовать такое отключение кстати просто - есть такая многофункциональная программа nircmd (с nirsoft.net) :wink:


-- Игорь Нежданов написал 14 августа 2011 13:14
Коллеги, я запускаю СайтСпутник на ночь. Он у меня отрабатывает часов 5 - 6 (в зависимости от количества нового). И вроде "застреваний" из за паранойи поисковиков не наблюдается. Ограничился перемешиванием запросов внутри пакета.


-- Алексей Мыльников написал 15 августа 2011 19:30

Vinni написал:
[q]
Тогда в СайтСпутнике нужна новая фича, которой сейчас нет - вызов внешней программы до или после выполнения отдельного запроса
[/q]

Это типа "Выполнить..." из меню кнопки "ПУСК" ОС Windows?


-- Vinni написал 16 августа 2011 11:36

Алексей Мыльников написал:
[q]
Это типа "Выполнить..." из меню кнопки "ПУСК" ОС Windows?
[/q]


Нет. "Выполнить" из меню - это для ручного запуска программ.
А здесь нужно добавить строковую опцию в настройки, в которой задавать имя файла с программой, который будет запускаться (лучше через командную оболочу, чтобы bat-файлы можно было запускать). Программисты иногда называют такие вещи callback.
И при обработке пакета запросов после (или перед?) выполнения каждого запроса CC должен сам анализировать эту опцию и если она непустая, то запускать "cmd.exe /c имя_программы", дожидаться ее завершения и продолжать работу.

Как-то таг. :wink:


-- Алексей Мыльников написал 16 августа 2011 12:26

Vinni написал:
[q]
Как-то таг.
[/q]

Нет такая функция мне не нравится:
- надо помнить с каком пакете какую прицеплять,
- менять её или убирать, запуская следующий пакет,
- не факт, что эта функция нужна после каждого запроса в пакете,
- доступна только одна функция <что> на весь пакет,
- если в Планировщике задействовано несколько пакетов, требующих разные функции, то вообще попадаем в патовую ситуацию.

Лучше сделать ^^Выполнить: <что>
Её можно будет вставлять несколько раз с несколькими разными <что> в один пакет, "отладить" его и "забыть" об этом.


-- Vinni написал 16 августа 2011 12:43

Алексей Мыльников написал:
[q]
Лучше сделать ^^Выполнить: <что>
Её можно будет вставлять несколько раз с несколькими разными <что> в один пакет, "отладить" его и "забыть" об этом.
[/q]


Конечно так лучше :good:



-- Игорь Нежданов написал 16 августа 2011 22:18
Да - это хороший вариант.


-- Алексей Мыльников написал 25 августа 2011 14:36

Vinni написал:
[q]

Алексей Мыльников написал:
[q]
Лучше сделать ^^Выполнить: <что>
Её можно будет вставлять несколько раз с несколькими разными <что> в один пакет, "отладить" его и "забыть" об этом.
[/q]


Конечно так лучше
[/q]


В версии 7.2.2 от 25.08.11 реализована команды "Выполнить", "Пауза" и "Стоп".

Пояснения на наглядном примере.

ПАКЕТ ЗАПРОСОВ.

01. Праймериз || Google=3
02. ^^Выполнить: C:\Program Files\Total Commander\Totalcmd.exe
03. ^^Выполнить: Пауза=40
04. Яндеск деньги || Yandex=2
05. ^^Выполнить: Пауза=10
06. ^^Выполнить: regedit
07. ^^Выполнить: стоп №1
08. Василий Тёркин || Rambler=3
09. ^^Выполнить: sitesputnik.ru/
10. ^^Выполнить: Пауза=30
11. ^^Выполнить: C:\Documents and Settings
12. Микрософт || MSN=4
13. Apple || Yahoo=1
14. ^^Выполнить: C:\Documents and Settings\SSputnik\Рабочий стол\Срочно.txt
15. ^^Выполнить: Пауза=120
16. ^^Выполнить: Rundll32.exe shell32.dll Control_RunDLL inetcpl.cpl,,4
17. ^^Выполнить: Стоп
18. Яндеск утечка с Мегафона || Yandex=3
19. ^^Выполнить: Стоп Весь процесс

ПОСЛЕДОВАТЕЛЬНОСТЬ выполнения пакета.

01. Поиск по Гуглю на глубину 3 страницы.
02. Открытие "Total Commander".
03. Пауза. СайтСпутник остановится на 40 секунд. Затем продолжит работу.
04. Поиск по Яндексу на глубину 2 страницы.
05. Пауза 10 секунд.
06. Откроется системная программа "Редактор регистра".
07. Стоп. СайтСпутник остановится. Продолжение работы только по нажатию клавиши "OK".
08. Поиск по Рамблеру.
09. Открытие сайта sitesputnik.ru/ в браузере, установленном по умолчанию.
10. Пауза 30 секунд.
11. Открытие папки Проводником
12. Поиск в Бинге (Bing, MSN) на грубину 4 страницы.
13. Поиск в Яху по первой странице.
14. Открытие файла "Срочно.txt", размещенного на Рабочем столе.
15. Пауза двухминутная.
16. Открытие "Свойство обозревателя", вкладка "Подключение".
17. Стоп.
18. Поиск по Яндексу на глубину 3 страницы.
19. Стоп.



-- tungus1973 написал 25 августа 2011 16:42
Алексей Борисович, нет слов.. :good:
Снимаю шляпу! :hi:


-- Sergey написал 26 августа 2011 10:26
Алексей, а просто работа через прокси разве не решает задачу?


-- Алексей Мыльников написал 26 августа 2011 14:20
Пока этим не занимался.


-- Vinni написал 27 августа 2011 0:03

Sergey написал:
[q]
Алексей, а просто работа через прокси разве не решает задачу?

[/q]


Так это как раз облегчит синхронизацию запросов с переключением прокси


Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект