Версия для печати
- Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
-- Приемы работы с программой СайтСпутник (SiteSputnik) http://forum.razved.info//index.php?f=38
--- Ускорение работы СайтСпутника http://forum.razved.info//index.php?t=1992
-- tungus1973 написал 5 августа 2011 12:07
Работая с СайтСпутником, замечаю, что с каждым днём программе приходится всё тяжелее и тяжелее выполнять свою работу. Интернет разрастается, на тех же поисковиках появляется всё больше информации, а СайтСпутник - один, и ему требуется время на сбор и обработку собранных данных. Да ещё антироботы поисковиков обостряют ситуацию... Приходится мне и СайтСпутнику "метаться между нескольких огней", чтобы и информацию собрать по-максимуму и время не потерять.
Посему задумался я о возможных способах сокращения времени на сбор информации. И вот, что у меня получилось:
1. Смешивать строчки в пакетах так, чтобы поисковики чередовались и антироботы не срабатывали.
2. Делать пакеты с меньшим числом строк. Например, при поиске номера телефона объединять несколько строк в одну: ("ххх-хх-хх" | "хх-хх-ххх" | "ххх-ххх-хх").
3. Сократить лимиты времени в "Настройках". Чтобы обойти "антироботы", установить в пакетах паузы для конкретных поисковиков (например, для того же Яндекса).
4. Настроить поисковики на выдачу максимума результатов. Скажем, для Яндекса сделать выдачу не 10 результатов на странице, а максимум - 50 результатов. Для этого запускаете "Internetr Explorer" ("СайтСпутник" построен на основе "IE") открываете поисковик, в его настройках вводите новые значения.Таким образом обращений к Яндексу будет меньше и уменьшатся потери времени на "антироботы".
Возможно, есть ещё какие-то приёмы повышения скорости работы программы?
-- Игорь Нежданов написал 6 августа 2011 16:00
tungus1973 написал:[q]
Работая с СайтСпутником, замечаю, что с каждым днём программе приходится всё тяжелее и тяжелее выполнять свою работу.[/q]
Да уж - я СайтСпутник запускаю в 22 - 23 часа и к моему приходу на работу он выдает нужные мне материалы. Но это что касается ежедневного мониторинга. А вот разовые задачки бывают всякие...
-- CI-KP написал 13 августа 2011 11:28
tungus1973 написал:[q]
1. Смешивать строчки в пакетах так, чтобы поисковики чередовались и антироботы не срабатывали.[/q]
Лучший способ, на мой взгляд. Я так делаю с самого начала. Потому что поисковик не любит именно многочисленные запросы с операторами. А когда их мало - он не ставит препонов.
Неплохо работало бы объединение СайтСпутника со скриптом, подключающим-отключающим 3G-модем. Тогда бы менялся айпишник и поисковики чувствовали себя совсем спокойно.
-- Vinni написал 13 августа 2011 19:19
CI-KP написал:[q]
Неплохо работало бы объединение СайтСпутника со скриптом, подключающим-отключающим 3G-модем.[/q]
Тогда в СайтСпутнике нужна новая фича, которой сейчас нет - вызов внешней программы до или после выполнения отдельного запроса
А реализовать такое отключение кстати просто - есть такая многофункциональная программа nircmd (с nirsoft.net)
-- Игорь Нежданов написал 14 августа 2011 13:14
Коллеги, я запускаю СайтСпутник на ночь. Он у меня отрабатывает часов 5 - 6 (в зависимости от количества нового). И вроде "застреваний" из за паранойи поисковиков не наблюдается. Ограничился перемешиванием запросов внутри пакета.
-- Алексей Мыльников написал 15 августа 2011 19:30
Vinni написал:[q]
Тогда в СайтСпутнике нужна новая фича, которой сейчас нет - вызов внешней программы до или после выполнения отдельного запроса[/q]
Это типа "Выполнить..." из меню кнопки "ПУСК" ОС Windows?
-- Vinni написал 16 августа 2011 11:36
Алексей Мыльников написал:[q]
Это типа "Выполнить..." из меню кнопки "ПУСК" ОС Windows? [/q]
Нет. "Выполнить" из меню - это для ручного запуска программ.
А здесь нужно добавить строковую опцию в настройки, в которой задавать имя файла с программой, который будет запускаться (лучше через командную оболочу, чтобы bat-файлы можно было запускать). Программисты иногда называют такие вещи callback.
И при обработке пакета запросов после (или перед?) выполнения каждого запроса CC должен сам анализировать эту опцию и если она непустая, то запускать "cmd.exe /c имя_программы", дожидаться ее завершения и продолжать работу.
Как-то таг.
-- Алексей Мыльников написал 16 августа 2011 12:26
Vinni написал:[q]
Как-то таг. [/q]
Нет такая функция мне не нравится:
- надо помнить с каком пакете какую прицеплять,
- менять её или убирать, запуская следующий пакет,
- не факт, что эта функция нужна после каждого запроса в пакете,
- доступна только одна функция <что> на весь пакет,
- если в Планировщике задействовано несколько пакетов, требующих разные функции, то вообще попадаем в патовую ситуацию.
Лучше сделать ^^Выполнить: <что>
Её можно будет вставлять несколько раз с несколькими разными <что> в один пакет, "отладить" его и "забыть" об этом.
-- Vinni написал 16 августа 2011 12:43
Алексей Мыльников написал:[q]
Лучше сделать ^^Выполнить: <что>
Её можно будет вставлять несколько раз с несколькими разными <что> в один пакет, "отладить" его и "забыть" об этом. [/q]
Конечно так лучше
-- Игорь Нежданов написал 16 августа 2011 22:18
Да - это хороший вариант.
-- Алексей Мыльников написал 25 августа 2011 14:36
Vinni написал:[q]
Алексей Мыльников написал:
[q]
Лучше сделать ^^Выполнить: <что>
Её можно будет вставлять несколько раз с несколькими разными <что> в один пакет, "отладить" его и "забыть" об этом. [/q]
Конечно так лучше [/q]
В версии 7.2.2 от 25.08.11 реализована команды "Выполнить", "Пауза" и "Стоп".
Пояснения на наглядном примере.
ПАКЕТ ЗАПРОСОВ.
01. Праймериз || Google=3
02. ^^Выполнить: C:\Program Files\Total Commander\Totalcmd.exe
03. ^^Выполнить: Пауза=40
04. Яндеск деньги || Yandex=2
05. ^^Выполнить: Пауза=10
06. ^^Выполнить: regedit
07. ^^Выполнить: стоп №1
08. Василий Тёркин || Rambler=3
09. ^^Выполнить: sitesputnik.ru/
10. ^^Выполнить: Пауза=30
11. ^^Выполнить: C:\Documents and Settings
12. Микрософт || MSN=4
13. Apple || Yahoo=1
14. ^^Выполнить: C:\Documents and Settings\SSputnik\Рабочий стол\Срочно.txt
15. ^^Выполнить: Пауза=120
16. ^^Выполнить: Rundll32.exe shell32.dll Control_RunDLL inetcpl.cpl,,4
17. ^^Выполнить: Стоп
18. Яндеск утечка с Мегафона || Yandex=3
19. ^^Выполнить: Стоп Весь процесс
ПОСЛЕДОВАТЕЛЬНОСТЬ выполнения пакета.
01. Поиск по Гуглю на глубину 3 страницы.
02. Открытие "Total Commander".
03. Пауза. СайтСпутник остановится на 40 секунд. Затем продолжит работу.
04. Поиск по Яндексу на глубину 2 страницы.
05. Пауза 10 секунд.
06. Откроется системная программа "Редактор регистра".
07. Стоп. СайтСпутник остановится. Продолжение работы только по нажатию клавиши "OK".
08. Поиск по Рамблеру.
09. Открытие сайта sitesputnik.ru/ в браузере, установленном по умолчанию.
10. Пауза 30 секунд.
11. Открытие папки Проводником
12. Поиск в Бинге (Bing, MSN) на грубину 4 страницы.
13. Поиск в Яху по первой странице.
14. Открытие файла "Срочно.txt", размещенного на Рабочем столе.
15. Пауза двухминутная.
16. Открытие "Свойство обозревателя", вкладка "Подключение".
17. Стоп.
18. Поиск по Яндексу на глубину 3 страницы.
19. Стоп.
-- tungus1973 написал 25 августа 2011 16:42
Алексей Борисович, нет слов..
Снимаю шляпу!
-- Sergey написал 26 августа 2011 10:26
Алексей, а просто работа через прокси разве не решает задачу?
-- Алексей Мыльников написал 26 августа 2011 14:20
Пока этим не занимался.
-- Vinni написал 27 августа 2011 0:03
Sergey написал:[q]
Алексей, а просто работа через прокси разве не решает задачу?
[/q]
Так это как раз облегчит синхронизацию запросов с переключением прокси
Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект