Версия для печати
- Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
-- Приемы работы с программой СайтСпутник (SiteSputnik) http://forum.razved.info//index.php?f=38
--- Поиск перебором в SiteSputnik News http://forum.razved.info//index.php?t=5932
-- Алексей Мыльников написал 12 декабря 2016 11:02
Поиск перебором доступен в SiteSputnik News v.9.2.4.
Эта функция достаточно близка к функции поиска ссылок по образу и подобию из SiteSputnik Invisible (http://sitesputnik.ru/Help/SSInvisible.htm), но не является её повторением.
Поиск перебором – это попытка открыть множество ссылок, адреса которых удовлетворяют очень простому регулярному выражению, и в случае удачного открытия ссылок проверить их контент на удовлетворение правилам попадания в одну или несколько Рубрик.
Другими словами, Поиск перебором позиционируется и ориентирован не на поиск адресов невидимых ссылок (хотя и умеет это делать), а на поиск нужной информации и источников информации.
При необходимости можно реализовать полноценное регулярное выражение как это сделано в Правилах попадания в Рубрики (http://forum.razved.info/index.php?t=5258&p=53043#pp53043).
Рассмотрим Поиск перебором на нескольких примерах. Если у Вас есть SiteSputnik News и выше, то Вы можете скопировать любой Проект из любого примера, приведенного ниже, и выполнить его на своем компьютере.
Продолжение следует ...
-- Алексей Мыльников написал 12 декабря 2016 11:07
Пример 1. Следующий Проект состоит всего из трех строк:
http://interfax-russia.ru/Moscow/main.asp?id=0009{0-9}{0-9} +
Рубрика://Люди/Онищенко
Геннадий /2 Онищенко
Конструкция {0-9} означает, что вместо неё нужно последовательно подставить все цифры от 0 до 9.
Этот Проект осуществит просмотр на Интерфаксе в папке Moscow 100 ссылок:
от http://interfax-russia.ru/Moscow/main.asp?id=000900
до http://interfax-russia.ru/Moscow/main.asp?id=000999
и в Рубрику «Люди/Онищенко» поместит ссылки, в которых упомянут Геннадий Онищенко
Таких ссылок две (смотрите соответствующую выдачу СайтСпутника (http://sitesputnik.ru/Files/Onishchenko.htm)).
Все ссылки относятся к 03 сентября 2009 года.
Это был Поиск перебором в ссылках из прошлого.
Можно «караулить» ссылки из будущего, точнее ссылки которые набраны, но ещё не переданы в новостные ленты, или их адрес ещё не разместили на какой-нибудь другой видимой ссылке. Например, на момент 09.12.2016 00:26:49 для десяти ссылок определяемых выражением: http://interfax-russia.ru/Moscow/main.asp?id=79053{0-9} +
были видны первые три ссылки из десяти (смотрите соответствующую выдачу СайтСпутника (http://sitesputnik.ru/Files/IFax_New_003.htm)).
То есть, используя Поиск перебором, можно раньше, чем обычным способом получить доступ к нужной информации. Например, это может быть использовано при работе с некоторыми досками объявлений для того, чтобы получить сведения по товару или услуге раньше, чем другие, и воспользоваться ими. Другой случай, готовится очередной онлайн-номер сборника статей и часть статей или все статьи уже набраны и размещены на сайте, но сам онлайн-номер со ссылками на них не сдан в «печать».
Пока я набирал эти строки на момент 09.12.2016 0:46:07 в указанном выше десятке уже 6 ссылок (смотрите соответствующую выдачу СайтСпутника (http://sitesputnik.ru/Files/IFax_New_006.htm)).
Думаю, что принцип понятен, и можно найти другие ситуации, в которых рационально применить Поиск перебором.
Продолжение следует ...
-- Алексей Мыльников написал 12 декабря 2016 11:09
Пример 2. Берём данный форум. Выполняем Проект из трех строк:
forum.razved.info/index.php?f={1-12} +
Рубрика://Бизнес-разведка/Страница недоступна
(страница | раздел) /7 (недоступна | не /1 (существует | создана) | удалена)
В Рубрике «Бизнес-разведка/Страница недоступна» видим (смотрите соответствующую выдачу СайтСпутника (http://sitesputnik.ru/Files/Forum_SKPR.htm)), что есть страницы (разделы), которые или не существуют (зарезервировованы) или у меня нет к ним права доступа. Можно сделать много разных переборов по форуму.
Продолжение следует ...
-- Алексей Мыльников написал 12 декабря 2016 11:11
Пример 3. Пробуем ссылку с Avita в Проекте из 2-х строк:
https://www.avito.ru/volgograd/kvartiry/1-k_kvartira_32_m_89_et._87270935{0-9} +
^^Новости;
Получаем информацию к размышлению (смотрите соответствующую выдачу СайтСпутника (http://sitesputnik.ru/Files/Avita_010.htm)). Кроме одной ссылки на однокомнатную квартиру в Волгограде (она 9-я), что соответствует имени ссылки, остальные 9 имеют самые неожиданные контенты, а именно: квартира, но в Краснодаре, брюки спортивные, шины зимние, кольцо с аметистом, прессформа, электрокачели в Москве, Рязани, Краснодаре или в Кантемировке. Если я правильно понял, то параметр «_et._число» какой-то особенный. Если им позаниматься, поэкспериментировать, то может быть удастся получить какую-то пользу.
Пробовал перебрать:
https://www.avito.ru/ _et._87270935{0-9} +
https://www.avito.ru/volgograd/kvartiry/_et._87270935{0-9} +
https://www.avito.ru/krasnodar/kvartiry/1-k_kvartira_32_m_89_et._87270935{0-9} +
Первые 10 ссылок не существуют, что вполне логично, вторые и третьи 10 ссылок существуют и отдают тот же контент, что и 10 ссылок из рассматриваемого Проекта, что, по-моему, нелогично.
Продолжение следует ...
-- Алексей Мыльников написал 12 декабря 2016 11:13
Пример 4. Поиск перебором на личных страницах ВКонтакте:
https://vk.com/id103859Х0{0-9}{0-9}{0-9} +
Рубрика://Контакты/Телефон
%Телефоны
Рубрика://Контакты/Е-майл
%ПочтаЭлектронная
В этом Проекте были просмотрены 1000 личных страниц. Те странички, на которых указаны телефоны и E-мейлы, соответственно, попали в Рубрики «Контакты/Телефоны» и «Контакты/ Е-майл». Здесь при рубрикации применялся объектный поиск, где %Телефоны и %ПочтаЭлектронная - произвольный номер телефона и произвольный адрес электронной почты. Подчеркиваю – произвольный, а не конкретный. Телефонов нашлось 28 (смотрите соответствующую выдачу СайтСпутника (http://sitesputnik.ru/Files/Telefon_28.htm)), Е-майлов -4.
Если будете делать что-то аналогичное, Вам также как и мне, наверное, придется в «Настройках» Проекта отменить скачивание ссылок Менеджером скачивания ссылок и поставить паузу в 2 секунды между загрузками страниц, иначе ВКонтакте не отдаст контент ссылки, а «молча» сообщит, что Вы сделали более одного однотипного запроса в секунду.
Продолжение следует ...
-- Алексей Мыльников написал 12 декабря 2016 11:18
Пример 5. Поиск в Фейсбуке.
Поиск перебором в группах:
https://www.facebook.com/groups/5759708925614{0-9}{0-9}/
Рубрика://Классы/Источники/Соцсети/ФейсБук/Группы/Закрытая
Закрытая /1 группа
Рубрика://Классы/Источники/Соцсети/ФейсБук/Группы/Открытая
(Открытая | Общедоступная) /1 группа
Поиск перебором личных страничек:
https://www.facebook.com/profile.php?id=1000017534857{0-9}{0-9} +
Рубрика://Рекрутинг/По профессиям/Бухгалтер
Бухгалтер | '1С' | '1C'
Выдача для Рубрики Бухгалтерия на ссылке (http://sitesputnik.ru/Files/Buhgalter_01.htm).
Блокировка на неделю произошла ориентировочно после 1000 обращений к ФБ в течение нескольких минут с одного аккаунта. Использовался Менеджер скачивания ссылок. Поэтому экспериментировать нужно с оглядкой, возможно, отключив Менеджер. Можно создать дополнительный аккаунд в ФБ, залогиниться в нем в IE или СайтСпутнике и работать без оглядки (работа с ФБ с основного Вашего аккауда не пострадает).
Продолжение следует ...
-- Алексей Мыльников написал 12 декабря 2016 11:20
Подстановки, которые могут быть использованы в Поиске перебором на момент публикации данного сообщения следующие:
{0-12} – это последовательная подстановка чисел: 0, 1, 2, ..., 12.
{doc;xls;xlsx} – это последовательная подстановка конкретных значений: doc, xls и xlsx.
Обе подстановки в одном Проекте можно применять одновременно и многократно. В этом случае нужно следить, чтобы не породить сотни тысяч и более перебираемых ссылок.
По-моему, получается достаточно простой и интересный инструмент не только для поиска информации и источников информации, но и для исследования особенностей сайтов.
Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект