Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Поиск перебором в SiteSputnik News |
<<Назад Вперед>> | Печать |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Эта функция достаточно близка к функции поиска ссылок по образу и подобию из SiteSputnik Invisible, но не является её повторением. Поиск перебором – это попытка открыть множество ссылок, адреса которых удовлетворяют очень простому регулярному выражению, и в случае удачного открытия ссылок проверить их контент на удовлетворение правилам попадания в одну или несколько Рубрик. Другими словами, Поиск перебором позиционируется и ориентирован не на поиск адресов невидимых ссылок (хотя и умеет это делать), а на поиск нужной информации и источников информации. При необходимости можно реализовать полноценное регулярное выражение как это сделано в Правилах попадания в Рубрики. Рассмотрим Поиск перебором на нескольких примерах. Если у Вас есть SiteSputnik News и выше, то Вы можете скопировать любой Проект из любого примера, приведенного ниже, и выполнить его на своем компьютере. Продолжение следует ... |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Пример 1. Следующий Проект состоит всего из трех строк: http://interfax-russia.ru/Moscow/main.asp?id=0009{0-9}{0-9} + Рубрика://Люди/Онищенко Геннадий /2 Онищенко Конструкция {0-9} означает, что вместо неё нужно последовательно подставить все цифры от 0 до 9. Этот Проект осуществит просмотр на Интерфаксе в папке Moscow 100 ссылок: от http://interfax-russia.ru/Moscow/main.asp?id=000900 до http://interfax-russia.ru/Moscow/main.asp?id=000999 и в Рубрику «Люди/Онищенко» поместит ссылки, в которых упомянут Геннадий Онищенко Таких ссылок две (смотрите соответствующую выдачу СайтСпутника). Все ссылки относятся к 03 сентября 2009 года. Это был Поиск перебором в ссылках из прошлого. Можно «караулить» ссылки из будущего, точнее ссылки которые набраны, но ещё не переданы в новостные ленты, или их адрес ещё не разместили на какой-нибудь другой видимой ссылке. Например, на момент 09.12.2016 00:26:49 для десяти ссылок определяемых выражением: http://interfax-russia.ru/Moscow/main.asp?id=79053{0-9} + были видны первые три ссылки из десяти (смотрите соответствующую выдачу СайтСпутника). То есть, используя Поиск перебором, можно раньше, чем обычным способом получить доступ к нужной информации. Например, это может быть использовано при работе с некоторыми досками объявлений для того, чтобы получить сведения по товару или услуге раньше, чем другие, и воспользоваться ими. Другой случай, готовится очередной онлайн-номер сборника статей и часть статей или все статьи уже набраны и размещены на сайте, но сам онлайн-номер со ссылками на них не сдан в «печать». Пока я набирал эти строки на момент 09.12.2016 0:46:07 в указанном выше десятке уже 6 ссылок (смотрите соответствующую выдачу СайтСпутника). Думаю, что принцип понятен, и можно найти другие ситуации, в которых рационально применить Поиск перебором. Продолжение следует ... |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 12 декабря 2016 11:09 Сообщение отредактировано: 12 декабря 2016 11:23 Пример 2. Берём данный форум. Выполняем Проект из трех строк: forum.razved.info/index.php?f={1-12} + Рубрика://Бизнес-разведка/Страница недоступна (страница | раздел) /7 (недоступна | не /1 (существует | создана) | удалена) В Рубрике «Бизнес-разведка/Страница недоступна» видим (смотрите соответствующую выдачу СайтСпутника), что есть страницы (разделы), которые или не существуют (зарезервировованы) или у меня нет к ним права доступа. Можно сделать много разных переборов по форуму. Продолжение следует ... |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Пример 3. Пробуем ссылку с Avita в Проекте из 2-х строк: https://www.avito.ru/volgograd/kvartiry/1-k_kvartira_32_m_89_et._87270935{0-9} + ^^Новости; Получаем информацию к размышлению (смотрите соответствующую выдачу СайтСпутника). Кроме одной ссылки на однокомнатную квартиру в Волгограде (она 9-я), что соответствует имени ссылки, остальные 9 имеют самые неожиданные контенты, а именно: квартира, но в Краснодаре, брюки спортивные, шины зимние, кольцо с аметистом, прессформа, электрокачели в Москве, Рязани, Краснодаре или в Кантемировке. Если я правильно понял, то параметр «_et._число» какой-то особенный. Если им позаниматься, поэкспериментировать, то может быть удастся получить какую-то пользу. Пробовал перебрать: https://www.avito.ru/ _et._87270935{0-9} + https://www.avito.ru/volgograd/kvartiry/_et._87270935{0-9} + https://www.avito.ru/krasnodar/kvartiry/1-k_kvartira_32_m_89_et._87270935{0-9} + Первые 10 ссылок не существуют, что вполне логично, вторые и третьи 10 ссылок существуют и отдают тот же контент, что и 10 ссылок из рассматриваемого Проекта, что, по-моему, нелогично. Продолжение следует ... |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Пример 4. Поиск перебором на личных страницах ВКонтакте: https://vk.com/id103859Х0{0-9}{0-9}{0-9} + Рубрика://Контакты/Телефон %Телефоны Рубрика://Контакты/Е-майл %ПочтаЭлектронная В этом Проекте были просмотрены 1000 личных страниц. Те странички, на которых указаны телефоны и E-мейлы, соответственно, попали в Рубрики «Контакты/Телефоны» и «Контакты/ Е-майл». Здесь при рубрикации применялся объектный поиск, где %Телефоны и %ПочтаЭлектронная - произвольный номер телефона и произвольный адрес электронной почты. Подчеркиваю – произвольный, а не конкретный. Телефонов нашлось 28 (смотрите соответствующую выдачу СайтСпутника), Е-майлов -4. Если будете делать что-то аналогичное, Вам также как и мне, наверное, придется в «Настройках» Проекта отменить скачивание ссылок Менеджером скачивания ссылок и поставить паузу в 2 секунды между загрузками страниц, иначе ВКонтакте не отдаст контент ссылки, а «молча» сообщит, что Вы сделали более одного однотипного запроса в секунду. Продолжение следует ... |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Пример 5. Поиск в Фейсбуке. Поиск перебором в группах: https://www.facebook.com/groups/5759708925614{0-9}{0-9}/ Рубрика://Классы/Источники/Соцсети/ФейсБук/Группы/Закрытая Закрытая /1 группа Рубрика://Классы/Источники/Соцсети/ФейсБук/Группы/Открытая (Открытая | Общедоступная) /1 группа Поиск перебором личных страничек: https://www.facebook.com/profile.php?id=1000017534857{0-9}{0-9} + Рубрика://Рекрутинг/По профессиям/Бухгалтер Бухгалтер | '1С' | '1C' Выдача для Рубрики Бухгалтерия на ссылке. Блокировка на неделю произошла ориентировочно после 1000 обращений к ФБ в течение нескольких минут с одного аккаунта. Использовался Менеджер скачивания ссылок. Поэтому экспериментировать нужно с оглядкой, возможно, отключив Менеджер. Можно создать дополнительный аккаунд в ФБ, залогиниться в нем в IE или СайтСпутнике и работать без оглядки (работа с ФБ с основного Вашего аккауда не пострадает). Продолжение следует ... |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Подстановки, которые могут быть использованы в Поиске перебором на момент публикации данного сообщения следующие: {0-12} – это последовательная подстановка чисел: 0, 1, 2, ..., 12. {doc;xls;xlsx} – это последовательная подстановка конкретных значений: doc, xls и xlsx. Обе подстановки в одном Проекте можно применять одновременно и многократно. В этом случае нужно следить, чтобы не породить сотни тысяч и более перебираемых ссылок. По-моему, получается достаточно простой и интересный инструмент не только для поиска информации и источников информации, но и для исследования особенностей сайтов. |
<<Назад Вперед>> | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Поиск перебором в SiteSputnik News |
Самые активные 20 тем | |