Google для КР (перечитывая книгу Дж. Лонга)

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Технологии работы и инструменты конкурентной разведки »   Google для КР (перечитывая книгу Дж. Лонга)
RSS

Google для КР (перечитывая книгу Дж. Лонга)

<<Назад  Вперед>>Страницы: 1 * 2 3 4
Печать
 
Vinni
Администратор

Всего сообщений: 2126
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
В четвертой главе описывается, как искать файлы тех или иных типов с помощью операторов filetype: и inurl:
Например, для поиска конфигурационных файлов предлагается запрос "inurl:conf OR inurl:config OR inurl:cfg"
Для уменьшения информационного шума предлагается все та же техника редукции результатов поиска с помощью уточнений и/или запретов выдачи страниц с определенными словами.
Для удобства приводятся большие таблицы с запросами для поиска распространенных конгфигурационных файлов и файлов журналов популярных программ.

Потом автор переходит к более интересному вопросу - поиску офисных документов (Word, Excel и т.д.)
Хотя примитивный запрос вроде "inurl:xls OR inurl:doc OR inurl:mdb" не сильно эффективен (можно использовать как альтернативу оператор filetype), его как всегда можно улучшить, добавив требования к наличию конкретных слов в тексте документа (например, password). Интересным примером запроса является "filetype:xls username password email" :crazy:

Далее приводятся другие интересные запросы, позволяющие обнаружить документы, потенциально содержащие конфиденциальную информацию:

[q]

filetype:xls username password email - пароли
filetype:xls inurl:”password.xls” - пароли
filetype:xls private приватные данные (на русском видимо стоит добавить слова "Конфиденциально" или "Коммерческая тайна")(используйте как базовый поиск)
Inurl:admin filetype:xls административные данные
filetype:xls inurl:contact - контактная информация, адреса e-mail
filetype:xls inurl:”email.xls” адреса E-mail, имена
allinurl: admin mdb административные бд
filetype:mdb inurl:users.mdb списки пользователей, адреса e-mail
Inurl:email filetype:mdb списки пользователей, адреса e-mail
Data filetype:mdb различные данные (используйте как базовый поиск)
Inurl:backup filetype:mdb архивные копии бд
Inurl:profiles filetype:mdb профили пользователей
Inurl:*db filetype:mdb различные данные (используйте как базовый поиск)
[/q]



CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5563
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009

Vinni написал:
[q]
Из полезного там есть только совет о том, что можно использовать сервис перевода страниц как прокси.
[/q]

по-моему, уже нельзя

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Vinni
Администратор

Всего сообщений: 2126
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Далее в четвертой главе идет описание технологий поиска информации, интересной для тестирования на проникновение, но не для КР :wonder1:

Но затем начинается описание простых скриптов на Perl :preved: для автоматизации анализа информации.
Сначала описывается задача поиска всех адресов электронной почты в каком-то домене и для начала приводится скрипт для выделения из файла (полученного в резльтате поиска) адресов электронной почты с помощью регулярного выражения
[q]

[a-zA-Z0-9._-]+@(([a-zA-Z0-9_-]{2,99}\.)+[a-zA-Z]{2,4})|((25[0-5]|2[0-
4]\d|1\d\d|[1-9]\d|[1-9])\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]\d|[1-9])\.(25[0-5]|2[0-
4]\d|1\d\d|[1-9]\d|[1-9])\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]\d|[1-9]))
[/q]


Другое регулярное выражение позволит найти URL в файле

[q]

[a-zA-Z]{3,4}[sS]?://((([\w\d\-]+\.)+[ a-zA-Z]{2,4})|((25[0-5]|2[0-4]\d|1\d\d|[1-
9]\d|[1-9])\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]\d|[1-9])\.(25[0-5]|2[0-4]\d|1\d\d|[1-
9]\d|[1-9])\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]\d|[1-9])))((\?|/)[\w/=+#_~&:;%\-\?\.]*)*
[/q]


и полезно для автоматизации выделения ссылок из результатов поисковой выдачи

Потом упоминается Google Desktop для поиска среди локальных файлов, найденных в результате поиска (привет Яндекс Десктопу :preved: )
Vinni
Администратор

Всего сообщений: 2126
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Пятая глава развивает тему автоматизации поиска и анализа его результатов...
Сначала выдвигается тезис о том, что поиск, как правило, состоит из следующих шагов (далее мой вольный перевод :blush: ):
[q]

■ составить базовый поисковый запрос
■ уточнить его
■ получить страницы с данными с сайтов
■ произвести их синтаксический разбор и выделить нужные элементы
■ произвести их пост-обработку для получения интересующей информации
[/q]

и подробно описывается каждый шаг

Шаг уточнения поискового запроса рассматривается сначала на примере получения списка адресов e-mail какого-то домена.
При этом приводится список типовых модификаций e-mail для защиты от спама и способы проверки валидности выделенного адреса e-mail.
Потом рассматриваются случаи поиска телефонных номеров и людей по ФИО.
Для уменьшения числа результатов поиска предлагается оператор site:

Шаг получения страниц с данными с сайтов начинается с вдумчивого разбора структуры URL поискового запроса в Гугле и рассмотрения всевозможных простых вариантов утилит вместо веб-браузера для получения результатов поисковой выдачи - netcat, lynx, curl и wget.
Анализ тегов страницы с поисковой выдачей производится с помощью FireBug (плагина Firefox). С его помощью выявляются строки с тегами, обрамляющие сниппеты на странице с поисковой выдачей.
После этого описывается скрипт на perl, вызывающий curl для получения этой страницы и выделяющий с помощью найденных строк с тегами сниппеты :wink:

Потом скрипт усложняется и из сниппета выделяются заголовок страницы, ее URL и собственно цитата из текста, приведенная в сниппете
Vinni
Администратор

Всего сообщений: 2126
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Затем рассматривается шаг парсинга результатов.
Сначала описывается выделение из текста возможных вариантов написания e-mail и приведение их к каноническому виду с помощью регулярных выражений.
Потом описываются возможные варианты написания телефонных номеров.

Далее описываются примитивные варианты пост-обработки сниппетов как таковых или целых страниц.
В частности, описывается сортировка страниц по релевантности. Приводится пример определения релевантности как нахождения на странице адресов e-mail, максимально похожих на ФИО человека, который ищется (для России надо будет использовать английский аналог ФИО ). Похожесть строк определяется как число совпадающих триграмм :crazy:

Далее кратко описывается предтеча Maltego :preved: система Evolution.

Для повышения интереса приводится пример (с обезличенными данными) о том, как вычислить сотрудников одной из спецслужб (т.н агентства с именами из трех букв).
Для начала ищутся телефонные номера на сайтах в домене xxx.gov. Потом берется строка с кодом города и АТС (исходя из предположения, что офисы агентства могут занимать почти всю номерную емкость АТС), которые упоминается в номерах и ищутся адреса e-mail, тел. номера и названия городов, находящиеся на тех же страницах, что и эта строка, в надежде на то, что кто-то из сотрудников указал свой личный email вместе со служебным номером телефона.
И такой человек находится :facepalm: Номер телефона указан как номер теннисного клуба, но он подозрительно похож на номера офиса агентства.

Другим примером является поиск Word-документов на сайтах какого-то агентства, выделение из их метаданных имени автора и поиск по этому имени профиля на LinkedIn.
Для автоматизации далее приводится скрипт на Perl для получения метаданных офисного документа по ссылке на него и еще один, который посылает в Гугл запрос на офисные документы на сайтах определенного домена, и вызывает первый скрипт для автоматического получения метаданных для каждой из найденных ссылок



Vinni
Администратор

Всего сообщений: 2126
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Потом рассматривается вариант более сложного анализа (тоже с помощью EVOLUTION - все делается с его помощью) - установление связей между людьми (на примере их адресов e-mail)
Для этого предлагается сначала найти для каждого из этих адресов e-mail все страницы с их упоминанием и выделить из них адреса веб-сайтов, email и номера телефонов,а потом сравнить результаты, чтобы выявить общее в них. Если совпадений нет, то берется каждый элемент результатов, полученных на первом шаге (адрес email и т.д.) для первого и второго email и для него делается то же самое, а затем снова ищется сходство между результатами :crazy: :tuktuk: и так до победного конца ...

Шестая глава для нас неинтересна, поэтому опустим ее :wink:
CI-KP
Администратор

Откуда: Екатеринбург
Всего сообщений: 5563
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
15 мая 2009
Уважаемый Vinni,
:good: :good: :good:

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.
Николаич
Модератор форума

Откуда: г. Ростов-на-Дону
Всего сообщений: 752
Рейтинг пользователя: 24


Ссылка


Дата регистрации на форуме:
7 июня 2009
Присоединяюсь!
:good: :good: :good: :good:
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1024
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Спасибо!

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
fellix13
Член СПКР

Откуда: Екатеринбург
Всего сообщений: 527
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
24 дек. 2010
Эх, кто тут последний покурить за углом..) :cactus3:
<<Назад  Вперед>>Страницы: 1 * 2 3 4
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Технологии работы и инструменты конкурентной разведки »   Google для КР (перечитывая книгу Дж. Лонга)
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Лог-файл в программе СайтСпутник
шантаж, угрозы по Интернету

Самые активные 20 тем RSS