Google для КР (перечитывая книгу Дж. Лонга) :: Технологии работы и инструменты конкурентной разведки

Форум Сообщества Практиков Конкурентной разведки (СПКР) » Технологии работы и инструменты конкурентной разведки » Google для КР (перечитывая книгу Дж. Лонга)

Google для КР (перечитывая книгу Дж. Лонга)

<<Назад Вперед>>

Страницы: 1 * 2 3 4

Печать

Vinni

Администратор

Всего сообщений: 2632
Рейтинг пользователя: 22

Ссылка

Дата регистрации на форуме:
5 июня 2009

Профиль | Игнорировать
NEW! Сообщение отправлено: 7 ноября 2012 23:30
Сообщение отредактировано: 7 ноября 2012 23:36

В четвертой главе описывается, как искать файлы тех или иных типов с помощью операторов filetype: и inurl:
Например, для поиска конфигурационных файлов предлагается запрос "inurl:conf OR inurl:config OR inurl:cfg"
Для уменьшения информационного шума предлагается все та же техника редукции результатов поиска с помощью уточнений и/или запретов выдачи страниц с определенными словами.
Для удобства приводятся большие таблицы с запросами для поиска распространенных конгфигурационных файлов и файлов журналов популярных программ.

Потом автор переходит к более интересному вопросу - поиску офисных документов (Word, Excel и т.д.)
Хотя примитивный запрос вроде "inurl:xls OR inurl:doc OR inurl:mdb" не сильно эффективен (можно использовать как альтернативу оператор filetype), его как всегда можно улучшить, добавив требования к наличию конкретных слов в тексте документа (например, password). Интересным примером запроса является "filetype:xls username password email" :crazy:

Далее приводятся другие интересные запросы, позволяющие обнаружить документы, потенциально содержащие конфиденциальную информацию:

[q]

filetype:xls username password email - пароли
filetype:xls inurl:”password.xls” - пароли
filetype:xls private приватные данные (на русском видимо стоит добавить слова "Конфиденциально" или "Коммерческая тайна")(используйте как базовый поиск)
Inurl:admin filetype:xls административные данные
filetype:xls inurl:contact - контактная информация, адреса e-mail
filetype:xls inurl:”email.xls” адреса E-mail, имена
allinurl: admin mdb административные бд
filetype:mdb inurl:users.mdb списки пользователей, адреса e-mail
Inurl:email filetype:mdb списки пользователей, адреса e-mail
Data filetype:mdb различные данные (используйте как базовый поиск)
Inurl:backup filetype:mdb архивные копии бд
Inurl:profiles filetype:mdb профили пользователей
Inurl:*db filetype:mdb различные данные (используйте как базовый поиск)
[/q]

#4 | Наверх

CI-KP

Администратор

Откуда: Екатеринбург
Всего сообщений: 6036
Рейтинг пользователя: 24

Ссылка

Дата регистрации на форуме:
15 мая 2009

Профиль | Игнорировать
NEW! Сообщение отправлено: 7 ноября 2012 23:36

Vinni написал:

[q]
Из полезного там есть только совет о том, что можно использовать сервис перевода страниц как прокси.
[/q]

по-моему, уже нельзя

---
Ющук Евгений Леонидович, профессор УрГЭУ. www.razvedka-internet.ru; www.ci-razvedka.ru
Не всегда нужно стремиться совершать кражу со взломом там, где можно войти через дверь.

#5 | Наверх

Vinni

Администратор

Всего сообщений: 2632
Рейтинг пользователя: 22

Ссылка

Дата регистрации на форуме:
5 июня 2009

Профиль | Игнорировать
NEW! Сообщение отправлено: 7 ноября 2012 23:47
Сообщение отредактировано: 7 ноября 2012 23:49

Далее в четвертой главе идет описание технологий поиска информации, интересной для тестирования на проникновение, но не для КР :wonder1:

Но затем начинается описание простых скриптов на Perl :preved:

для автоматизации анализа информации.
Сначала описывается задача поиска всех адресов электронной почты в каком-то домене и для начала приводится скрипт для выделения из файла (полученного в резльтате поиска) адресов электронной почты с помощью регулярного выражения

[q]

[a-zA-Z0-9._-]+@(([a-zA-Z0-9_-]{2,99}\.)+[a-zA-Z]{2,4})|((25[0-5]|2[0-
4]\d|1\d\d|[1-9]\d|[1-9])\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]\d|[1-9])\.(25[0-5]|2[0-
4]\d|1\d\d|[1-9]\d|[1-9])\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]\d|[1-9]))
[/q]

Другое регулярное выражение позволит найти URL в файле

[q]

[a-zA-Z]{3,4}[sS]?://((([\w\d\-]+\.)+[ a-zA-Z]{2,4})|((25[0-5]|2[0-4]\d|1\d\d|[1-
9]\d|[1-9])\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]\d|[1-9])\.(25[0-5]|2[0-4]\d|1\d\d|[1-
9]\d|[1-9])\.(25[0-5]|2[0-4]\d|1\d\d|[1-9]\d|[1-9])))((\?|/)[\w/=+#_~&:;%\-\?\.]*)*
[/q]

и полезно для автоматизации выделения ссылок из результатов поисковой выдачи

Потом упоминается Google Desktop для поиска среди локальных файлов, найденных в результате поиска (привет Яндекс Десктопу :preved:

)

#6 | Наверх

Vinni

Администратор

Всего сообщений: 2632
Рейтинг пользователя: 22

Ссылка

Дата регистрации на форуме:
5 июня 2009

Профиль | Игнорировать
NEW! Сообщение отправлено: 8 ноября 2012 0:13
Сообщение отредактировано: 8 ноября 2012 0:37

Пятая глава развивает тему автоматизации поиска и анализа его результатов...
Сначала выдвигается тезис о том, что поиск, как правило, состоит из следующих шагов (далее мой вольный перевод :blush:

[q]

■ составить базовый поисковый запрос
■ уточнить его
■ получить страницы с данными с сайтов
■ произвести их синтаксический разбор и выделить нужные элементы
■ произвести их пост-обработку для получения интересующей информации
[/q]

и подробно описывается каждый шаг

Шаг уточнения поискового запроса рассматривается сначала на примере получения списка адресов e-mail какого-то домена.
При этом приводится список типовых модификаций e-mail для защиты от спама и способы проверки валидности выделенного адреса e-mail.
Потом рассматриваются случаи поиска телефонных номеров и людей по ФИО.
Для уменьшения числа результатов поиска предлагается оператор site:

Шаг получения страниц с данными с сайтов начинается с вдумчивого разбора структуры URL поискового запроса в Гугле и рассмотрения всевозможных простых вариантов утилит вместо веб-браузера для получения результатов поисковой выдачи - netcat, lynx, curl и wget.
Анализ тегов страницы с поисковой выдачей производится с помощью FireBug (плагина Firefox). С его помощью выявляются строки с тегами, обрамляющие сниппеты на странице с поисковой выдачей.
После этого описывается скрипт на perl, вызывающий curl для получения этой страницы и выделяющий с помощью найденных строк с тегами сниппеты :wink:

Потом скрипт усложняется и из сниппета выделяются заголовок страницы, ее URL и собственно цитата из текста, приведенная в сниппете

#7 | Наверх

Vinni

Администратор

Всего сообщений: 2632
Рейтинг пользователя: 22

Ссылка

Дата регистрации на форуме:
5 июня 2009

Профиль | Игнорировать
NEW! Сообщение отправлено: 8 ноября 2012 1:13

Затем рассматривается шаг парсинга результатов.
Сначала описывается выделение из текста возможных вариантов написания e-mail и приведение их к каноническому виду с помощью регулярных выражений.
Потом описываются возможные варианты написания телефонных номеров.

Далее описываются примитивные варианты пост-обработки сниппетов как таковых или целых страниц.
В частности, описывается сортировка страниц по релевантности. Приводится пример определения релевантности как нахождения на странице адресов e-mail, максимально похожих на ФИО человека, который ищется (для России надо будет использовать английский аналог ФИО ). Похожесть строк определяется как число совпадающих триграмм :crazy:

Далее кратко описывается предтеча Maltego :preved:

система Evolution.

Для повышения интереса приводится пример (с обезличенными данными) о том, как вычислить сотрудников одной из спецслужб (т.н агентства с именами из трех букв).
Для начала ищутся телефонные номера на сайтах в домене xxx.gov. Потом берется строка с кодом города и АТС (исходя из предположения, что офисы агентства могут занимать почти всю номерную емкость АТС), которые упоминается в номерах и ищутся адреса e-mail, тел. номера и названия городов, находящиеся на тех же страницах, что и эта строка, в надежде на то, что кто-то из сотрудников указал свой личный email вместе со служебным номером телефона.
И такой человек находится :facepalm:

Номер телефона указан как номер теннисного клуба, но он подозрительно похож на номера офиса агентства.

Другим примером является поиск Word-документов на сайтах какого-то агентства, выделение из их метаданных имени автора и поиск по этому имени профиля на LinkedIn.
Для автоматизации далее приводится скрипт на Perl для получения метаданных офисного документа по ссылке на него и еще один, который посылает в Гугл запрос на офисные документы на сайтах определенного домена, и вызывает первый скрипт для автоматического получения метаданных для каждой из найденных ссылок

#8 | Наверх

Vinni

Администратор

Всего сообщений: 2632
Рейтинг пользователя: 22

Ссылка

Дата регистрации на форуме:
5 июня 2009

Профиль | Игнорировать
NEW! Сообщение отправлено: 8 ноября 2012 1:24

Потом рассматривается вариант более сложного анализа (тоже с помощью EVOLUTION - все делается с его помощью) - установление связей между людьми (на примере их адресов e-mail)
Для этого предлагается сначала найти для каждого из этих адресов e-mail все страницы с их упоминанием и выделить из них адреса веб-сайтов, email и номера телефонов,а потом сравнить результаты, чтобы выявить общее в них. Если совпадений нет, то берется каждый элемент результатов, полученных на первом шаге (адрес email и т.д.) для первого и второго email и для него делается то же самое, а затем снова ищется сходство между результатами :crazy:

и так до победного конца ...

Шестая глава для нас неинтересна, поэтому опустим ее :wink:

#9 | Наверх

CI-KP

Профиль | Игнорировать
NEW! Сообщение отправлено: 8 ноября 2012 4:07

Уважаемый Vinni,
:good:

#10 | Наверх

Николаич Модератор форума Откуда: г. Ростов-на-Дону Всего сообщений: 1007 Рейтинг пользователя: 24 Ссылка Дата регистрации на форуме: 7 июня 2009	Профиль \| Игнорировать NEW! Сообщение отправлено: 8 ноября 2012 9:41 Присоединяюсь!
	#11 \| Наверх

Игорь Нежданов Модератор форума Прагматик Откуда: Советский Союз Всего сообщений: 1258 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009	Профиль \| Игнорировать NEW! Сообщение отправлено: 8 ноября 2012 13:00 Спасибо! --- Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок
	#12 \| Наверх

fellix13 Член СПКР Откуда: Екатеринбург Всего сообщений: 577 Рейтинг пользователя: 10 Ссылка Дата регистрации на форуме: 24 дек. 2010	Профиль \| Игнорировать NEW! Сообщение отправлено: 8 ноября 2012 13:44 Эх, кто тут последний покурить за углом..)
	#13 \| Наверх

<<Назад Вперед>>

Страницы: 1 * 2 3 4

Печать

Форум Сообщества Практиков Конкурентной разведки (СПКР) » Технологии работы и инструменты конкурентной разведки » Google для КР (перечитывая книгу Дж. Лонга)

Последние

Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Лог-файл в программе СайтСпутник
Практически весь интернет становится русскоязычным
SiteSputnik. Об одном подходе к мониторингу Телеграм
Книги о критическом мышлении
CI Academic Materials

Самые активные 20 тем

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка, Деловая разведка по открытым источникам в бизнесе. Работаем строго в рамках закона.

Форум Сообщества Практиков Конкурентной разведки (СПКР) » Технологии работы и инструменты конкурентной разведки » Google для КР (перечитывая книгу Дж. Лонга)

Google для КР (перечитывая книгу Дж. Лонга)

Форум Сообщества Практиков Конкурентной разведки (СПКР) » Технологии работы и инструменты конкурентной разведки » Google для КР (перечитывая книгу Дж. Лонга)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.