Про метаданные документов.

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Технологии работы и инструменты конкурентной разведки »   Про метаданные документов.
RSS

Про метаданные документов.

Классификация метаданных MS Office и инструменты их извлечения

<<Назад  Вперед>>Печать
 
Искендер
Администратор

Всего сообщений: 6038
Рейтинг пользователя: 43


Ссылка


Дата регистрации на форуме:
7 июня 2009
Последний раз про метаданные в офисных документах я писал более года назад в этой заметке «Извлечение скрытых метаданных из документов MS Office".

Я какое-то время назад очень активно интересовался этой темой, в последнее время появилось много другого любопытного и метаданные документов отошли на второй план, однако в практических целях иногда знание того что и как искать помогает.

Всех нюансов, конечно, не расскажешь, но кое что в дополнение и повторение к ранее написанному у меня есть. Единственно – примеров не будет. Те примеры что у меня сейчас на руках, могут оказаться не самые приятными для тех кто документы готовил. Так что примеры как-нибудь в другой раз.

Итак метаданные.

Если ранее я писал что есть два типа метаданных – метаданные документа и метаданные связанных объектов, то теперь вынужден признать что, на самом деле, метаданных куда больше. Вернее даже не метаданных, а информации идентифицирующей автора и окружение.

Фактически я бы разделил эту идентификационную информацию на 4 типа:

- метаданные документа – свойства (properties) документа которые обычно забывают удалить при сохранении и пересылке.

- метаданные вложенных объектов – свойства вложенных OLE объектов и изображений.

- маркеры – данные в гипертексте документа идентифицирующие его владельца.

- скрытые данные - информация в участках документа недоступных для визуального просмотра.

Для каждого из типов идентификационной информации имеются свои ограничения доступности и характера содержимого.

1. Метаданные документа

Это свойства документа которые видны если открыть его «Свойства» в Эксплорере Windows или открыв в соответствующей программе MS Office. Про эти свойства, казалось бы, должны знать все и последние версии MS Office включают возможности удаления этих метаданных. Однако на практике это далеко не так. Часто метаданные забывают почистить и удалить и там можно увидеть «чувствительную информацию» о том кто был на самом деле автором документа,

2. Метаданные вложенных объектов

Об этом я писал в прошлой заметке и повторю сейчас. Вложенные объекты – это так называемые OLE объекты или контейнеры StructuredStorage содержащие другие документы/объекты с которыми умеет работать MS Office. Ещё вернее что объекты с которыми вообще умеет работать MS Windows, но в данном случае чуть упростим.

Если описать это ещё проще, то когда Вы готовите таблицу в Excel, а потом вставляете её в презентацию – это вставка OLE объекта. Точно также если вы делаете диаграмму в Visio и потом вставляете её в презентацию или документ – это вставка OLE объекта, если только вы не преобразовали вначале диаграмму в изображение.

Особенность этих вложенных объектов в том что каждый из них несёт свой собственный набор свойств заданных в той программе в которой данный объект создавался. Если Вы вложили таблицу Excel – значит у документа будут свойства которые указаны в Excel. Если объект Visio, то свойства заданные в Visio.

Коварство этой ситуации в том в что, что если Вы создаёте объект не в родной его программе, а через меню другой офисной программы через «Вставить объект», то у Вас не будет возможности отредактировать свойства документа. А также если Вы работаете над документом вместе с кем-то и этот кто-то вставил объект, то в свойствах этого объекта будут метаданные с компьютера того пользователя и они там останутся.

Вложенные объекты можно извлечь несколькими способами, но большая часть из них весьма техническая и требует знаний того как устроены документы MS Office внутри, поэтому самый практичный способ – сохранить документ в одном из форматов OpenXML и распаковать его любимым ZIP распаковщиком. В результате, OLE объекты будут в папке embeddings. Впрочем я ранее уже это описывал и заметке на которую я сослался вначале этого поста есть подробное описание процесса.

Однако, вложенными объектами могут быть не только OLE объекты. К этой же категории носителей информации можно отнести изображения. В изображениях может сохранятся информация EXIF (в JPEG файлах) и XMP. Подобное встречается гораздо реже, в основном если кто-то необдуманно вставляет в документы необработанные фотографии. Извлечь изображения можно по тому же рецепту – преобразовать в OpenXML, распаковать и заглянуть в папку media.

3. «Маркёры»

Это очень условное название для той информации которая может присутствовать в тексте документа и позволяет узнать более о его авторе. К подобной информации можно отнести:

- обсуждения и комментарии в режим правки. Иногда (в последнее время всё реже) авторы документов забывают про режим правки и публикуют документ со всей историей обсужения, заметками и так далее.

- ссылки. В некоторых случаях, сознательно или по ошибке в документах остаются ссылки на локальные документы того же пользователя или документы в его локальной сети. Чаще всего эти ссылки указывают на файлы на Desktop или же в папке «Мои документы«. Главное что такие ссылки позволяют узнать – локальное имя пользователя извлекаемой из пути к данному документу.

4. Скрытые данные

Кроме вполне очевидных данных (маркёров) в тексте есть некое количество данных которые скрыты в блоках бинарных файлов о предназначении которых можно знать или догадываться. Например, в Excel файлах есть специальный блок PLS содержащий информацию о принтерах. Он содержит точно название модели принтера и его название и, скорее всего некую дополнительную информацию.

В некоторых случаях в скрытых данных присутствуют адреса файлов и пути которые могут быть интерпретированы так же как данные в ссылках, а то есть позволят извлечь информацию о локальном аккаунте пользователя.

А как собственно получить все эти данные?

Инструменты

Существует довольно большое число инструментов по работе с метаданными, но чего-то универсального не нет. Каждый из инструментов имеет свои плюсы и минусы и многие из них (но не все) описаны в статье Document Metadata Extraction в Forensics Wiki -http://www.forensicswiki.org/wiki/Document_Metadata_Extraction здесь много ссылок на инструменты и библиотеки.

Набор инструментов:

- MS Office 2007-2010 для преобразования из бинарных форматов MS Office в OpenXML. В данном случае OpenOffice не подойдёт поскольку он не сохраняет OLE объекты

- Strings - утилитка из пакета Sysinternals позволяющая извлечь строковые переменные.

- OffVis – это такая специальная утилита от Microsoft позволяющая копатся в глубинах офисных документов. При глубоком анализе документов и выковыриванию PLS блоков из файлов Excel – незаменима. Скачать можно здесь download.techworld.com/3214034/microsoft-offvis-11/

- Metadata Extraction Tool – бесплатная утилитка по извлечению метаданных из офисных документов, PDF, изображений и так далее. заглядывает неглубоко и находит не всё meta-extractor.sourceforge.net/

- Catalogue – собирает метаданные из разного типа файлов peccatte.karefil.com/software/Catalogue/CatalogueENG.htm

- Metadata Analyzer – извлекает метаданные (только базовые) smartpctools.com/metadata/

- Document Trace Remover – убирает метаданные smartpctools.com/trace_remover/

- Oracle Outside In - инструмент для разработчиков, поддерживает около 500 форматов файлов www.oracle.com/us/technologies/embedded/025613.htm

Это, конечно, совсем не предел тем вокруг извлечения информации. Есть также метаданные и способы их выковыривания из документов PDF и OpenOffice, электронных писем и так далее.

Кроме того есть масса нераскрытых возможностей связанных с неполным описанием бинарных проприетарных форматов.

Оригинал: блог Ивана Бегтина

---
I`m not a Spy! I can do much better!
Информационные войны "под ключ"
Dmitriy
Новичок

Откуда: Украина
Всего сообщений: 116
Рейтинг пользователя: 1


Ссылка


Дата регистрации на форуме:
13 июля 2009
Эх... Вот бы все это интерактивно увидеть в виде видеоролика или презентации. А то от такого количества букв общая картина поиска метаданных в файлах и документах как-то не складывается.
Спасибо большое за наводку, как раз искал эту информацию.

---
...лучшая конспирация - отсутствие всякой конспирации...
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Dmitriy написал:
[q]
Эх... Вот бы все это интерактивно увидеть в виде видеоролика или презентации.
[/q]

Так надо сделать, записать и выложить для всеобщего обозрения :wink:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Dmitriy
Новичок

Откуда: Украина
Всего сообщений: 116
Рейтинг пользователя: 1


Ссылка


Дата регистрации на форуме:
13 июля 2009
[q=Игорь Нежданов]

Dmitriy написал:[q]Эх... Вот бы все это интерактивно увидеть в виде видеоролика или презентации. [/q]
Так надо сделать, записать и выложить для всеобщего обозрения [/q]

:smile:

- Балган горит
- ну да - горит...
- тушить надо
- ну да - надо...

Будем стараться.

А можно ли получить метаданные файла (например - изображения), которое размещено на странице сайта или хостинге картинок?
Как это сделать?

---
...лучшая конспирация - отсутствие всякой конспирации...
Искендер
Администратор

Всего сообщений: 6038
Рейтинг пользователя: 43


Ссылка


Дата регистрации на форуме:
7 июня 2009

Dmitriy написал:
[q]
А можно ли получить метаданные файла (например - изображения), которое размещено на странице сайта или хостинге картинок?
[/q]

Если изображение их содержит, то можно. Необходимо скопировать изображение к себе на компьютер, метаданные скопируются вместе с ним.

---
I`m not a Spy! I can do much better!
Информационные войны "под ключ"
Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
вот хороший пример, к чему приводит отсутствие очистки метаданных в документе.
Полиция арестовала члена хакерской группы, после того как его фамилия была обнаружена в метаданных пресс-релиза этой группы.


_ttp://www.theregister.co.uk/2010/12/16/anonymous_arrests/

[q]

Greek police have reportedly arrested a web designer whose name appeared in a press release issued by online hacktivists Anonymous last week.

The PDF-format press release outlined Anonymous' loose-knit structure and immediate objectives of launching online attacks against organisations that have severed commercial ties with Wikileaks. The properties of the document contained the name of the author, Alex Tapanaris, who has now become a suspect in the case.

...
[/q]
ShanShallaD
Участник

Всего сообщений: 34
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
17 сен. 2010
MetaGooFil
Metagoofil is an information gathering tool designed for extracting metadata of public documents (pdf,doc,xls,ppt,odp,ods) availables in the target/victim websites.

It will generate a html page with the results of the metadata extracted, plus a list of potential usernames very useful for preparing a bruteforce attack on open services like ftp, pop3,web applications, vpn, etc. Also it will extract a list of disclosed PATHs in the metadata, with this information you can guess OS, network names, Shared resources, etc.

This new version extracts MAC address from Microsoft Office documents. Now you can have an idea of what kind of hardware they are using.

All this information should not be available on the net, but most of the companies doesn't have policies about information leaking... and most of them don't know this information exists. So you can show them what information an attacker can obtain, with this simple technique.
www.edge-security.com/metagoofil.php
<<Назад  Вперед>>Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Технологии работы и инструменты конкурентной разведки »   Про метаданные документов.
RSS

Последние RSS
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
ВС разрешил пропускать работу без разрешения работодателя
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей
Лог-файл в программе СайтСпутник
шантаж, угрозы по Интернету
Практически весь интернет становится русскоязычным
SiteSputnik. Об одном подходе к мониторингу Телеграм
Безопасность при работе на ПК

Самые активные 20 тем RSS