Непрофильное использование

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Форум программы для мониторинга Интернета - Аваланч »   Непрофильное использование
RSS

Непрофильное использование

<<Назад  Вперед>>Страницы: 1 2
Печать
 
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Коллеги, кто с Аваланчем разобрался подскажите - возможно ли использовать его рубрикатор для обработки рубрицирования документов? Если да то как? Или хотя бы - где и в каком виде Аваланч хранит выкачанные из инета данные?

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
В "Инструменты"/Настройки/Хранилище указана директория, где хранятся выкачанные данные
Каждому сеансу соответствует своя директория. Каждая новость в HTML и текстовом формате - в отдельных файлах. Кроме этого, в файле с расширением xml хранится информация о найденных в тексте новости словах и их позициях в тексте

Для каждого слова заводится тег <word value="слово" pos="список позиций слова в тексте"/>

В БД информация о рубрикации хранится в трех таблицах
1) page - id страницы, url страницы, имена файлов, куда сохранены результаты
2) rubricated - список id рубрик, к которым отнесена страница
3) rubric - описания рубрик

Так что скриптом можно все это вытащить :wink:

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Vinni написал:
[q]
Так что скриптом можно все это вытащить
[/q]

У меня щас противоположная проблема - как туда засунуть то что мне надо... :wonder:

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Иоанн написал:
[q]
У меня щас противоположная проблема - как туда засунуть то что мне надо
[/q]


:preved: Тогда надо
1) дополнять список рубрик в БД
2)дополнять список страниц в БД (только там есть связанные таблицы - сайты, сеансы, так что возни побольше будет) (только формировать текстовые и xml-файлы(или, может xml сам построится? :wink: ))
2) дополнять информацию о принадлежности страниц к рубрикам

Человекочасов 30 я бы на нее точно положил :yes:
Ed
Модератор форума

Всего сообщений: 1825
Рейтинг пользователя: 28


Ссылка


Дата регистрации на форуме:
7 июня 2009

Vinni написал:
[q]

Человекочасов 30 я бы на нее точно положил
[/q]

А сколько это в спиртовом эквиваленте?
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Vinni написал:
[q]
1) дополнять список рубрик в БД
2)дополнять список страниц в БД (только там есть связанные таблицы - сайты, сеансы, так что возни побольше будет) (только формировать текстовые и xml-файлы(или, может xml сам построится? :wink: ))
2) дополнять информацию о принадлежности страниц к рубрикам
[/q]

э-э-э-э........ как это по русски... - "оглобля" :wonder:


Vinni написал:
[q]
Человекочасов 30 я бы на нее точно положил :yes:
[/q]

Дык я ж не претендую, а пытаюсь понять - только у меня такие проблемы или еще у кого есть. А то как то странно :wonder1:

Ed написал:
[q]
А сколько это в спиртовом эквиваленте?
[/q]

Ага - очень правильный вопрос.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Так сейчас молодежь вроде не спирт, а деньги предпочитает :wink:
Ed
Модератор форума

Всего сообщений: 1825
Рейтинг пользователя: 28


Ссылка


Дата регистрации на форуме:
7 июня 2009

Vinni написал:
[q]

Так сейчас молодежь вроде не спирт, а деньги предпочитает
[/q]

Эт кому в штаны в детстве мало заглядывали..
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Надыбал програмку - называется "МодусДок" ( _ttp://www.modus58.net/MD3/md.html ). Вполне себе может быть использована как каталогизатор. Но только для "ручного" режима. Это когда нужно ручками помещать данные. Но зато один файл может хоть во всех папках (проектах) находиться. А вот авторубрикация не предусмотрена :(

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
Игорь, ну вроде бы решали проблему с рубрикацией и скрипты я писал для Yandex Desktop и Архивариус.
Чем то решение-то не подходит? :wink:

<<Назад  Вперед>>Страницы: 1 2
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Форум программы для мониторинга Интернета - Аваланч »   Непрофильное использование
RSS

Последние RSS
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается
О работе разведки
Deep web и 11 поисковиков по нему
Об изначальной "лживости" любых документов
Обновление на блоге HRазведка

Самые активные 20 тем RSS
Стандартные источники информации в СайтСпутнике
Слово как улика
Open Source Intelligence (OSINT) Tools and Resources Handbook