Доработки Fishman (TODO)

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   FishMan - программа для мониторинга инета »   Доработки Fishman (TODO)
RSS

Доработки Fishman (TODO)

<<Назад  Вперед>>Страницы: 1 2
Печать
 
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
предлагаю в этой теме писать предложения по доработке фишмана

1) нужно сделать экспорт-импорт конфигурации (нужно для сопровождения и тд)
2) нужно сделать экспорт логов (для сопровождения)
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Vinni написал:
[q]
1) нужно сделать экспорт-импорт конфигурации (нужно для сопровождения и тд)
2) нужно сделать экспорт логов (для сопровождения)
[/q]


По конфигурации понятно и полезно. А вот экспорт логов для чего может быть полезен?

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
3)при экспорте текстов надо дать возможность указывать имя файла, куда сохранять
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Игорь Нежданов написал:
[q]
А вот экспорт логов для чего может быть полезен?
[/q]


ну вот сейчас у меня ошибки. нужно чтобы они кроме экрана помещались в лог ошибок в файл, чтобы если у пользователя проблемы, можно было его отправить и понять в чем дело.
А то будете долго и мучительно просить скриншоты или пытаться как Мыльников игнорировать проблемы (а у меня все работает )

Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
плюс можно добавить в настройки возможность включения отладочного лога, куда пишется детальная информация о выполнении операций.
это типовая штатная фича серьезных программ. :yes:
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
По поводу выделения текста новости из веб-страницы (это и RSS и поиск по сайтам и форумам и т.д.)
Прежде всего надо сделать так, чтобы можно было редактироовать правила выделения (сейчас можно только добавить)

Типовая модель страницы с новостями - это N новостных блоков между заголовком и хвостом страницы (обычно указывают регулярки для начала новостей и конца новостей(или начала хвоста)) , возможно разделенных рекламными блоками (встречал такое на сайтах СМИ).
Если страница сверстана корректно, то каждый новостной блок начинается с определенного тега, чем и пользуются. Если нет - может быть сумятица и одного шаблона может не хватить (встречались сайты с 3-4 форматами новостей :goodbuy: ).
Плюс надо удалять рекламные блоки (в общем случае работают регулярные выражения).

Понятно, что нужно давать пользователю возможность посмотреть исходный код страницы, чтобы он мог сделать эти регулярные выражения и давать возможность потестировать их, показав результат работы текущего выражения(ий), так как шаблонов новостей может быть больше одного.


UPD: забыл уточнить для удаления рекламных блоков из новостных блоков надо вводить исключащие шаблоны, которые удаляют из тела страницы все, соответствующее им (кстати, в СайтСпутнике это уже давно есть :wink: )
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
так как для каждого сайта свой набор шаблонов, то получается библиотека шаблонов и в программе должна быть возможность импорта-экспорта шаблонов, а также возможность выгрузки библиотеки с веб-сервера производителя (для авторизованных пользователей). в идеале хорошо бы чтобы пользователи делились шаблонами а-ля краудсорсинг (была возможность отправки шаблона на сервер производителя). :angel:

и еще - со временем форматы веб-страниц меняются и надо проверять при каждом сеансе загрузки из источника, что выделяется непустой текст новости и если есть новости, текст из которых не выделен, надо информировать об этом пользователя, чтобы он менял шаблоны (как показал мой опыт в одном проекте - в среднем раз в 3-4 месяца что-то может измениться)

Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
еще предложение - надо удалять старые новости (или переносить в отдельную архивную базу за период) и сжимать текущую базу.
так как даже 20 источников с большим потоком новостей займут несколько гигабайт за считанные недели...
в mysql отчасти спасает компактный формат хранения (20-30% сэкономил)

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
С удалением старого - не всё так однозначно. Скорее нужно говорить о дополнительной настройке. В какихто Проектах достаточно глубины в десяток дней (только новое0. А в каких то нужен весь архив...

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Vinni
Администратор

Всего сообщений: 2710
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Игорь Нежданов написал:
[q]
С удалением старого - не всё так однозначно.
[/q]


согласен - тогда удаление должно быть специфично для каждого проекта или источника
<<Назад  Вперед>>Страницы: 1 2
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   FishMan - программа для мониторинга инета »   Доработки Fishman (TODO)
RSS

Последние RSS
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается
О работе разведки
Deep web и 11 поисковиков по нему
Об изначальной "лживости" любых документов
Обновление на блоге HRазведка

Самые активные 20 тем RSS
Стандартные источники информации в СайтСпутнике
Слово как улика
Open Source Intelligence (OSINT) Tools and Resources Handbook