Доработки Fishman (TODO)

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   FishMan - программа для мониторинга инета »   Доработки Fishman (TODO)
RSS

Доработки Fishman (TODO)

<<Назад  Вперед>>Страницы: 1 * 2
Печать
 
Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
3)при экспорте текстов надо дать возможность указывать имя файла, куда сохранять
Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Игорь Нежданов написал:
[q]
А вот экспорт логов для чего может быть полезен?
[/q]


ну вот сейчас у меня ошибки. нужно чтобы они кроме экрана помещались в лог ошибок в файл, чтобы если у пользователя проблемы, можно было его отправить и понять в чем дело.
А то будете долго и мучительно просить скриншоты или пытаться как Мыльников игнорировать проблемы (а у меня все работает )

Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
плюс можно добавить в настройки возможность включения отладочного лога, куда пишется детальная информация о выполнении операций.
это типовая штатная фича серьезных программ. :yes:
Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
По поводу выделения текста новости из веб-страницы (это и RSS и поиск по сайтам и форумам и т.д.)
Прежде всего надо сделать так, чтобы можно было редактироовать правила выделения (сейчас можно только добавить)

Типовая модель страницы с новостями - это N новостных блоков между заголовком и хвостом страницы (обычно указывают регулярки для начала новостей и конца новостей(или начала хвоста)) , возможно разделенных рекламными блоками (встречал такое на сайтах СМИ).
Если страница сверстана корректно, то каждый новостной блок начинается с определенного тега, чем и пользуются. Если нет - может быть сумятица и одного шаблона может не хватить (встречались сайты с 3-4 форматами новостей :goodbuy: ).
Плюс надо удалять рекламные блоки (в общем случае работают регулярные выражения).

Понятно, что нужно давать пользователю возможность посмотреть исходный код страницы, чтобы он мог сделать эти регулярные выражения и давать возможность потестировать их, показав результат работы текущего выражения(ий), так как шаблонов новостей может быть больше одного.


UPD: забыл уточнить для удаления рекламных блоков из новостных блоков надо вводить исключащие шаблоны, которые удаляют из тела страницы все, соответствующее им (кстати, в СайтСпутнике это уже давно есть :wink: )
Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
так как для каждого сайта свой набор шаблонов, то получается библиотека шаблонов и в программе должна быть возможность импорта-экспорта шаблонов, а также возможность выгрузки библиотеки с веб-сервера производителя (для авторизованных пользователей). в идеале хорошо бы чтобы пользователи делились шаблонами а-ля краудсорсинг (была возможность отправки шаблона на сервер производителя). :angel:

и еще - со временем форматы веб-страниц меняются и надо проверять при каждом сеансе загрузки из источника, что выделяется непустой текст новости и если есть новости, текст из которых не выделен, надо информировать об этом пользователя, чтобы он менял шаблоны (как показал мой опыт в одном проекте - в среднем раз в 3-4 месяца что-то может измениться)

Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009
еще предложение - надо удалять старые новости (или переносить в отдельную архивную базу за период) и сжимать текущую базу.
так как даже 20 источников с большим потоком новостей займут несколько гигабайт за считанные недели...
в mysql отчасти спасает компактный формат хранения (20-30% сэкономил)

Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
С удалением старого - не всё так однозначно. Скорее нужно говорить о дополнительной настройке. В какихто Проектах достаточно глубины в десяток дней (только новое0. А в каких то нужен весь архив...

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Vinni
Администратор

Всего сообщений: 2711
Рейтинг пользователя: 22


Ссылка


Дата регистрации на форуме:
5 июня 2009

Игорь Нежданов написал:
[q]
С удалением старого - не всё так однозначно.
[/q]


согласен - тогда удаление должно быть специфично для каждого проекта или источника
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009
Отпустили " в свободное плавание" младшенкого... тут он лежит

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Ed
Модератор форума

Всего сообщений: 1825
Рейтинг пользователя: 28


Ссылка


Дата регистрации на форуме:
7 июня 2009
А у младшенЬкого ничего-то и не исправили.
<<Назад  Вперед>>Страницы: 1 * 2
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   FishMan - программа для мониторинга инета »   Доработки Fishman (TODO)
RSS

Последние RSS
шантаж, угрозы по Интернету
Практически весь интернет становится русскоязычным
SiteSputnik. Об одном подходе к мониторингу Телеграм
Безопасность при работе на ПК
Книги о критическом мышлении
Наказывать за вмешательство в частную жизнь, Верховный суд
CI Academic Materials
CiMi.CON Evolution USA
Поиск в КЭШ поисковиков по запросу и пакету запросов
СайтСпутник: Многоязычность, Юникод, MS ACCESS
Новый курс OSINT от АИС
Год тюрьмы за отказ удалять
Книга "Строим доверие по методикам спецслужб"
аналог "Консультанта" о зарубежном законодательстве
Открытые данные ФНС
Получаем информацию по VIN
Competitive-Market Intelligence Conference, Berlin 2018
Не все VPN-сервисы одинаково полезны
«Яндекс» научился выдавать в поиске не скрытые Google-документы. Правда лавочку
War and marketing: 1937 July 7th vs. 2018 July 1st

Самые активные 20 тем RSS
Новости блогов
Наказывать за вмешательство в частную жизнь, Верховный суд