Блэклист сайтов

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Блэклист сайтов
RSS

Блэклист сайтов

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 * 7
Печать
 
Доктор ТуамОсес
Молчун

Всего сообщений: 44
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Алексей Мыльников]Ещё раз коротко: во-первых, уже есть возможность рубрикации сниппетов[/q]
Нету. В триальной версии нету. :tuktuk:

[q=Алексей Мыльников]сложные правила на сниппете, составляющем 0.1-0.01 часть контента ссылки сработают, грубо говоря, в 10-100 раз "кривее".[/q]
Ну чтобы юзать регэкспы не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи? :wonder:
Ведь куда как лучше отфильтровать не нужные 90% ссылок для которых можно понять что они не содержат нужной информации даже по маленькому сниппету, а уж оставшиеся страницы полностью скачивать.

====================================
[s]Кстати. А элементы черного списка у Вас регистрозависимы? Т.е. "Папа" и "паПа" разные слова? В описалове вроде как говорилось что да. Но тогда почему когда я ввел в ЧС "Word" (без ковычек), то у меня отфильтровался сразу домен "wordpress"? :wonder1: [/s]

[url=http://forum.razved.info/index.php?t=1007&p=45833#pp45833]Судя по ЭТОМУ нет[/url]
==========================
[q=Алексей Мыльников]Как Вариант используйте операцию "Аналитическое вычитание" и избавьтесь от Алексея Николаевича, Алексея Константиновича, Татьяны, ... тележурналиста и других, всплывающих во время поиска.[/q]
Не очень понял.
Вы предлагаете сначала создать запрос в котором будет "Алексей Толстой"
Потому запрос: "Алексей" "Толстой"
А потом из второго запроса вычесть первый?
Я правильно понял Вашу мысль?
=========================
[q=Алексей Мыльников] На 100% не помню, но 99%, что фразы прописывать можно. [/q]
Ещё раз попробовал разные варианты и наконец понял в чём дело. Почему у меня фразы не фильтровались. Потому что слово "Алексей" в выдаче было написано жирным шрифтом, а "Толстой" - обычным. Т.е. если глянуть в исходный код сниппета то видно , что слова разделены между собой не только пробелом, но и тегами. Но я то не знал, что в Вашей программе поиск фраз из черного списка "сырой"/"в лоб" (т.е. ведется по исходному коду страницы включая символы тегов (\ < > и др.). А Вы это нигде не написали.

Т.е. когда я написал <b>Владимир</b> Ильич, то у меня из объединения выдач исчезли сниппеты, содержащие фразу "Владимир Ильич" :yahoo: :good: :drinks:

[q=Алексей Мыльников] На 100% не помню[/q]
Вот для этого и нужно писать нормальный хэлп, где всё чётко и ясно было бы прописано. Чтобы юзверям не приходилось работать с программой по методу "научного тыка". Ведь зачастую юзвери отказываются юзать мощные классные программы только потому что нет нормального хэлпа к ним. Потому что получается, что программа вроде как хорошая, но "вещь в себе".
Или юзвери юзают только 10% возможностей программы (потому что про другие либо ничего не знают, либо не понимают как их использовать, потому что хэлпа нормального нет) и бывают разочарованы. И переходят на др. программу



---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 977
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
Впечатляет меня упорство человека, юзающего кастрированную версию программы (дэмо-версию) и при этом, умудряющийся в ней разобраться и что-то из неё выжать. :hi: Ну, это сухие эмоции.
По-делу, соглашусь с Доктор ТуамОсес в том, что хэлп к программе не поспевает за теми функциями, которые в ней постоянно появляются. Последний раз мануал редактировали год назад? А изменений в ней добавилось и немало! Сомневаюсь, что в хэлпе можно прописать все нюансы программы, но стремиться к этому надо. А если кто-то из пользователей нашёл некий нюанс, не включённый в хэлп, то почему бы этот нюанс туда не добавить?

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Уважаемый Доктор ТуамОсес, Блэклист сайтов создавался для:

petryashov написал:
[q]
Алексей, мы когда-то этот вопрос уже обсуждали, но он как-то завис.
Суть:в тех случаях, когда мы ежедневно мониторим группу запросов в СайтСпутнике, достаточно быстро выявляется группа сайтов, которые не имеют отношения к теме, но не отфильтровываются даже самыми изощренными запросами в поисковых системах.

Можно ли создать некий Блеклист, в который пользователь может включать сайты, которые СайтСпутнику посещать не надо?
[/q]
Оно и понятно: практически в каждом сниппете есть URL.

Попутно этот приём можно применить и для фильтрации сниппетов по контексту, а именно: по единичным словам, без учета регистра. Развивать этот прием (уже в третий раз пишу) не считаю нужным, потому что в SiteSputnik News это уже есть (оно получилось "попутно", без целенаправленной разработки) и потому что применение языка запросов к сниппетам приводит к потере значимой информации. Я не сторонник доведение какой-то идеи до абсурда.

По поводу Help(a). Отставание его содержания от производимого матобеспечения есть, но на форуме я всегда декларирую новые функциональные возможности программы, также выкладываю их на странице _http://sitesputnik.ru/Public.htm и в колонке "Хроника событий" на главной странице сайта о программе СайтСпутник.

Доктор ТуамОсес
Молчун

Всего сообщений: 44
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Алексей Мыльников]применение языка запросов к сниппетам приводит к потере значимой информации[/q]
Я же писал:

[q=Доктор ТуамОсес]Ну чтобы юзать регэкспы {[i]прим.ну или как Вы пишите "язык запросов"[/i]} не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи?[/q]
На этот вопрос ответите?
Разве не эффективней сразу отфильтровать 90% сайтов ещё на этапе анализа содержимого сниппетов, чем тянуть из инета к себе на хард диск ГИГАБАЙТЫ мусора?

Ведь в большинстве случаев уже по сниппету веб-страницы в яндексе можно понять, что полностью читать веб-страницу не стоит. Не согласны?

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Доктор ТуамОсес
Молчун

Всего сообщений: 44
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Семёныч]Впечатляет меня упорство человека, юзающего кастрированную версию программы (дэмо-версию) и при этом, умудряющийся в ней разобраться и что-то из неё выжать. [/q]
Дело в том, что я привык что триальная версия - это та же Pro версия, но только с искусственно введенными ограничениями (грубо говоря константы в ней просто меньшего значения типа не for i=1 to 1000, а for i=1 to 10 и т.п.). И я привык, что [b]триал версия - это "лицо продукта"[/b].

А если триал версия глючит (копки исчезают, постоянно вылетает с потерей данных, описалова нормального нет и т.д. и т.п.) тот какой <пип пип пип> будет покупать Pro-версию? :binocular:

Т.е., грубо говоря, алгоритм такой:
- Человек пробует триал-версию.
- Она ему нравиться и он хочет большего.
- Он покупает Pro-версию.

А не такой:
- Человек пробует триал-версию.
- Она вызывает у него раздражение своей "сыростью" и глюками.
- Он покупает Pro-версию в надежде "а может там лучше?".
====================================================================================
P.S.Я за свою жизнь юзал для разных целей более 1000 программ. Чтобы их все купить - нужно быть Абрамовичем :blum:
А при моей зарплате 20 000 руб в месяц и наличии 4 "спиногрызов" сами понимаете выделить даже 200 руб в месяц на покупку софта - это серьёзный удар по семейному бюджету. Поэтому давайте оставим в покое вопрос "а че он не хочет купить Pro версию и юзает кастрированный триал".
Впрочем я бы не пожалел и 5000 руб даже при моём более чем скромном бюджете если бы функционал программы этого стоил. Но пока я не вижу в программе чего-то такого/эдакого, чтобы я бы аж ахнул. Пока функционал программы такой, что я сам смогу наваять подобный функционал за пару недель на каком-нибудь Autohotkey, Selenium и т.п. Продолжение этой темы [url=http://forum.razved.info/index.php?t=4256]ТУТ[/url]

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Доктор ТуамОсес написал:
[q]
Доктор ТуамОсес написал:
[q]

Ну чтобы юзать регэкспы {прим.ну или как Вы пишите "язык запросов"} не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи?
[/q]


На этот вопрос ответите?
[/q]

У меня СайтСпутник работает ежедневно. В среднем вытаскивает каждые сутки от 12 до 18 тысяч полнотекстовых сообщений (а не только ссылок), которые затем вычищаются и рубрицируются в 120 Рубрик. И что? 800 ссылок это "мелочь" для программы.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Доктор ТуамОсес
Молчун

Всего сообщений: 44
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Игорь Нежданов]У меня СайтСпутник работает ежедневно. В среднем вытаскивает каждые сутки от 12 до 18 тысяч полнотекстовых сообщений [/q]
Очень любопытно :wonder:

В связи с этим у меня к Вам ряд вопросов:
- Это в гигабайтах сколько?
- У Вас наверное очень жирный канал (сколько мегабайт в секунду средняя скорость даунлодадинга)
- Зачем Вам так много инфы? Что Вы с ней делаете-то? Или Вы просто сканируете в инет на предмет чего-то конкретного? Типа "а не появилось ли "оно"?"
- Вы согласны, что 99,9 % скаченной инфы - это шлак/мусор? Тогда зачем её качать?

[q=Игорь Нежданов] 800 ссылок это "мелочь" для программы. [/q]
Но для моего старенького компа и "тоненького" инет канала это огромная нагрузка. 18 000 веб страниц ... это примерно 5 гигабайт инфы в день.
Зачем столько? Ведь человек даже сотню страниц в день не осилит вдумчиво прочитать. Или Вы не читаете, а просто сканируете?

[q=Игорь Нежданов]800 ссылок это "мелочь" для программы. [/q]

У меня одна страница загружается в среднем за 20 секунд. 800 x 20 = 16 000 секунд. Т.е. примерно 4,5 часа потребутся программе..

Я за это время 10 раз уже успею вручную "нагуглить" то, что мне надо :facepalm:
Путем анализа выдачи поисковиков и модификации по результатам этой выдачи своих поисковых запросов

И вообще, ИМХО, устраивать у себя на компе мини-гугль (закачивая на хард с целью анализа десятки тысяч ссылок) - это порочная идея.

ИМХО, нужно бить интеллектуальностью, чтобы как можно меньше качать на хард не нужной инфы. А не тупо, "в лоб" качать всё что попалось

За счёт чего это можно сделать?
1) За счёт более детального анализа сниппетов выдачи поисковиков и содержимого все-таки скачанных на хард веб-страниц
2) За счёт более лучших и качественных запросов

Поэтому, ИМХО, главными задачами программы должны быть:
1) автоматизация анализа сниппетов и скачанных веб-страниц
2) автоматизация фильтрации "левой" информации
3) [b]автоматическое[/b] (или интерактивное в режиме "подсказка") генерирование новых "хороших" запросов по результатам анализа

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1055
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Доктор ТуамОсес написал:
[q]
В связи с этим у меня к Вам ряд вопросов:
- Это в гигабайтах сколько?
[/q]

По разному - от двухстрочных сообщений в твиттере или в соцсети, до аналитических текстов в десяток страниц. Поэтому каждый раз по разному.


Доктор ТуамОсес написал:
[q]

- У Вас наверное очень жирный канал (сколько мегабайт в секунду средняя скорость даунлодадинга)
[/q]

Канал не плохой - утверждают, что не менее 512 мегабит.


Доктор ТуамОсес написал:
[q]

- Зачем Вам так много инфы? Что Вы с ней делаете-то? Или Вы просто сканируете в инет на предмет чего-то конкретного? Типа "а не появилось ли "оно"?"
[/q]

У меня за 30 постоянных потребителей информации, каждого из которых интересует от одного до 15 тем (направлений). По этим темам основной вопрос именно тот - "не появилось ли чего то ценного по ней".


Доктор ТуамОсес написал:
[q]

- Вы согласны, что 99,9 % скаченной инфы - это шлак/мусор? Тогда зачем её качать?
[/q]

Нет - это как настроить первичный сбор информации. Т.е выбрать правильные источники, составить правильные запросы и т.п. "мусорной информации" (по ощущениям - не считал) не более 20%. И, полагаю можно еще подсократить, но это нужно тщательнее поработать с источниками.


Доктор ТуамОсес написал:
[q]
Зачем столько? Ведь человек даже сотню страниц в день не осилит вдумчиво прочитать. Или Вы не читаете, а просто сканируете?
[/q]

Надеюсь уже ответил на этот вопрос. Из всего объема именно для меня всего 5 тем, в каждой по 2 - 10 сообщений в сутки.

Медленный инет это не приятно. Но и в этом случае СайтСпутник сильно облегчает жизнь Предполагаю, что вы не используете возможности тонкой настройки (их нет в бесплатной версии) и правильного построения запросов к источникам информации.

Тем ни менее с вашим общим посылом я согласен - на счет того, что нужно максимально поднимать эффективность.


---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 826
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Доктор ТуамОсес написал:
[q]
Я же писал:


Доктор ТуамОсес написал:

[q]

Ну чтобы юзать регэкспы {прим.ну или как Вы пишите "язык запросов"} не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи?
[/q]



На этот вопрос ответите?
Разве не эффективней сразу отфильтровать 90% сайтов ещё на этапе анализа содержимого сниппетов, чем тянуть из инета к себе на хард диск ГИГАБАЙТЫ мусора?

Ведь в большинстве случаев уже по сниппету веб-страницы в яндексе можно понять, что полностью читать веб-страницу не стоит. Не согласны?
[/q]

Отвечу: напишите в Яндексе: Лев /1 Толстой или Лев /2 Толстой и 800 страниц скачивать не надо будет.

Доктор ТуамОсес написал:
[q]
А если триал версия глючит (копки исчезают, постоянно вылетает с потерей данных, описалова нормального нет и т.д. и т.п.
[/q]

А это уже некорректное заявление. Пробный вариант не глючит, а свернулся до минимума и не дает развернуться, потому что срок его действия кончился. Об этом Пользователю постоянно выводится сообщение: "Программа не зарегистрирована, её функциональные возможности огрничены". Остался поиск на глубину одной страницы для основных поисковиков. Вам об этом не раз писали, и не только я. Вы опять повторяете, то на что ранее получили ответ. Если хотите, то в следующей версии я сделаю так, что программа, у которой истек срок опробации, просто не будет открываться.

Доктор ТуамОсес написал:
[q]
Поэтому, ИМХО, главными задачами программы должны быть:
1) автоматизация анализа сниппетов и скачанных веб-страниц
2) автоматизация фильтрации "левой" информации
3) автоматическое (или интерактивное в режиме "подсказка") генерирование новых "хороших" запросов по результатам анализа
[/q]
:hi:

Доктор ТуамОсес
Молчун

Всего сообщений: 44
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Алексей Мыльников]А это уже некорректное заявление. Пробный вариант не глючит, а свернулся до минимума и не дает развернуться, потому что срок его действия кончился. Об этом Пользователю постоянно выводится сообщение: "Программа не зарегистрирована, её функциональные возможности огрничены". Остался поиск на глубину одной страницы для основных поисковиков. Вам об этом не раз писали, и не только я. Вы опять повторяете, то на что ранее получили ответ. Если хотите, то в следующей версии я сделаю так, что программа, у которой истек срок опробации, просто не будет открываться.[/q]
Пробный период если не ошибаюсь 30 дней?
А у меня "возраст" программы всего 2 дня.
А глюки с исчезанием кнопок и вылетами всё равно есть

[q=Алексей Мыльников]напишите в Яндексе: Лев /1 Толстой или Лев /2 Толстой и 800 страниц скачивать не надо будет.[/q]
Если бы... Всё было так просто :facepalm:

[q=Алексей Мыльников]Остался поиск на глубину одной страницы для основных поисковиков.[/q]
Ну это легко обходится путем создания своего сценария :laugh:

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 * 7
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Блэклист сайтов
RSS

Последние RSS
Open Source Intelligence (OSINT) Tools and Resources Handbook
Top tips on gathering information about companies by using free online sources
Новое на блоге HRразведка
Безопасность данных в MS Access
Слово как улика
20 Recon and Intel Gathering Tools used by InfoSec Professionals
What’s Changed?
10 альтернативных поисковиков
Ситуационный центр главы Республики Коми
Развёртывание ситуационных центров на базе технологии Avalanche
Как принимать сложные решения. Советы бывшего оперативника ЦРУ.
Открытая информация о "Новичке" из сети интернет.
Ген. директор "ОЗХО" Ахмет Узюмдж о "Новичке" и хим. атаке в Сирии
Онлайн-сервисы для Twitter
Коллекция для Twitter
Приложение Opera VPN закрывается
О работе разведки
Deep web и 11 поисковиков по нему
Об изначальной "лживости" любых документов
Обновление на блоге HRазведка

Самые активные 20 тем RSS
Стандартные источники информации в СайтСпутнике
Слово как улика
Open Source Intelligence (OSINT) Tools and Resources Handbook