Блэклист сайтов

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Блэклист сайтов
RSS

Блэклист сайтов

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 * 7
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Уважаемый Доктор ТуамОсес, Блэклист сайтов создавался для:

petryashov написал:
[q]
Алексей, мы когда-то этот вопрос уже обсуждали, но он как-то завис.
Суть:в тех случаях, когда мы ежедневно мониторим группу запросов в СайтСпутнике, достаточно быстро выявляется группа сайтов, которые не имеют отношения к теме, но не отфильтровываются даже самыми изощренными запросами в поисковых системах.

Можно ли создать некий Блеклист, в который пользователь может включать сайты, которые СайтСпутнику посещать не надо?
[/q]
Оно и понятно: практически в каждом сниппете есть URL.

Попутно этот приём можно применить и для фильтрации сниппетов по контексту, а именно: по единичным словам, без учета регистра. Развивать этот прием (уже в третий раз пишу) не считаю нужным, потому что в SiteSputnik News это уже есть (оно получилось "попутно", без целенаправленной разработки) и потому что применение языка запросов к сниппетам приводит к потере значимой информации. Я не сторонник доведение какой-то идеи до абсурда.

По поводу Help(a). Отставание его содержания от производимого матобеспечения есть, но на форуме я всегда декларирую новые функциональные возможности программы, также выкладываю их на странице _http://sitesputnik.ru/Public.htm и в колонке "Хроника событий" на главной странице сайта о программе СайтСпутник.

Доктор ТуамОсес
Молчун

Всего сообщений: 38
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Алексей Мыльников]применение языка запросов к сниппетам приводит к потере значимой информации[/q]
Я же писал:

[q=Доктор ТуамОсес]Ну чтобы юзать регэкспы {[i]прим.ну или как Вы пишите "язык запросов"[/i]} не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи?[/q]
На этот вопрос ответите?
Разве не эффективней сразу отфильтровать 90% сайтов ещё на этапе анализа содержимого сниппетов, чем тянуть из инета к себе на хард диск ГИГАБАЙТЫ мусора?

Ведь в большинстве случаев уже по сниппету веб-страницы в яндексе можно понять, что полностью читать веб-страницу не стоит. Не согласны?

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Доктор ТуамОсес
Молчун

Всего сообщений: 38
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Семёныч]Впечатляет меня упорство человека, юзающего кастрированную версию программы (дэмо-версию) и при этом, умудряющийся в ней разобраться и что-то из неё выжать. [/q]
Дело в том, что я привык что триальная версия - это та же Pro версия, но только с искусственно введенными ограничениями (грубо говоря константы в ней просто меньшего значения типа не for i=1 to 1000, а for i=1 to 10 и т.п.). И я привык, что [b]триал версия - это "лицо продукта"[/b].

А если триал версия глючит (копки исчезают, постоянно вылетает с потерей данных, описалова нормального нет и т.д. и т.п.) тот какой <пип пип пип> будет покупать Pro-версию? :binocular:

Т.е., грубо говоря, алгоритм такой:
- Человек пробует триал-версию.
- Она ему нравиться и он хочет большего.
- Он покупает Pro-версию.

А не такой:
- Человек пробует триал-версию.
- Она вызывает у него раздражение своей "сыростью" и глюками.
- Он покупает Pro-версию в надежде "а может там лучше?".
====================================================================================
P.S.Я за свою жизнь юзал для разных целей более 1000 программ. Чтобы их все купить - нужно быть Абрамовичем :blum:
А при моей зарплате 20 000 руб в месяц и наличии 4 "спиногрызов" сами понимаете выделить даже 200 руб в месяц на покупку софта - это серьёзный удар по семейному бюджету. Поэтому давайте оставим в покое вопрос "а че он не хочет купить Pro версию и юзает кастрированный триал".
Впрочем я бы не пожалел и 5000 руб даже при моём более чем скромном бюджете если бы функционал программы этого стоил. Но пока я не вижу в программе чего-то такого/эдакого, чтобы я бы аж ахнул. Пока функционал программы такой, что я сам смогу наваять подобный функционал за пару недель на каком-нибудь Autohotkey, Selenium и т.п. Продолжение этой темы [url=http://forum.razved.info/index.php?t=4256]ТУТ[/url]

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Доктор ТуамОсес написал:
[q]
Доктор ТуамОсес написал:
[q]

Ну чтобы юзать регэкспы {прим.ну или как Вы пишите "язык запросов"} не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи?
[/q]


На этот вопрос ответите?
[/q]

У меня СайтСпутник работает ежедневно. В среднем вытаскивает каждые сутки от 12 до 18 тысяч полнотекстовых сообщений (а не только ссылок), которые затем вычищаются и рубрицируются в 120 Рубрик. И что? 800 ссылок это "мелочь" для программы.

---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Доктор ТуамОсес
Молчун

Всего сообщений: 38
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Игорь Нежданов]У меня СайтСпутник работает ежедневно. В среднем вытаскивает каждые сутки от 12 до 18 тысяч полнотекстовых сообщений [/q]
Очень любопытно :wonder:

В связи с этим у меня к Вам ряд вопросов:
- Это в гигабайтах сколько?
- У Вас наверное очень жирный канал (сколько мегабайт в секунду средняя скорость даунлодадинга)
- Зачем Вам так много инфы? Что Вы с ней делаете-то? Или Вы просто сканируете в инет на предмет чего-то конкретного? Типа "а не появилось ли "оно"?"
- Вы согласны, что 99,9 % скаченной инфы - это шлак/мусор? Тогда зачем её качать?

[q=Игорь Нежданов] 800 ссылок это "мелочь" для программы. [/q]
Но для моего старенького компа и "тоненького" инет канала это огромная нагрузка. 18 000 веб страниц ... это примерно 5 гигабайт инфы в день.
Зачем столько? Ведь человек даже сотню страниц в день не осилит вдумчиво прочитать. Или Вы не читаете, а просто сканируете?

[q=Игорь Нежданов]800 ссылок это "мелочь" для программы. [/q]

У меня одна страница загружается в среднем за 20 секунд. 800 x 20 = 16 000 секунд. Т.е. примерно 4,5 часа потребутся программе..

Я за это время 10 раз уже успею вручную "нагуглить" то, что мне надо :facepalm:
Путем анализа выдачи поисковиков и модификации по результатам этой выдачи своих поисковых запросов

И вообще, ИМХО, устраивать у себя на компе мини-гугль (закачивая на хард с целью анализа десятки тысяч ссылок) - это порочная идея.

ИМХО, нужно бить интеллектуальностью, чтобы как можно меньше качать на хард не нужной инфы. А не тупо, "в лоб" качать всё что попалось

За счёт чего это можно сделать?
1) За счёт более детального анализа сниппетов выдачи поисковиков и содержимого все-таки скачанных на хард веб-страниц
2) За счёт более лучших и качественных запросов

Поэтому, ИМХО, главными задачами программы должны быть:
1) автоматизация анализа сниппетов и скачанных веб-страниц
2) автоматизация фильтрации "левой" информации
3) [b]автоматическое[/b] (или интерактивное в режиме "подсказка") генерирование новых "хороших" запросов по результатам анализа

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Игорь Нежданов
Модератор форума
Прагматик
Откуда: Советский Союз
Всего сообщений: 1025
Рейтинг пользователя: 13


Ссылка


Дата регистрации на форуме:
7 июня 2009

Доктор ТуамОсес написал:
[q]
В связи с этим у меня к Вам ряд вопросов:
- Это в гигабайтах сколько?
[/q]

По разному - от двухстрочных сообщений в твиттере или в соцсети, до аналитических текстов в десяток страниц. Поэтому каждый раз по разному.


Доктор ТуамОсес написал:
[q]

- У Вас наверное очень жирный канал (сколько мегабайт в секунду средняя скорость даунлодадинга)
[/q]

Канал не плохой - утверждают, что не менее 512 мегабит.


Доктор ТуамОсес написал:
[q]

- Зачем Вам так много инфы? Что Вы с ней делаете-то? Или Вы просто сканируете в инет на предмет чего-то конкретного? Типа "а не появилось ли "оно"?"
[/q]

У меня за 30 постоянных потребителей информации, каждого из которых интересует от одного до 15 тем (направлений). По этим темам основной вопрос именно тот - "не появилось ли чего то ценного по ней".


Доктор ТуамОсес написал:
[q]

- Вы согласны, что 99,9 % скаченной инфы - это шлак/мусор? Тогда зачем её качать?
[/q]

Нет - это как настроить первичный сбор информации. Т.е выбрать правильные источники, составить правильные запросы и т.п. "мусорной информации" (по ощущениям - не считал) не более 20%. И, полагаю можно еще подсократить, но это нужно тщательнее поработать с источниками.


Доктор ТуамОсес написал:
[q]
Зачем столько? Ведь человек даже сотню страниц в день не осилит вдумчиво прочитать. Или Вы не читаете, а просто сканируете?
[/q]

Надеюсь уже ответил на этот вопрос. Из всего объема именно для меня всего 5 тем, в каждой по 2 - 10 сообщений в сутки.

Медленный инет это не приятно. Но и в этом случае СайтСпутник сильно облегчает жизнь Предполагаю, что вы не используете возможности тонкой настройки (их нет в бесплатной версии) и правильного построения запросов к источникам информации.

Тем ни менее с вашим общим посылом я согласен - на счет того, что нужно максимально поднимать эффективность.


---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ...
Лаборатория Перспективных Разработок
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Доктор ТуамОсес написал:
[q]
Я же писал:


Доктор ТуамОсес написал:

[q]

Ну чтобы юзать регэкспы {прим.ну или как Вы пишите "язык запросов"} не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи?
[/q]



На этот вопрос ответите?
Разве не эффективней сразу отфильтровать 90% сайтов ещё на этапе анализа содержимого сниппетов, чем тянуть из инета к себе на хард диск ГИГАБАЙТЫ мусора?

Ведь в большинстве случаев уже по сниппету веб-страницы в яндексе можно понять, что полностью читать веб-страницу не стоит. Не согласны?
[/q]

Отвечу: напишите в Яндексе: Лев /1 Толстой или Лев /2 Толстой и 800 страниц скачивать не надо будет.

Доктор ТуамОсес написал:
[q]
А если триал версия глючит (копки исчезают, постоянно вылетает с потерей данных, описалова нормального нет и т.д. и т.п.
[/q]

А это уже некорректное заявление. Пробный вариант не глючит, а свернулся до минимума и не дает развернуться, потому что срок его действия кончился. Об этом Пользователю постоянно выводится сообщение: "Программа не зарегистрирована, её функциональные возможности огрничены". Остался поиск на глубину одной страницы для основных поисковиков. Вам об этом не раз писали, и не только я. Вы опять повторяете, то на что ранее получили ответ. Если хотите, то в следующей версии я сделаю так, что программа, у которой истек срок опробации, просто не будет открываться.

Доктор ТуамОсес написал:
[q]
Поэтому, ИМХО, главными задачами программы должны быть:
1) автоматизация анализа сниппетов и скачанных веб-страниц
2) автоматизация фильтрации "левой" информации
3) автоматическое (или интерактивное в режиме "подсказка") генерирование новых "хороших" запросов по результатам анализа
[/q]
:hi:

Доктор ТуамОсес
Молчун

Всего сообщений: 38
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Алексей Мыльников]А это уже некорректное заявление. Пробный вариант не глючит, а свернулся до минимума и не дает развернуться, потому что срок его действия кончился. Об этом Пользователю постоянно выводится сообщение: "Программа не зарегистрирована, её функциональные возможности огрничены". Остался поиск на глубину одной страницы для основных поисковиков. Вам об этом не раз писали, и не только я. Вы опять повторяете, то на что ранее получили ответ. Если хотите, то в следующей версии я сделаю так, что программа, у которой истек срок опробации, просто не будет открываться.[/q]
Пробный период если не ошибаюсь 30 дней?
А у меня "возраст" программы всего 2 дня.
А глюки с исчезанием кнопок и вылетами всё равно есть

[q=Алексей Мыльников]напишите в Яндексе: Лев /1 Толстой или Лев /2 Толстой и 800 страниц скачивать не надо будет.[/q]
Если бы... Всё было так просто :facepalm:

[q=Алексей Мыльников]Остался поиск на глубину одной страницы для основных поисковиков.[/q]
Ну это легко обходится путем создания своего сценария :laugh:

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

    Черные и Белые списки в рамках Проекта

    Доступно, начиная с версии SiteSputnik Pro 9.9.4.2 от 21.07.2021.

    Всё что написано выше, а именно, Черные и Белые списки, действующие в рамках Запроса, - остаётся в силе.
    Если эти списки прописаны, то они приоритетнее нижеследующих списков.

    В рамках Проекта Черные и Белые списки можно прописать следующим образом:



    Красная стрелка показыает как выбирается текстовый файл, содержащий Черный и/или Белый список, а
    Красной линией обведено имя выбранного файла.

    Пример содержания файла:

      sitesputnik.ru
      freesoft.ru
      ci-razvedka.ru
      razvedka-internet.ru
      info-war.ru
      nejdanov.ru
      informnn.ru
      marketinginform.ru
      forum.razved.info

    Имена сайтов или любые другие лексемы записываются в нём просто в столбик.

<<Назад  Вперед>>Страницы: 1 2 3 4 5 6 * 7
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Блэклист сайтов
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS