Блэклист сайтов

Форум Сообщества Практиков Конкурентной разведки (СПКР)

Конкурентная разведка, Бизнес-разведка, Корпоративная разведка,
Деловая разведка по открытым источникам в бизнесе.
Работаем строго в рамках закона.

Дезинформация и активные мероприятия в бизнесе
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Блэклист сайтов
RSS

Блэклист сайтов

<<Назад  Вперед>>Страницы: 1 2 3 4 5 * 6 7
Печать
 
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Для Доктор ТуамОсес.

То есть фразы сначала были нужны, а теперь уже нет? Вы как-то разберитесь сами с собой и перечитывайте то, что писали ранее.

По существу,
нет смысла специально развивать для сниппетов сложные операции вида: фразы, логичеcкое "И", "Не", "ИЛИ" между ними, расстояние между словами, точные фразы, ...
Причина следующая: сниппет, грубо говоря, составляет одну десятую или меньшую часть контента ссылки. Это приведёт к потере точности поиска на этих операциях до "неузнаваемости".

Лучше тщательнее сформируйте сами запросы, входящие в пакет запросов. Тогда будет толк.

Черные и белые списки предназначены для действий над адресом ссылки, который есть практически в любом сниппете, или для отсева заведомо ненужной информации по списку слов. Именно это и реализовано в СайтСпутнике.
Более сложные операции имеет смысл применять на полном контенте ссылки, а не на сниппетах.

tungus1973
Модератор форума

Откуда: г. Санкт-Петербург
Всего сообщений: 795
Рейтинг пользователя: 11


Ссылка


Дата регистрации на форуме:
3 июля 2009
Дополню слова Алексея Борисовича.
В СайтСпутнике версии "Ньюс" реализован мощный механизм рубрикации, который позволяет собирать именно то, что нужно, отсеивая лишнее. Рубрикатор эффективно корректирует ошибки поисковиков. Даже работая с поисковиком, обладающим примитивными возможностями языка запросов, Вы сможете выбирать из него именно то, что соответствует вашим потребностям.
Алексей Борисович правильно Вам указал, что если Вы будете опираться только на возможности поисковиков и работать только со сниппетами, то упустите массу ценной информации.
petryashov
Администратор

Откуда: Москва
Всего сообщений: 480
Рейтинг пользователя: 9


Ссылка


Дата регистрации на форуме:
7 июня 2009
2 Доктор ТуамОсес

Демо- версия для серьезной работы непригодна. Она для этого и не предназначена. Минимальная конфигурация, которая позволяет автоматизировать большинство вопросов информационного обеспечения бизнеса - это SiteSputnik + News.

Доктор ТуамОсес
Молчун

Всего сообщений: 38
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Алексей Мыльников]То есть фразы сначала были нужны, а теперь уже нет? Вы как-то разберитесь сами с собой[/q]

Нужны, [b]Алексей Мыльников[/b], нужны.
Поэтому очень Вас прошу добавить их. Пожалуйста. Я же не регулярки прошу добавить (хотя это было бы вообще айс :yahoo: ), а просто чтобы и пробельные символы участвовали в сравнении, чтобы в блэк и вайт листы можно было заносить целые фразы. Это же буквально пару-тройку строчек в исходнике программы поправить. Плиз.

Просто иначе ценность/кайф использования черных/белых списков практически нивелируется до нуля. :sad:

Просто бывает так, что на сотне доменов находится одна и та же инфа (рерайтеры, копирайтеры (или как там их?) не зря же едят свой хлеб). Соответственно, в выдаче будет присутствовать сотня сниппетов с разными URL-ами но одним и тем же текстом.
Поэтому придётся в ручную набивать в блэк листе все эти сто доменов.
А введя, к примеру [q]Лев Толстой[/q] можно было бы одним выстрелом убить сразу сто зайцев. Тем более что может мне не надо фильтровать весь домен, мне нужно отфильтровать определенные веб-странички домена, содержащие не нужную мне инфу. Поэтому оптимальней бы было заносить в блэк лист не URL домена, а фразы, которых не должно быть в выдаче

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009

Доктор ТуамОсес написал:
[q]
Толстой
[/q]
А их что два было (шутка, не моя)?

А если серьёзно, то в топиках #34 и #48 я Вам подробно ответил.

Ещё раз коротко: во-первых, уже есть возможность рубрикации сниппетов, что мощнее фраз и regex, во-вторых, не считаю рациональным тратить силы на совершенствование правил для белых и черных списков, потому что сложные правила на сниппете, составляющем 0.1-0.01 часть контента ссылки сработают, грубо говоря, в 10-100 раз "кривее".

Как Вариант используйте операцию "Аналитическое вычитание" и избавьтесь от Алексея Николаевича, Алексея Константиновича, Татьяны, ... тележурналиста и других, всплывающих во время поиска.

А ещё лучше, составьте тщательнее пакет запросов.

А ещё лучше, посмотрите #12. На 100% не помню, но 99%, что фразы прописывать можно.

Доктор ТуамОсес
Молчун

Всего сообщений: 38
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Алексей Мыльников]Ещё раз коротко: во-первых, уже есть возможность рубрикации сниппетов[/q]
Нету. В триальной версии нету. :tuktuk:

[q=Алексей Мыльников]сложные правила на сниппете, составляющем 0.1-0.01 часть контента ссылки сработают, грубо говоря, в 10-100 раз "кривее".[/q]
Ну чтобы юзать регэкспы не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи? :wonder:
Ведь куда как лучше отфильтровать не нужные 90% ссылок для которых можно понять что они не содержат нужной информации даже по маленькому сниппету, а уж оставшиеся страницы полностью скачивать.

====================================
[s]Кстати. А элементы черного списка у Вас регистрозависимы? Т.е. "Папа" и "паПа" разные слова? В описалове вроде как говорилось что да. Но тогда почему когда я ввел в ЧС "Word" (без ковычек), то у меня отфильтровался сразу домен "wordpress"? :wonder1: [/s]

[url=http://forum.razved.info/index.php?t=1007&p=45833#pp45833]Судя по ЭТОМУ нет[/url]
==========================
[q=Алексей Мыльников]Как Вариант используйте операцию "Аналитическое вычитание" и избавьтесь от Алексея Николаевича, Алексея Константиновича, Татьяны, ... тележурналиста и других, всплывающих во время поиска.[/q]
Не очень понял.
Вы предлагаете сначала создать запрос в котором будет "Алексей Толстой"
Потому запрос: "Алексей" "Толстой"
А потом из второго запроса вычесть первый?
Я правильно понял Вашу мысль?
=========================
[q=Алексей Мыльников] На 100% не помню, но 99%, что фразы прописывать можно. [/q]
Ещё раз попробовал разные варианты и наконец понял в чём дело. Почему у меня фразы не фильтровались. Потому что слово "Алексей" в выдаче было написано жирным шрифтом, а "Толстой" - обычным. Т.е. если глянуть в исходный код сниппета то видно , что слова разделены между собой не только пробелом, но и тегами. Но я то не знал, что в Вашей программе поиск фраз из черного списка "сырой"/"в лоб" (т.е. ведется по исходному коду страницы включая символы тегов (\ < > и др.). А Вы это нигде не написали.

Т.е. когда я написал <b>Владимир</b> Ильич, то у меня из объединения выдач исчезли сниппеты, содержащие фразу "Владимир Ильич" :yahoo: :good: :drinks:

[q=Алексей Мыльников] На 100% не помню[/q]
Вот для этого и нужно писать нормальный хэлп, где всё чётко и ясно было бы прописано. Чтобы юзверям не приходилось работать с программой по методу "научного тыка". Ведь зачастую юзвери отказываются юзать мощные классные программы только потому что нет нормального хэлпа к ним. Потому что получается, что программа вроде как хорошая, но "вещь в себе".
Или юзвери юзают только 10% возможностей программы (потому что про другие либо ничего не знают, либо не понимают как их использовать, потому что хэлпа нормального нет) и бывают разочарованы. И переходят на др. программу



---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Семёныч
Модератор форума
Городской Охотник
Всего сообщений: 926
Рейтинг пользователя: 10


Ссылка


Дата регистрации на форуме:
8 июня 2009
Впечатляет меня упорство человека, юзающего кастрированную версию программы (дэмо-версию) и при этом, умудряющийся в ней разобраться и что-то из неё выжать. :hi: Ну, это сухие эмоции.
По-делу, соглашусь с Доктор ТуамОсес в том, что хэлп к программе не поспевает за теми функциями, которые в ней постоянно появляются. Последний раз мануал редактировали год назад? А изменений в ней добавилось и немало! Сомневаюсь, что в хэлпе можно прописать все нюансы программы, но стремиться к этому надо. А если кто-то из пользователей нашёл некий нюанс, не включённый в хэлп, то почему бы этот нюанс туда не добавить?

---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с)
Алексей Мыльников
Долгожитель форума

Откуда: Волгоград
Всего сообщений: 877
Рейтинг пользователя: 6


Ссылка


Дата регистрации на форуме:
22 июня 2009
Уважаемый Доктор ТуамОсес, Блэклист сайтов создавался для:

petryashov написал:
[q]
Алексей, мы когда-то этот вопрос уже обсуждали, но он как-то завис.
Суть:в тех случаях, когда мы ежедневно мониторим группу запросов в СайтСпутнике, достаточно быстро выявляется группа сайтов, которые не имеют отношения к теме, но не отфильтровываются даже самыми изощренными запросами в поисковых системах.

Можно ли создать некий Блеклист, в который пользователь может включать сайты, которые СайтСпутнику посещать не надо?
[/q]
Оно и понятно: практически в каждом сниппете есть URL.

Попутно этот приём можно применить и для фильтрации сниппетов по контексту, а именно: по единичным словам, без учета регистра. Развивать этот прием (уже в третий раз пишу) не считаю нужным, потому что в SiteSputnik News это уже есть (оно получилось "попутно", без целенаправленной разработки) и потому что применение языка запросов к сниппетам приводит к потере значимой информации. Я не сторонник доведение какой-то идеи до абсурда.

По поводу Help(a). Отставание его содержания от производимого матобеспечения есть, но на форуме я всегда декларирую новые функциональные возможности программы, также выкладываю их на странице _http://sitesputnik.ru/Public.htm и в колонке "Хроника событий" на главной странице сайта о программе СайтСпутник.

Доктор ТуамОсес
Молчун

Всего сообщений: 38
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Алексей Мыльников]применение языка запросов к сниппетам приводит к потере значимой информации[/q]
Я же писал:

[q=Доктор ТуамОсес]Ну чтобы юзать регэкспы {[i]прим.ну или как Вы пишите "язык запросов"[/i]} не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи?[/q]
На этот вопрос ответите?
Разве не эффективней сразу отфильтровать 90% сайтов ещё на этапе анализа содержимого сниппетов, чем тянуть из инета к себе на хард диск ГИГАБАЙТЫ мусора?

Ведь в большинстве случаев уже по сниппету веб-страницы в яндексе можно понять, что полностью читать веб-страницу не стоит. Не согласны?

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
Доктор ТуамОсес
Молчун

Всего сообщений: 38
Рейтинг пользователя: 0


Ссылка


Дата регистрации на форуме:
2 сен. 2013
[q=Семёныч]Впечатляет меня упорство человека, юзающего кастрированную версию программы (дэмо-версию) и при этом, умудряющийся в ней разобраться и что-то из неё выжать. [/q]
Дело в том, что я привык что триальная версия - это та же Pro версия, но только с искусственно введенными ограничениями (грубо говоря константы в ней просто меньшего значения типа не for i=1 to 1000, а for i=1 to 10 и т.п.). И я привык, что [b]триал версия - это "лицо продукта"[/b].

А если триал версия глючит (копки исчезают, постоянно вылетает с потерей данных, описалова нормального нет и т.д. и т.п.) тот какой <пип пип пип> будет покупать Pro-версию? :binocular:

Т.е., грубо говоря, алгоритм такой:
- Человек пробует триал-версию.
- Она ему нравиться и он хочет большего.
- Он покупает Pro-версию.

А не такой:
- Человек пробует триал-версию.
- Она вызывает у него раздражение своей "сыростью" и глюками.
- Он покупает Pro-версию в надежде "а может там лучше?".
====================================================================================
P.S.Я за свою жизнь юзал для разных целей более 1000 программ. Чтобы их все купить - нужно быть Абрамовичем :blum:
А при моей зарплате 20 000 руб в месяц и наличии 4 "спиногрызов" сами понимаете выделить даже 200 руб в месяц на покупку софта - это серьёзный удар по семейному бюджету. Поэтому давайте оставим в покое вопрос "а че он не хочет купить Pro версию и юзает кастрированный триал".
Впрочем я бы не пожалел и 5000 руб даже при моём более чем скромном бюджете если бы функционал программы этого стоил. Но пока я не вижу в программе чего-то такого/эдакого, чтобы я бы аж ахнул. Пока функционал программы такой, что я сам смогу наваять подобный функционал за пару недель на каком-нибудь Autohotkey, Selenium и т.п. Продолжение этой темы [url=http://forum.razved.info/index.php?t=4256]ТУТ[/url]

---
Я разработчик новых концепций, от которых содрогнется вся цивилизация
doctortuamoses.0pk.ru
<<Назад  Вперед>>Страницы: 1 2 3 4 5 * 6 7
Печать
Форум Сообщества Практиков Конкурентной разведки (СПКР) »   Предложения по программе для допроса Интернета СайтСпутник »   Блэклист сайтов
RSS

Последние RSS
Англоязычный интерфейс программы "Сайт Спутник"
Учебник по конкурентной разведке
Конкурентная разведка: маркетинг рисков и возможностей
Книга "История частной разведки США"
Книга "Нетворкинг для разведчиков"
Поиск и сбор информации в интернете в программе СайтСпутник
Новые видеоуроки по программе СайтСпутник для начинающих
Технологическая разведка
SiteSputnik. Мониторинг Телеграм
СайтСпутник: возврат к ранее установленной версии
SiteSputnik. Доступ к результатам работы из браузера
Анализ URL
Браузер для анонимной работы
Топливно-энергетический комплекс
Профессиональные сообщества СБ
Несколько Проектов в одном, выполнение Проектов по частям
SiteSputnik-Bot: Боты в программе СайтСпутник
К вопросу о телеграм
SiteSputnik: Автозамены до и после Рубрикации или Перевода
Демо-доступ к ИАС социальных сетей

Самые активные 20 тем RSS