Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Блэклист сайтов |
<<Назад Вперед>> | Страницы: 1 2 3 4 5 * 6 7 | Печать |
Доктор ТуамОсес |
[q=Алексей Мыльников]"Городить большой огород" специально над сниппетами считаю, что не рационально. Если очень надо, то есть более мощная возможность работы с ними, но в SiteSputnik News[/q] Т.е. предлагаете установить другую программу? Т.е. под каждую задачу я должен ставить новую программу? ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Доктор ТуамОсес написал: Т.е. предлагаете установить другую программу? Нет, нужен более продвинутый вариант программы SiteSputnik, один для всех подобных задач. |
Доктор ТуамОсес |
Профиль | Игнорировать
NEW! Сообщение отправлено: 10 сентября 2013 21:31 Сообщение отредактировано: 10 сентября 2013 21:38
[b]Для: Алексей Мыльников[/b] "Хлопотно это"(с) Домохозяйки не поймут. Гораздо проще и быстрей просто составить список "фраз" которых не должно быть в сниппетах. А для юзверей "покруче" можно добавить возможность добавлять не просто фразы, а паттерны (regex-ы). И всё. Для 99,87% юзверей этих возможностей "за глаза" хватит. Просто даже если программа самая суперская, но если уровень её сложности начинает превышать некоторый порог, то количество её юзверей скачком падает практически до нуля. Вам оно надо? ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Для Доктор ТуамОсес. То есть фразы сначала были нужны, а теперь уже нет? Вы как-то разберитесь сами с собой и перечитывайте то, что писали ранее. По существу, нет смысла специально развивать для сниппетов сложные операции вида: фразы, логичеcкое "И", "Не", "ИЛИ" между ними, расстояние между словами, точные фразы, ... Причина следующая: сниппет, грубо говоря, составляет одну десятую или меньшую часть контента ссылки. Это приведёт к потере точности поиска на этих операциях до "неузнаваемости". Лучше тщательнее сформируйте сами запросы, входящие в пакет запросов. Тогда будет толк. Черные и белые списки предназначены для действий над адресом ссылки, который есть практически в любом сниппете, или для отсева заведомо ненужной информации по списку слов. Именно это и реализовано в СайтСпутнике. Более сложные операции имеет смысл применять на полном контенте ссылки, а не на сниппетах. |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Дополню слова Алексея Борисовича. В СайтСпутнике версии "Ньюс" реализован мощный механизм рубрикации, который позволяет собирать именно то, что нужно, отсеивая лишнее. Рубрикатор эффективно корректирует ошибки поисковиков. Даже работая с поисковиком, обладающим примитивными возможностями языка запросов, Вы сможете выбирать из него именно то, что соответствует вашим потребностям. Алексей Борисович правильно Вам указал, что если Вы будете опираться только на возможности поисковиков и работать только со сниппетами, то упустите массу ценной информации. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
2 Доктор ТуамОсес Демо- версия для серьезной работы непригодна. Она для этого и не предназначена. Минимальная конфигурация, которая позволяет автоматизировать большинство вопросов информационного обеспечения бизнеса - это SiteSputnik + News. |
Доктор ТуамОсес |
Профиль | Игнорировать
NEW! Сообщение отправлено: 18 сентября 2013 11:44 Сообщение отредактировано: 18 сентября 2013 11:45
[q=Алексей Мыльников]То есть фразы сначала были нужны, а теперь уже нет? Вы как-то разберитесь сами с собой[/q] Нужны, [b]Алексей Мыльников[/b], нужны. Поэтому очень Вас прошу добавить их. Пожалуйста. Я же не регулярки прошу добавить (хотя это было бы вообще айс ), а просто чтобы и пробельные символы участвовали в сравнении, чтобы в блэк и вайт листы можно было заносить целые фразы. Это же буквально пару-тройку строчек в исходнике программы поправить. Плиз. Просто иначе ценность/кайф использования черных/белых списков практически нивелируется до нуля. Просто бывает так, что на сотне доменов находится одна и та же инфа (рерайтеры, копирайтеры (или как там их?) не зря же едят свой хлеб). Соответственно, в выдаче будет присутствовать сотня сниппетов с разными URL-ами но одним и тем же текстом. Поэтому придётся в ручную набивать в блэк листе все эти сто доменов. А введя, к примеру [q]Лев Толстой[/q] можно было бы одним выстрелом убить сразу сто зайцев. Тем более что может мне не надо фильтровать весь домен, мне нужно отфильтровать определенные веб-странички домена, содержащие не нужную мне инфу. Поэтому оптимальней бы было заносить в блэк лист не URL домена, а фразы, которых не должно быть в выдаче ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 18 сентября 2013 23:28 Сообщение отредактировано: 18 сентября 2013 23:28 Доктор ТуамОсес написал: А их что два было (шутка, не моя)? Толстой А если серьёзно, то в топиках #34 и #48 я Вам подробно ответил. Ещё раз коротко: во-первых, уже есть возможность рубрикации сниппетов, что мощнее фраз и regex, во-вторых, не считаю рациональным тратить силы на совершенствование правил для белых и черных списков, потому что сложные правила на сниппете, составляющем 0.1-0.01 часть контента ссылки сработают, грубо говоря, в 10-100 раз "кривее". Как Вариант используйте операцию "Аналитическое вычитание" и избавьтесь от Алексея Николаевича, Алексея Константиновича, Татьяны, ... тележурналиста и других, всплывающих во время поиска. А ещё лучше, составьте тщательнее пакет запросов. А ещё лучше, посмотрите #12. На 100% не помню, но 99%, что фразы прописывать можно. |
Доктор ТуамОсес |
Профиль | Игнорировать
NEW! Сообщение отправлено: 19 сентября 2013 10:17 Сообщение отредактировано: 19 сентября 2013 13:29
[q=Алексей Мыльников]Ещё раз коротко: во-первых, уже есть возможность рубрикации сниппетов[/q] Нету. В триальной версии нету. [q=Алексей Мыльников]сложные правила на сниппете, составляющем 0.1-0.01 часть контента ссылки сработают, грубо говоря, в 10-100 раз "кривее".[/q] Ну чтобы юзать регэкспы не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи? Ведь куда как лучше отфильтровать не нужные 90% ссылок для которых можно понять что они не содержат нужной информации даже по маленькому сниппету, а уж оставшиеся страницы полностью скачивать. ==================================== [s]Кстати. А элементы черного списка у Вас регистрозависимы? Т.е. "Папа" и "паПа" разные слова? В описалове вроде как говорилось что да. Но тогда почему когда я ввел в ЧС "Word" (без ковычек), то у меня отфильтровался сразу домен "wordpress"? [/s] [url=http://forum.razved.info/index.php?t=1007&p=45833#pp45833]Судя по ЭТОМУ нет[/url] ========================== [q=Алексей Мыльников]Как Вариант используйте операцию "Аналитическое вычитание" и избавьтесь от Алексея Николаевича, Алексея Константиновича, Татьяны, ... тележурналиста и других, всплывающих во время поиска.[/q] Не очень понял. Вы предлагаете сначала создать запрос в котором будет "Алексей Толстой" Потому запрос: "Алексей" "Толстой" А потом из второго запроса вычесть первый? Я правильно понял Вашу мысль? ========================= [q=Алексей Мыльников] На 100% не помню, но 99%, что фразы прописывать можно. [/q] Ещё раз попробовал разные варианты и наконец понял в чём дело. Почему у меня фразы не фильтровались. Потому что слово "Алексей" в выдаче было написано жирным шрифтом, а "Толстой" - обычным. Т.е. если глянуть в исходный код сниппета то видно , что слова разделены между собой не только пробелом, но и тегами. Но я то не знал, что в Вашей программе поиск фраз из черного списка "сырой"/"в лоб" (т.е. ведется по исходному коду страницы включая символы тегов (\ < > и др.). А Вы это нигде не написали. Т.е. когда я написал <b>Владимир</b> Ильич, то у меня из объединения выдач исчезли сниппеты, содержащие фразу "Владимир Ильич" [q=Алексей Мыльников] На 100% не помню[/q] Вот для этого и нужно писать нормальный хэлп, где всё чётко и ясно было бы прописано. Чтобы юзверям не приходилось работать с программой по методу "научного тыка". Ведь зачастую юзвери отказываются юзать мощные классные программы только потому что нет нормального хэлпа к ним. Потому что получается, что программа вроде как хорошая, но "вещь в себе". Или юзвери юзают только 10% возможностей программы (потому что про другие либо ничего не знают, либо не понимают как их использовать, потому что хэлпа нормального нет) и бывают разочарованы. И переходят на др. программу ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Семёныч
Модератор форума
Городской Охотник Всего сообщений: 926 Рейтинг пользователя: 10 Ссылка Дата регистрации на форуме: 8 июня 2009 |
Впечатляет меня упорство человека, юзающего кастрированную версию программы (дэмо-версию) и при этом, умудряющийся в ней разобраться и что-то из неё выжать. Ну, это сухие эмоции. По-делу, соглашусь с Доктор ТуамОсес в том, что хэлп к программе не поспевает за теми функциями, которые в ней постоянно появляются. Последний раз мануал редактировали год назад? А изменений в ней добавилось и немало! Сомневаюсь, что в хэлпе можно прописать все нюансы программы, но стремиться к этому надо. А если кто-то из пользователей нашёл некий нюанс, не включённый в хэлп, то почему бы этот нюанс туда не добавить? ---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с) |
<<Назад Вперед>> | Страницы: 1 2 3 4 5 * 6 7 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Блэклист сайтов |
Самые активные 20 тем | |