Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Блэклист сайтов |
![]() |
<<Назад Вперед>> | Страницы: 1 2 3 4 5 6 7 | Печать |
Доктор ТуамОсес |
Профиль | Игнорировать
NEW! Сообщение отправлено: 18 сентября 2013 11:44 Сообщение отредактировано: 18 сентября 2013 11:45
[q=Алексей Мыльников]То есть фразы сначала были нужны, а теперь уже нет? Вы как-то разберитесь сами с собой[/q] Нужны, [b]Алексей Мыльников[/b], нужны. Поэтому очень Вас прошу добавить их. Пожалуйста. Я же не регулярки прошу добавить (хотя это было бы вообще айс ![]() Просто иначе ценность/кайф использования черных/белых списков практически нивелируется до нуля. ![]() Просто бывает так, что на сотне доменов находится одна и та же инфа (рерайтеры, копирайтеры (или как там их?) не зря же едят свой хлеб). Соответственно, в выдаче будет присутствовать сотня сниппетов с разными URL-ами но одним и тем же текстом. Поэтому придётся в ручную набивать в блэк листе все эти сто доменов. А введя, к примеру [q]Лев Толстой[/q] можно было бы одним выстрелом убить сразу сто зайцев. Тем более что может мне не надо фильтровать весь домен, мне нужно отфильтровать определенные веб-странички домена, содержащие не нужную мне инфу. Поэтому оптимальней бы было заносить в блэк лист не URL домена, а фразы, которых не должно быть в выдаче ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 18 сентября 2013 23:28 Сообщение отредактировано: 18 сентября 2013 23:28 Доктор ТуамОсес написал: А их что два было (шутка, не моя)? Толстой А если серьёзно, то в топиках #34 и #48 я Вам подробно ответил. Ещё раз коротко: во-первых, уже есть возможность рубрикации сниппетов, что мощнее фраз и regex, во-вторых, не считаю рациональным тратить силы на совершенствование правил для белых и черных списков, потому что сложные правила на сниппете, составляющем 0.1-0.01 часть контента ссылки сработают, грубо говоря, в 10-100 раз "кривее". Как Вариант используйте операцию "Аналитическое вычитание" и избавьтесь от Алексея Николаевича, Алексея Константиновича, Татьяны, ... тележурналиста и других, всплывающих во время поиска. А ещё лучше, составьте тщательнее пакет запросов. А ещё лучше, посмотрите #12. На 100% не помню, но 99%, что фразы прописывать можно. |
Доктор ТуамОсес |
Профиль | Игнорировать
NEW! Сообщение отправлено: 19 сентября 2013 10:17 Сообщение отредактировано: 19 сентября 2013 13:29
[q=Алексей Мыльников]Ещё раз коротко: во-первых, уже есть возможность рубрикации сниппетов[/q] Нету. В триальной версии нету. ![]() [q=Алексей Мыльников]сложные правила на сниппете, составляющем 0.1-0.01 часть контента ссылки сработают, грубо говоря, в 10-100 раз "кривее".[/q] Ну чтобы юзать регэкспы не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи? ![]() Ведь куда как лучше отфильтровать не нужные 90% ссылок для которых можно понять что они не содержат нужной информации даже по маленькому сниппету, а уж оставшиеся страницы полностью скачивать. ==================================== [s]Кстати. А элементы черного списка у Вас регистрозависимы? Т.е. "Папа" и "паПа" разные слова? В описалове вроде как говорилось что да. Но тогда почему когда я ввел в ЧС "Word" (без ковычек), то у меня отфильтровался сразу домен "wordpress"? ![]() [url=http://forum.razved.info/index.php?t=1007&p=45833#pp45833]Судя по ЭТОМУ нет[/url] ========================== [q=Алексей Мыльников]Как Вариант используйте операцию "Аналитическое вычитание" и избавьтесь от Алексея Николаевича, Алексея Константиновича, Татьяны, ... тележурналиста и других, всплывающих во время поиска.[/q] Не очень понял. Вы предлагаете сначала создать запрос в котором будет "Алексей Толстой" Потому запрос: "Алексей" "Толстой" А потом из второго запроса вычесть первый? Я правильно понял Вашу мысль? ========================= [q=Алексей Мыльников] На 100% не помню, но 99%, что фразы прописывать можно. [/q] Ещё раз попробовал разные варианты и наконец понял в чём дело. Почему у меня фразы не фильтровались. Потому что слово "Алексей" в выдаче было написано жирным шрифтом, а "Толстой" - обычным. Т.е. если глянуть в исходный код сниппета то видно , что слова разделены между собой не только пробелом, но и тегами. Но я то не знал, что в Вашей программе поиск фраз из черного списка "сырой"/"в лоб" (т.е. ведется по исходному коду страницы включая символы тегов (\ < > и др.). А Вы это нигде не написали. Т.е. когда я написал <b>Владимир</b> Ильич, то у меня из объединения выдач исчезли сниппеты, содержащие фразу "Владимир Ильич" ![]() ![]() ![]() [q=Алексей Мыльников] На 100% не помню[/q] Вот для этого и нужно писать нормальный хэлп, где всё чётко и ясно было бы прописано. Чтобы юзверям не приходилось работать с программой по методу "научного тыка". Ведь зачастую юзвери отказываются юзать мощные классные программы только потому что нет нормального хэлпа к ним. Потому что получается, что программа вроде как хорошая, но "вещь в себе". Или юзвери юзают только 10% возможностей программы (потому что про другие либо ничего не знают, либо не понимают как их использовать, потому что хэлпа нормального нет) и бывают разочарованы. И переходят на др. программу ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Семёныч
Модератор форума
Городской Охотник Всего сообщений: 926 Рейтинг пользователя: 10 Ссылка Дата регистрации на форуме: 8 июня 2009 |
Впечатляет меня упорство человека, юзающего кастрированную версию программы (дэмо-версию) и при этом, умудряющийся в ней разобраться и что-то из неё выжать. ![]() По-делу, соглашусь с Доктор ТуамОсес в том, что хэлп к программе не поспевает за теми функциями, которые в ней постоянно появляются. Последний раз мануал редактировали год назад? А изменений в ней добавилось и немало! Сомневаюсь, что в хэлпе можно прописать все нюансы программы, но стремиться к этому надо. А если кто-то из пользователей нашёл некий нюанс, не включённый в хэлп, то почему бы этот нюанс туда не добавить? ---
Нет такой безвыходной ситуации,в которую невозможно вляпаться... (с) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Уважаемый Доктор ТуамОсес, Блэклист сайтов создавался для: petryashov написал: Оно и понятно: практически в каждом сниппете есть URL. Алексей, мы когда-то этот вопрос уже обсуждали, но он как-то завис. Попутно этот приём можно применить и для фильтрации сниппетов по контексту, а именно: по единичным словам, без учета регистра. Развивать этот прием (уже в третий раз пишу) не считаю нужным, потому что в SiteSputnik News это уже есть (оно получилось "попутно", без целенаправленной разработки) и потому что применение языка запросов к сниппетам приводит к потере значимой информации. Я не сторонник доведение какой-то идеи до абсурда. По поводу Help(a). Отставание его содержания от производимого матобеспечения есть, но на форуме я всегда декларирую новые функциональные возможности программы, также выкладываю их на странице _http://sitesputnik.ru/Public.htm и в колонке "Хроника событий" на главной странице сайта о программе СайтСпутник. |
Доктор ТуамОсес |
Профиль | Игнорировать
NEW! Сообщение отправлено: 20 сентября 2013 12:15 Сообщение отредактировано: 20 сентября 2013 12:19
[q=Алексей Мыльников]применение языка запросов к сниппетам приводит к потере значимой информации[/q] Я же писал: [q=Доктор ТуамОсес]Ну чтобы юзать регэкспы {[i]прим.ну или как Вы пишите "язык запросов"[/i]} не на сниппете, а на всем тексте веб-страницы её нужно сначала скачать. Вы предлагаете людям скачивать все 800 ссылок объединения выдачи?[/q] На этот вопрос ответите? Разве не эффективней сразу отфильтровать 90% сайтов ещё на этапе анализа содержимого сниппетов, чем тянуть из инета к себе на хард диск ГИГАБАЙТЫ мусора? Ведь в большинстве случаев уже по сниппету веб-страницы в яндексе можно понять, что полностью читать веб-страницу не стоит. Не согласны? ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Доктор ТуамОсес |
Профиль | Игнорировать
NEW! Сообщение отправлено: 20 сентября 2013 12:30 Сообщение отредактировано: 20 сентября 2013 12:48
[q=Семёныч]Впечатляет меня упорство человека, юзающего кастрированную версию программы (дэмо-версию) и при этом, умудряющийся в ней разобраться и что-то из неё выжать. [/q] Дело в том, что я привык что триальная версия - это та же Pro версия, но только с искусственно введенными ограничениями (грубо говоря константы в ней просто меньшего значения типа не for i=1 to 1000, а for i=1 to 10 и т.п.). И я привык, что [b]триал версия - это "лицо продукта"[/b]. А если триал версия глючит (копки исчезают, постоянно вылетает с потерей данных, описалова нормального нет и т.д. и т.п.) тот какой <пип пип пип> будет покупать Pro-версию? ![]() Т.е., грубо говоря, алгоритм такой: - Человек пробует триал-версию. - Она ему нравиться и он хочет большего. - Он покупает Pro-версию. А не такой: - Человек пробует триал-версию. - Она вызывает у него раздражение своей "сыростью" и глюками. - Он покупает Pro-версию в надежде "а может там лучше?". ==================================================================================== P.S.Я за свою жизнь юзал для разных целей более 1000 программ. Чтобы их все купить - нужно быть Абрамовичем ![]() А при моей зарплате 20 000 руб в месяц и наличии 4 "спиногрызов" сами понимаете выделить даже 200 руб в месяц на покупку софта - это серьёзный удар по семейному бюджету. Поэтому давайте оставим в покое вопрос "а че он не хочет купить Pro версию и юзает кастрированный триал". Впрочем я бы не пожалел и 5000 руб даже при моём более чем скромном бюджете если бы функционал программы этого стоил. Но пока я не вижу в программе чего-то такого/эдакого, чтобы я бы аж ахнул. Пока функционал программы такой, что я сам смогу наваять подобный функционал за пару недель на каком-нибудь Autohotkey, Selenium и т.п. Продолжение этой темы [url=http://forum.razved.info/index.php?t=4256]ТУТ[/url] ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Доктор ТуамОсес написал: Доктор ТуамОсес написал: У меня СайтСпутник работает ежедневно. В среднем вытаскивает каждые сутки от 12 до 18 тысяч полнотекстовых сообщений (а не только ссылок), которые затем вычищаются и рубрицируются в 120 Рубрик. И что? 800 ссылок это "мелочь" для программы. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Доктор ТуамОсес |
Профиль | Игнорировать
NEW! Сообщение отправлено: 21 сентября 2013 2:10 Сообщение отредактировано: 21 сентября 2013 2:31
[q=Игорь Нежданов]У меня СайтСпутник работает ежедневно. В среднем вытаскивает каждые сутки от 12 до 18 тысяч полнотекстовых сообщений [/q] Очень любопытно ![]() В связи с этим у меня к Вам ряд вопросов: - Это в гигабайтах сколько? - У Вас наверное очень жирный канал (сколько мегабайт в секунду средняя скорость даунлодадинга) - Зачем Вам так много инфы? Что Вы с ней делаете-то? Или Вы просто сканируете в инет на предмет чего-то конкретного? Типа "а не появилось ли "оно"?" - Вы согласны, что 99,9 % скаченной инфы - это шлак/мусор? Тогда зачем её качать? [q=Игорь Нежданов] 800 ссылок это "мелочь" для программы. [/q] Но для моего старенького компа и "тоненького" инет канала это огромная нагрузка. 18 000 веб страниц ... это примерно 5 гигабайт инфы в день. Зачем столько? Ведь человек даже сотню страниц в день не осилит вдумчиво прочитать. Или Вы не читаете, а просто сканируете? [q=Игорь Нежданов]800 ссылок это "мелочь" для программы. [/q] У меня одна страница загружается в среднем за 20 секунд. 800 x 20 = 16 000 секунд. Т.е. примерно 4,5 часа потребутся программе.. Я за это время 10 раз уже успею вручную "нагуглить" то, что мне надо ![]() Путем анализа выдачи поисковиков и модификации по результатам этой выдачи своих поисковых запросов И вообще, ИМХО, устраивать у себя на компе мини-гугль (закачивая на хард с целью анализа десятки тысяч ссылок) - это порочная идея. ИМХО, нужно бить интеллектуальностью, чтобы как можно меньше качать на хард не нужной инфы. А не тупо, "в лоб" качать всё что попалось За счёт чего это можно сделать? 1) За счёт более детального анализа сниппетов выдачи поисковиков и содержимого все-таки скачанных на хард веб-страниц 2) За счёт более лучших и качественных запросов Поэтому, ИМХО, главными задачами программы должны быть: 1) автоматизация анализа сниппетов и скачанных веб-страниц 2) автоматизация фильтрации "левой" информации 3) [b]автоматическое[/b] (или интерактивное в режиме "подсказка") генерирование новых "хороших" запросов по результатам анализа ---
Я разработчик новых концепций, от которых содрогнется вся цивилизация doctortuamoses.0pk.ru |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Доктор ТуамОсес написал: В связи с этим у меня к Вам ряд вопросов: По разному - от двухстрочных сообщений в твиттере или в соцсети, до аналитических текстов в десяток страниц. Поэтому каждый раз по разному. Доктор ТуамОсес написал:
Канал не плохой - утверждают, что не менее 512 мегабит. Доктор ТуамОсес написал:
У меня за 30 постоянных потребителей информации, каждого из которых интересует от одного до 15 тем (направлений). По этим темам основной вопрос именно тот - "не появилось ли чего то ценного по ней". Доктор ТуамОсес написал:
Нет - это как настроить первичный сбор информации. Т.е выбрать правильные источники, составить правильные запросы и т.п. "мусорной информации" (по ощущениям - не считал) не более 20%. И, полагаю можно еще подсократить, но это нужно тщательнее поработать с источниками. Доктор ТуамОсес написал: Зачем столько? Ведь человек даже сотню страниц в день не осилит вдумчиво прочитать. Или Вы не читаете, а просто сканируете? Надеюсь уже ответил на этот вопрос. Из всего объема именно для меня всего 5 тем, в каждой по 2 - 10 сообщений в сутки. Медленный инет это не приятно. Но и в этом случае СайтСпутник сильно облегчает жизнь Предполагаю, что вы не используете возможности тонкой настройки (их нет в бесплатной версии) и правильного построения запросов к источникам информации. Тем ни менее с вашим общим посылом я согласен - на счет того, что нужно максимально поднимать эффективность. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
<<Назад Вперед>> | Страницы: 1 2 3 4 5 6 7 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Предложения по программе для допроса Интернета СайтСпутник » Блэклист сайтов |
![]() |
Самые активные 20 тем |
![]() |