Версия для печати
- Форум Сообщества Практиков Конкурентной разведки (СПКР) http://forum.razved.info/
-- Техподдержка программы SiteSputnik http://forum.razved.info//index.php?f=95
--- Удаление дублей ссылок, имеющих одинаковое содержание http://forum.razved.info//index.php?t=3509
-- Алексей Мыльников написал 5 октября 2011 14:37
05.10.11. Версия 7.2.4
Удаление в выдаче SiteSputnik News дублей ссылок, имеющих одинаковое содержание. Учитываются ссылки из текущего и предыдущих заданий (ссылки полученные в старых версиях, на предмет дублирования их контента не рассматриваются).
-- tungus1973 написал 5 октября 2011 17:28
Алексей Мыльников написал:[q]
Удаление в выдаче SiteSputnik News дублей ссылок, имеющих одинаковое содержание.[/q]
А возле теста останутся ссылки на дубли? Иногда интересно знать, на каких ресурсах одновременно была размещена одна и та же статья.
Будут ли сравниваться тексты, которые были ранее? Например, при первом запуске программы прошла статья, а при следующем запуске программы появилась еще одна точно такая же статья, но размещенная на другом ресурсе.
-- Алексей Мыльников написал 5 октября 2011 18:42
tungus1973 написал:[q]
А возле теста останутся ссылки на дубли? Иногда интересно знать, на каких ресурсах одновременно была размещена одна и та же статья.[/q]
Ссылки на дубли в специальном списке "Повторные". Возле текста ничего нет. Если интересно знать ресурсы, то эффектвнее составить пакет с параметрами и по ключевым словам систематически собирать ссылки на статью.
tungus1973 написал:[q]
Будут ли сравниваться тексты, которые были ранее? Например, при первом запуске программы прошла статья, а при следующем запуске программы появилась еще одна точно такая же статья, но размещенная на другом ресурсе.[/q]
Именно это и сделано. Ранее дубли отлавливались в рамках одного поиска, сейчас в рамках нескольких последних поисков (заданий). Учтите сказанное выше: "...ссылки, полученные в старых версиях, на предмет дублирования их контента не рассматриваются", - то есть, если Вы сейчас выполните задание в новой версии, а через час повторите его, затем через два часа выполните ещё раз это задание, то во второй выдаче не будет дублей из первого выполнения, в третьей из первого и второго. Задания из старых версий алгоритм поиска и отбрасывания дублей по контенту не рассматривает.
Этот форум работает на скрипте Intellect Board
© 2004-2007, 4X_Pro, Объединенный Открытый Проект