Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Сбор контактной информации по списку ЮЛ |
<<Назад Вперед>> | Страницы: 1 * 2 | Печать |
vbl
Модератор форума
Откуда: Нижний Новгород Всего сообщений: 179 Рейтинг пользователя: 0 Ссылка Дата регистрации на форуме: 10 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 17 июня 2010 12:38 Сообщение отредактировано: 17 июня 2010 12:46
Отличная идея. Буду тестировать. В связи с вышесказанным сразу есть вопрос. Как себя ведет СайтСпутник в следующей ситуации: компании, как правило, достаточно активно стараются разместить в Интернете информацию о себе, в том числе контактную. И не только на официальных сайтах, а и на различных тематических порталах, досках объявлений и т.д. Периодически у компании меняются адреса, телефоны и т.п., причем новые контакты добавляются вновь, а старые, как правило, никто не удаляет. Это будет еще более актуальна в случае отсутствия у компании сайта. Как будет вести себя СайтСпутник при нахождении старых и новых данных? Какие будут в таблице? А как решается проблема компаний двойников? Например ООО "Ромашка" может быть в Интернете штук 30 а то и больше. ---
Non progredi est regredi http://www.informnn.ru Информационная рассылка "Конкурентная разведка. Сам себе разведчик" - http://subscribe.ru/catalog/tech.razvedka |
tungus1973
Модератор форума
Откуда: г. Санкт-Петербург Всего сообщений: 795 Рейтинг пользователя: 11 Ссылка Дата регистрации на форуме: 3 июля 2009 |
Попробовал новую функцию ^^Контакты;. Работает быстро, но даёт ошибки. Запускал 4 разных пакета. Два первых пакета (в каждом запрос только по одному предприятию) выдали ошибочные результаты, т.е. все найденные данные - неправильные. В третьем пакете были правильно определены адреса, телефоны, факсы 2х предприятий из 3х. E-mail'ы не найдены, либо найдены неправильно, что, впрочем и не гарантировалось автором. Четвертый пакет - 7 предприятий. По 3м - данные правильные, по 4м предприятиям данные неправильные (т.е. не совпадают ни адрес, ни телефон). В целом идея мне понравилась. Как работает эта функция: СайтСпутник из пакета пользователя создает свой собственный пакет, который запускается по сценарию Main: Пакет пользователя: 00001 ООО "Компания" +Самара Пакет СайтСпутника: ("ООО "Компания"") +адрес +факс +Самара ^^00001 Возможно, для снижения количества ошибок, можно немножко поправить внутренние пакеты СайтСпутника? Например, Яндекс считает ошибкой кавычки, идущие подряд "". Для выявления факсов, в том же Яндексе, можно было применить конструкцию: (факс | "ф."). Для адреса, в Яндексе: !(Адрес | адр.). И т.д. Затем, если я правильно понял, СайтСпутник перебирает найденные странички (сниппеты?) и уже сам вырезает из текста адреса, телефоны, e-mail. Функцию ^^Новости; не пробовал, т.к. не нашел описание, как для неё составлять пакеты. |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
vbl написал: Как себя ведет СайтСпутник в следующей ситуации: компании, как правило, достаточно активно стараются разместить в Интернете информацию о себе, в том числе контактную. И не только на официальных сайтах, а и на различных тематических порталах, досках объявлений и т.д. Периодически у компании меняются адреса, телефоны и т.п., причем новые контакты добавляются вновь, а старые, как правило, никто не удаляет. Это будет еще более актуальна в случае отсутствия у компании сайта. Пытается выбрать стараницу, на которой представлена контактная информация только об обрабатывемом предприятии и выделяет ее. На предмет "старая-новая" в данной версии анализа нет. vbl написал: А как решается проблема компаний двойников? Например ООО "Ромашка" может быть в Интернете штук 30 а то и больше. Указывается город, например, +Волгоград |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
tungus1973 написал: Как работает эта функция: СайтСпутник из пакета пользователя создает свой собственный пакет Да. tungus1973 написал: Затем, если я правильно понял, СайтСпутник перебирает найденные странички (сниппеты?) и уже сам вырезает из текста адреса, телефоны, e-mail. Нет, не сниппеты перебирает, а скачивает целиком страницы и анализирует их. Что касается точности, то здесь можно будет поработать. Я остановился на том, что выполнил требования заказчика. |
petryashov
Администратор
Откуда: Москва Всего сообщений: 480 Рейтинг пользователя: 9 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 17 июня 2010 14:26 Сообщение отредактировано: 17 июня 2010 14:43
Запустил по двум организациям. У первой организации найден старый адрес, по которому ее уже несколько лет как нет. телефон не нашелся вообще. При этом новый адрес и телефон этой организации без особых проблем можно найти, в том числе и на сайте данной организации, находящемся в Яндексе на первом месте по названию организации. А задумка классная, точность бы еще повысить.;-) |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
petryashov написал: А задумка классная, точность бы еще повысить.;-) Как написано выше, "протоптана" дорожка. Надеюсь, что в будущем найдутся другие задачи, с другими объектами и другими "сущностями, которые нужно выявить". Пока как есть. Повышение точности напрямую связано с повышением цены вопроса. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
А если в инете болтается несколько адресов, несколько телефонов и несколько ящиков - в таблице будут все? ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Иоанн написал: А если в инете болтается несколько адресов, несколько телефонов и несколько ящиков - в таблице будут все? Не все, только с одной страницы. |
Игорь Нежданов
Модератор форума
Прагматик Откуда: Советский Союз Всего сообщений: 1025 Рейтинг пользователя: 13 Ссылка Дата регистрации на форуме: 7 июня 2009 |
Профиль | Игнорировать
NEW! Сообщение отправлено: 18 июня 2010 9:09 Сообщение отредактировано: 18 июня 2010 9:46 Alexei Mylnikov написал:
Ага - тогда нужно понимание - с одной страницы это с первой страницы выдачи поисковика? Но с этой страницы все адреса-телефоны? К стати вот еще момент. В результате работы сервиса "Контакты" в СайтСпутнике выдается набор строк в таблице 1 и пара строк в таблице 2. А можно как то "свернуть" эти строки в таблице 1 в одну строку как это в остальных вариантах использования пакетного поиска сделано? Уж больно много места они занимают. ---
Есть вопрос - спрашивайте. На прямой вопрос будет прямой ответ... Лаборатория Перспективных Разработок |
Алексей Мыльников
Долгожитель форума
Откуда: Волгоград Всего сообщений: 877 Рейтинг пользователя: 6 Ссылка Дата регистрации на форуме: 22 июня 2009 |
Иоанн написал: Ага - тогда нужно понимание - с одной страницы это с первой страницы выдачи поисковика? Но с этой страницы все адреса-телефоны? Все адреса-телефоны, относящиеся к предприятию. Иоанн написал: К стати вот еще момент. В результате работы сервиса "Контакты" в СайтСпутнике выдается набор строк в таблице 1 и пара строк в таблице 2. А можно как то "свернуть" эти строки в таблице 1 в одну строку как это в остальных вариантах использования пакетного поиска сделано? Уж больно много места они занимают. Можно запрограммировать свертывание, можно вообще их не создавать. С реализацией папок в БД "Поиск в Интернете" это уже не так актуально. |
<<Назад Вперед>> | Страницы: 1 * 2 | Печать |
Форум Сообщества Практиков Конкурентной разведки (СПКР) » Приемы работы с программой СайтСпутник (SiteSputnik) » Сбор контактной информации по списку ЮЛ |
Самые активные 20 тем | |