CFA LogoCFA Logo Computer
Новости Статьи Магазин Драйвера Контакты
Новости
RSS канал новостей
В конце марта компания ASRock анонсировала фирменную линейку графических ускорителей Phantom Gaming. ...
Компания Huawei продолжает заниматься расширением фирменной линейки смартфонов Y Series. Очередное ...
Компания Antec в своем очередном пресс-релизе анонсировала поставки фирменной серии блоков питания ...
Компания Thermalright отчиталась о готовности нового высокопроизводительного процессорного кулера ...
Компания Biostar сообщает в официальном пресс-релизе о готовности флагманской материнской платы ...
Самое интересное
Программаторы 25 SPI FLASH Адаптеры Optibay HDD Caddy Драйвера nVidia GeForce Драйвера AMD Radeon HD Игры на DVD Сравнение видеокарт Сравнение процессоров

АРХИВ СТАТЕЙ ЖУРНАЛА «МОЙ КОМПЬЮТЕР» ЗА 2003 ГОД

Об отделении зерен от плевел

Дмитрий ЛАНДЭ, к.т.н., заместитель директора Информационного центра «ЭЛВИСТИ»

Сегодня, когда сеть Интернет превратилась во всемирную медиа-среду, она становится одним из самых важных и доступных источников информации. По экспертным оценкам, количество новостей только в украинском и российском сегментах Интернета превышает 20 тысяч сообщений в сутки. Ориентация в информации такого типа с помощью традиционных поисковых систем весьма затруднительна, так как периоды индексации у них составляют от недели до нескольких месяцев. Несмотря на то, что практически все известные поисковые порталы (Google, Yahoo!, AltaVista, Alltheweb и др.) имеют новостные разделы, они зачастую уже не устраивают не только профессионалов, но и обычных пользователей.

Уже никто не отрицает факта, что работа с открытыми источниками является наиболее эффективным способом формирования информационной среды по различным тематикам и направлениям. Однако само наличие данных может помочь пользователю лишь при возможности эффективного доступа к ним. Вместе с тем, традиционным подходам к организации поиска сетевой информации присущи такие недостатки, как низкая оперативность, зависимость от выбора источников и ограниченность спектра этих источников, средние поисковые возможности, отсутствие средств уведомления о появлении новых данных, слабая защита компьютерной информации. Оптимальное решение, способное помочь ориентироваться в новостной информации из Интернета, в настоящее время предоставляют информационные службы нового типа — системы мониторинга (интеграторы) новостей в web-пространстве.

Технология мониторинга и последующей синдикации интернет-новостей подразумевает такие основные этапы, как «обучение» программ сбора информации структуре выбранных источников, сканирование информации, ее нормирование, приведение к внутрисистемному формату (в последнее время все чаще к XML), классификация, кластеризация, доставка пользователям различными каналами: e-mail, WWW, Wap, SMS, другие приложения. В качестве таких приложений могут выступать, например, ставшие уже традиционными полнотекстовые поисковые системы, а также системы контент-анализа и «глубинного анализа текстов» (Text Mining), используемые для автоматического выявления смысла в текстах.

В этой статье мы остановимся лишь на некоторых системах мониторинга интернет-новостей.

Мoreover

http://www.moreover.com

Для интеграции релевантного (соответствующего запросам) полного контента в корпоративные сети или порталы служба Moreover использует патентованное решение —Connected Intelligence. Передача осуществляется порциями от 5500 источников в режиме реального времени, классифицируется и разделяется по темам, обновляется каждые 15 минут (35 тысяч документов в сутки). Возможна адресная доставка информации (CI-Watch) и организация режима доступа (CI-Database) к компактному обзору непрерывно индексируемой полнотекстовой базы данных. Эти сведения могут также интегрироваться клиентом в корпоративную сеть, на портал, сайт или передаваться программному приложению.

На сайте Moreover содержатся сведения о технологических подходах к интеграции новостей, которые были созданы в этой службе и де-факто стали стандартами в системах мониторинга. В соответствии с этими разработками реализуется следующая технологическая цепочка: сначала выполняется оценка информационного содержания web-ресурса и построение настроечных профилей, описывающих данный ресурс. Редакторы в автоматизированном режиме оценивают ресурсы и формируют профили, удовлетворяющие информационным потребностям клиентов. Затем web-ресурсы автоматически сканируются в соответствии с профилями, происходит преобразование информации в формат XML с добавлением тегов (даты, времени, имени и типа источника). Ищутся повторы и устраняется дублирование. В соответствии с заданными правилами выполняется автоматическая классификация информации и загрузка ее в базы данных. Служба обработки запросов учитывает содержательную часть и требования к регламенту доставки. На последнем этапе происходит вывод и доставка информации клиентам на их web-сайты, в интранет-сети, на входы различных программных приложений.

Google

http://news.google.com

В 2002 году популярная система интернет-поиска Google запустила свой новостной сервис —Google News, который интегрирует информацию с 4500 различных сайтов. Данные рассортированы по нескольким категориям, таким как международные новости, деловой мир, шоу-бизнес, технологии и спорт. «Новости — естественное продолжение нашей миссии», — заявил представитель компании Марисса Майер. Новости в системе отбираются в зависимости от времени их публикации, популярности источника информации и количества статей, появившихся в Интернете, на данную тему.

В ближайшее время компания Google собирается предложить новый вид услуг корпоративным клиентам — рассылку пакетов новостей для использования в аналитических целях и распространения по внутренним сетям.

NewsIsFree

http://www.newsisfree.com

Одна из самых перспективных в Сети служб интеграции новостей NewsIsFree охватывает около 6000 источников (в том числе и несколько десятков российских и украинских). Все новости группируются по 15 основным категориям, которые в свою очередь подразделяются на подкатегории. Примечательно, что режим поиска не представлен в системе в явном виде. Основная особенность службы NewsIsFree — это полная интеграция с XML, в частности с RSS. Примечательно, что служба именует себя агрегатором новостей — так обычно называются программы, обеспечивающие доставку новостной информации непосредственно пользователем. Большинство разделов сайта службы содержат ссылки Syndicate, активизация которых приводит к отображению кода разделов в формате XML. Служба NewsIsFree, как и программа-агрегатор, позволяет группировать публикации из различных источников, давая возможность одновременно отслеживать появление новостей на всех сайтах без захода на каждый ресурс в отдельности. При этом, конечно же, не требуется загружать из Интернета лишней информации, относящейся, например, к оформлению web-страниц. Дизайн web-страниц службы NewsIsFree также максимально приближен к концепции XML — элементы оформления как таковые практически отсутствуют :-).

Информационное агентство «Интегрум»

http://www.integrum.ru

Крупнейшее в России агентство по интеграции новостей Интегрум (http://www.integrum.ru) обеспечивает собирание в единый массив электронных версий коммерческих, статистических и новостных информационных продуктов.

Контент-механизмом службы является авторской разработкой агентства — это лингвистическая поисковая система Артефакт, основанная на сложных морфологических алгоритмах. В 3800 базах данных службы сагрегировано 170 млн. документов, ежесуточно пополняющихся на 10 тыс. документов. Сервис Персональная газета заключается в создании запросов-роботов, осуществляющих автоматический поиск и доставку материалов подписчику по заданным ими ключевым словам. Сервис имеет развитую систему настроек по контексту и источникам информации. Каждый запрос обрабатывается системой Артефакт от одного до трех раз в сутки. В результате выбираются предварительно загруженные в базу данных документы, соответствующие запросам, которые высылаются пользователям по электронной почте.

Яндекс

http://news.yandex.ru

Как и для американских информационно-поисковых порталов, необходимость интеграции динамичного новостного контента стала насущной проблемой и для аналогичных российских служб. Известный поисковый портал «Яндекс» открыл проект Яндекс.Новости, к которому в настоящее время присоединились около 130 интернет-изданий. Главной особенностью «Яндекс.Новости» как открытого публичного сервиса является наличие тем, которые объединяют содержательно близкие новости с различных сайтов. Для сбора новостей используется формат RSS 2.0 (Realy Simple Syndication), позволяющий прилагать к ним дополнительную информацию, в том числе и мультимедийную.

Посетитель «Яндекс.Новостей» может воспользоваться тематическими разделами (все полученные новости группируются по десяти рубрикам), а также подписаться на новости определенной тематики или соответствующие конкретному поисковому запросу. Поиск новостей возможен как по всем источникам, так и по заданным пользователем. Имеется также возможность поиска за произвольный период времени.

Технология InfoStream

http://infostream.com.ua

Технология InfoStream предназначена для автоматизированного сбора информации с сайтов, ее обработки, систематизации, обобщения и обеспечения доступа к ней. Ядром системы обработки контента является полнотекстовая информационно-поисковая система InfoReS, обеспечивающая обработку данных в трех основных режимах:

избирательного распространения;

интерактивного доступа к полнотекстовым базам данных;

контент-мониторинга.

Если пользователь хочет получать новостную информацию по интересующей тематике (она определяется на языке запросов с помощью ключевых слов, логических операторов, операторов контекстной близости и скобок) по e-mail, SMS или встроить постоянную подборку в свою веб-страницу, то к его услугам сервис InfoStream Сlient. Персонализация интерфейса пользователей, работающих в режиме онлайн, то есть сохранение их постоянных запросов и организация подписки, реализуется на основе современной технологии RSS (этот формат данных и технический стандарт обеспечивает интегрированный доступ к новостной информации на web-сайтах).

Сегодня системой InfoStream охватывается ежедневно свыше 20 000 документов из более чем 500 информационных источников, перечень которых постоянно изменяется. Количество этих источников постоянно растет. Сведения о новых информационных источниках поступают как непосредственно от разработчика, так и от пользователей сервисов InfoStream. В результате реализуется эффективный механизм обратной связи между службой сопровождения системы и пользователями.

WAP-портал холдинга UAport (http://wap.uaport.net) через InfoStream-шлюз обеспечивает просмотр на экране мобильного телефона новостей с десятков веб-сайтов. Они сгруппированы по тематикам, странам, источникам. Это еще один из возможных вариантов доставки информации.

Итак, InfoStream Port. Это впервые созданное в Украине аппаратно-программное решение является реализацией новостного поискового сервера, предназначенного для информационного обеспечения компаний разного уровня. Информационное обеспечение InfoStream Port базируется на использовании информационного хранилища, формируемого на технической площадке ElVisti в результате ряда технологических операций:

сбор информации в Интернете;

нормализация информации, приведение ее к единому формату;

автоматическая классификация информации;

помещение данных в информационное хранилище;

предоставление санкционированного доступа к информационному хранилищу.

Использование InfoStream Port обеспечивает:

существенную экономию интернет-трафика;

формирование и хранение ретроспективных баз данных практически неограниченных объемов;

интерактивный доступ корпоративных пользователей к базам данных;

комфортную работу пользователей с неограниченного количества рабочих мест;

высокий уровень защиты данных;

экономию затрат на администрирование системы.

Системы мониторинга интернет-новостей решают лишь одну часть проблем информационного обеспечения. Но сегодня в них также включается и последующее обобщение данных, их обработка и анализ.

Одним из самых перспективных направлений обобщения информационных потоков в настоящее время является контент-мониторинг. В простейшем виде его идею можно сформулировать как постоянное воспроизводимое во времени выполнение контент-анализа. Подчеркнем, что именно непрерывная обработка входящих данных является самой характерной чертой контент-мониторинга. Собственно контент-анализ выступает тут как методологическая составляющая, однако контент-мониторинг имеет собственную проблематику и собственные пути решения прикладных задач.

Следует отметить, что широкое применение систем контент-мониторинга — явление недавнее, что обусловлено несколькими причинами: социальными, технологическими и экономическими. К социальным причинам можно отнести желание определенных кругов в разных странах монополизировать контент-исследования (прежде всего, политические). Технологическая обусловленность более очевидна — только в последние годы объем электронных новостных сообщений достиг той критической массы, которая позволяет им конкурировать с традиционными СМИ. Например, количество украинских интернет-новостей уже превосходит 5000 в сутки, учет такого потока требует достаточно больших технологических мощностей. Экономические причины также понятны — стоимость развитых систем контент-мониторинга составляет десятки и сотни тысяч долларов, что доступно далеко не всем экспертным центрам (речь не идет об элементарных агентах новостей и ставших уже историей push-каналах).

Рекомендуем ещё прочитать:






Данную страницу никто не комментировал. Вы можете стать первым.

Ваше имя:
Ваша почта:

RSS
Комментарий:
Введите символы или вычислите пример: *
captcha
Обновить





Хостинг на серверах в Украине, США и Германии. © sector.biz.ua 2006-2015 design by Vadim Popov