Последнее в категории Поиск

Интеллект из случайности

| Нет комментариев | Нет трекбэков
Перечитывал старые статьи про реферирование документов. В 1958-м году Лун опубликовал первую работу по этой теме, «The Automatic Creation of Literature Abstracts», в которой меня поразила следующая цитата:
However, instead of sampling at random, as reader normally does when scanning, the new mechanical method selects those among all the sentences of an article than are most representative of pertinent information.
То есть, считалось, что человек при беглом просмотре статьи выбирает фрагменты для ознакомления случайно, а предлагаемый алгоритм делает это на основе оценки важности или показательности  того или иного кусочка текста. И в том как раз помощь человечеству: раз выборка делается не случайно, а по разумным критериям, это точно будет лучше, чем раньше.

Как сильно это отличается от современного подохода к подобным задачам! Понятно, что изменение точки зрения произошло как раз из-за наблюдения за подобными алгоритмами, где простые варианты расчёта весов почему-то не работают, а сложные становятся запутанными для самих создателей: 200 разных настроечных коэффициентов, десятки словарей, понять что на что влияет крайне сложно.
 
Поэтому сейчас, наоборот, считается что никакой особенной случайности в выполняемых человеком действиях нет, и что как раз нужно извлекать закономерности из поведения человека, причём по возможности так, чтобы сам наблюдаемый человек об этом не знал, а выполнял свои действия рутинно. Математическая модель выбирается исходя из её потенциальной вычислимости, а параметры настраиваются из экспериментов, т.е. обучаются.

Тем самым, сейчас фактически предполагается невозможность человеком формализовать поведение самого себя, а основной расчёт делается на  автоматическое извлечение паттернов поведения при исследовании большого количества примеров этого поведения.

Интересно, если когда-нибудь методы машинного обучения достигнут такого совершенства, что таки будет создан и поставлен на поток Настоящей Искусственный Интеллект (чтобы не подразумевалось под этим термином), будет ли зафиксировано создание ИИ человеком (и, как следствие, равенство его Богу, не меньше; а может атеистический триумф), или будет принято во внимание, что в результате обучения человек ничерта не понимает в результате: что-то там как-то обучилось, но почему именно так и что сделать, чтобы было иначе -- неясно, т.к. ни один человек в мире не сможет осознать смысла значений полученных в результате обучения миллионов или миллиардов параметров математической модели этого «настоящего» ИИ.

Самое смешное, что текущий метод создания Естественного Интеллекта, в принципе, похож на этот гипотетический. ЕИ рождается, а дальше ведёт себя совершенно как хочет, и методов повлиять на него у создателей довольно мало, и все сводятся к тому же обучению на собственном примере. Я к тому, что типичная бытовая задача: есть некий представитель ЕИ, можно ли сделать точно такого же, но чуть более доброго-вежливого-терпимого -- не решается как раз из-за непонимания сложности взаимосвязей в ЕИ. То есть, наверное, можно как-то сосредоточиться и чуть изменить желаемый параметр, но ведь и остальные «поедут». Так что если вдруг получится что-то изменить (что маловероятно), то это будет какой-то совсем другой ЕИ, скорее всего неожиданно хуже предыдущего по суммарным параметрам.

И, спрашивается, зачем тогда мучаться и создавать этот самый ИИ? Чтобы огрести всё те же проблемы, но только более сложным путём? Нет, конечно. Это всё имеет смысл только потому, что интересен не Искусственный Интеллект, а Искусственный Недоинтеллект. Но ведь не получится остановиться на пути совершенствования Недоинтеллекта: Интеллект появится сам по себе.

Это всё довольно очевидные мысли, которые так или иначе уже просачивались в фантастические повести и кинофильмы, однако, повторю, меня поразила первая цитата, ясно демонстрирующая путь, который прошла современная наука в представлениях об автоматизации человеческого труда.

От
Мы в себе ничего не понимаем, но там и понимать нечего -- всё что ни сделаем, будет лучше!
до
Мы сами в себе ничего не понимаем, но это не беда: автоматизируем, не задумываясь! Только бы хватило процессорных мощностей.

RuSSIR'2009

| Нет комментариев | Нет трекбэков
Сентябрь провёл в разъездах. В частности, побывал в Петрозаводске, на летней (осенней?) школе по информационному поиску RuSSIR'2009.

Впечатления сугубо положительные, в этом году школа оказалась лучше, чем в 2008. Особенно был хорош курс «Modeling Web Searcher Behavior and Interactions», ради него одного стоило туда поехать. Так же было интересно послушать «Enterprise and Desktop search», а «Information Retrieval Modeling» оказался очень продуманным вводным курсом, вполне вероятно я из него что-нибудь позаимствую для своего курса по информационному поиску в МАИ.

Впрочем, не всё было ровно. Курс «Computational advertising: business models, technologies and issues», из-за которого я и поехал на RuSSIR во второй раз, был унылым, лектор вместо собственно вычислительной рекламы зачем-то решил рассказать про теорию оптимизации, снабдив свои лекции совершенно безумным количеством слайдов (в книге со всеми слайдами его курс занял больше половины имеющегося места). Ну и «Linguistic Semantics for Search Precision and Recall Improvement» не впечатлил.

Но вообще, было здорово.

Длина слова

| Нет комментариев | Нет трекбэков
В любых задачах, связанных с обработкой текстов на естественном языке, так или иначе возникает небольшая проблема: какой максимальной длины может быть слово?

Ответ тут такой: если для небольшой коллекции документов этот лимит может быть посчитан, то для постоянно разрастающегося и потенциально бесконечного индекса всего интернета размеры слов могут быть любыми, к чему нужно быть готовым. Тут бывают и настоящие слова (к примеру, немецкие числительные), но в основном попадается всякий мусор, с которым тоже приходится работать. Естественно, что потом делать с длинными словами -- вопрос отдельный, их можно урезать, можно дробить, можно вообще не учитывать, но вот падать на них совершенно ни к чему.

Недавно столкнулся с ещё одним примером того, что если один человек чего-то сделал, то другой завсегда может это сломать. Ну и то что даже в русском языке слова могут быть любой длины (хотя в словарях их, конечно, не найти). На одном форуме один человек другому написал:

ДЭЭЭ....ЭЭЭЭБИЛ

в 1032 символа.

И конечно же это слово оказалось чрезвычайно сложным для индексации! Какое коварство: длина слова не только больше 256, но даже 1024-х символов! Вокруг все опытные программисты, понятное дело. Но сколько же можно по одним и тем же граблям ходить? В одном месте эти ограничения учли, в другом месте забыли...

Об архиве

Эта страница содержит последние записи категории Поиск.

Предыдущая категория — Общество.

Следующая категория — Политика.

Смотрите новые записи на главной странице или загляните в архив, где есть ссылки на все сообщения.

Страницы

OpenID принимается здесь Узнать больше об OpenID