Вход на сайт

МЕДИАМЕТРИКА

Облако тегов

Эти типы стали есть на складе

Аватар пользователя bom100

Сегодня резидент «Сколково» компания ABBYY, активно занимающаяся разработками в области компьютерной лингвистики, объявила о выпуске первых коммерческих продуктов, основанных на технологии Compreno, которая обеспечивает понимание компьютером текстов на естественных языках. 

Знаменитый физик Сергей Вавилов говорил, что современный читатель находится перед Гималаями библиотек в положении золотоискателя, которому надо отыскать крупинки золота в массе песка. Отметим, что эти слова были произнесены в 1947 году, когда темпы роста объема информации по нашим меркам были мизерными, да и волновала академика Вавилова по большей части проблема поиска нужных данных в публикациях научных журналов.

Сейчас ситуация стала еще драматичней. В зависимости от критериев оценки срок, за который общее количество информации в мире удваивается, в наши дни определяют в диапазоне от двух месяцев до года. Теперь читателя можно сравнить уже не с золотоискателем, ищущим крупинку золота в массе песка, а с безумцем, который хочет найти молекулу в мировом океане.

Но у современного человека есть помощник, которого не было у Сергея Вавилова. За почти 70 лет значительно шагнула вперед компьютерная техника. И быстродействие вычислительных машин, и их «умения» позволяют нам переложить задачу по поиску «крупинок золота в массе песка» на компьютерные программы. Когда это только начиналось под скромным названием «автоматизация информационного поиска», компьютер мог лишь сортировать данные в каталогах и выдавать их в ответ на запрос пользователя, ориентируясь на краевую перфорацию в перфокарте. Теперь же программа может анализировать тексты в поисках нужной информации, и мы уже говорим о задачи «извлечения данных» (data mining).

Программы легко могут анализировать структурированные данные – представленные в виде таблиц, списков, баз данных. Они могут анализировать огромные объемы информации, подвергать их статистической обработке со скоростью, недоступной человеку. Но проблема в том, что большая часть информации в мире представлена в виде неструктурированных данных. И нам хочется, чтобы программа умела работать с ними. Мы хотим, чтобы она могла анализировать, например, библиотеки статей прессы, отсевая ненужное и выбирая информацию по интересующему нас вопросу. Не стоит забывать и о том огромном количестве текстов, которые каждый день создают пользователи социальных сетей. Эти тексты тоже содержат информацию, которая может быть интересна и политическому аналитику, и экономисту, и даже, например, эпидемиологу (анализируя записи сети микроблогов Twitter, исследователи научились предсказывать эпидемии гриппа). Но пользователя в социальной сети уж точно не заставишь выдавать информацию в структурированном виде. Значит, программа должна извлекать нужные данные из текста.

Первым шагом в этом направлении становится поиск ключевых слов в тексте. Но тут начинаются лингвистические проблемы. Специалист по протезированию зубов, ищущий статьи о новых разработках в этой области, вряд ли будет доволен, когда в место стоматологических мостов ему предложат почитать о конструировании железнодорожных мостов. Если человек ищет публикации про футболиста Вагнера Лава, то ему только помешают сведения о знаменитом оперном композиторе Рихарде Вагнере. Задача же того, кому интересна свежая информация об африканском государстве Того, и вовсе становится непреодолимой: простая программа поиска не сможет отличить название страны от местоимения. Препятствием становятся многозначность слов и наличие в текстах омонимов. Часто как пример омонимии, трудной для компьютерного анализа, приводят фразу: «Эти типы стали есть на складе». О чем идет речь? О наличии на складе каких-то марок металла или о том, что какие-то люди питаются в складском помещении? Правильный выбор можно сделать только оценив более широкий контекст. Здесь мы делаем второй вывод: программа должна быть способна понимать смысл текста и учитывать его при поиске данных. Только тогда она сможет отсеять не относящееся к делу и извлечь из текстов именно нужные данные.

Тут вступает в дело компьютерная лингвистика. Что должна уметь компьютерная программа, чтобы учитывать смысл текста? Она должна понимать семантику слов и структуру предложений. Иными словами – иметь семантический и синтаксический анализатор.

Подобную технологию компьютерного понимания текстов компания ABBYY разработала в системе ABBYY Compreno. Эта система состоит из двух основных компонентов. Во-первых, она включает иерархически организованное представление семантики слов. Иерархия состоит в том, что смыслы представлены в виде «дерева», где можно проследить вхождение частных понятий в более общие. К понятию «движение», например, относятся частные случаи: «бежать», «идти», «ползать», «лететь» и так далее. На данный момент в эту семантическую иерархию включены 110000 универсальных понятий, не зависящих от конкретного языка, 120 000 русских слов и 130000 английских слов. Созданы также описания терминологии отдельных специальных областей: IT, бизнеса, финансов, маркетинга, HR, юриспруденции, медицины, нефтегазовой терминологии.

Во-вторых, ABBYY Compreno имеет синтаксический анализатор, которые определяет структуру предложения и отношения между входящими в него словами. В этой области программа умеет справляться с немалым числом «подводных камней», которые не составляют проблем для человека, владеющего языком, но требуют специальных алгоритмов для компьютерного анализа. Среди таких случаев опущение повторяющейся части предложения («Маша говорит и читает по-шведски, а Катя – по-норвежски») или местоименная анафора («Маша хорошо знает шведский язык. Она изучала его пять лет.). Программа синтаксического анализа в этих случаях понимает, что в первом предложении Катя по-норвежски говорит и читает, а во втором она – это Маша, а он – это шведский язык. Для более точного синтаксического анализа используются данные о семантике слов, которые хранятся в семантическом компоненте. Он позволяют описать связи между словами в предложении и функцию этих слов (действие, место и пр.). Наконец, используются статистические алгоритмы, которые, например, помогают справиться с омонимией. Проанализировав количество слов из разных семантических областей, с которыми связано многозначное слово, программа выберет нужное значение. В результате программа оказывается способной учитывать контекст и правильно понять фразу «Эти типы стали есть на складе» в зависимости от того, идет речь о металлургии или о поведении складских работников.

Перспективность разработки такой системы оценивалось столь высоко, что компания ABBYY вложила в ее создание более 80 миллионов долларов (по состоянию на весну 2014 года). Также на работу над этим проектом около 14 миллионов долларов (475 млн. рублей) выделил «Фонд Сколково», резидентом которого стала компания.

Итак, ABBYY Compreno обладает всеми описанными выше умениями. Создать компьютерную программу, настолько детально анализирующую тексты на естественном языке, конечно, интересная задача для лингвистов и программистов. Но каково ее практическое применение? Оно довольно широко: от машинного перевода до интеллектуального поиска информации. Если говорить о задачах поиска и извлечения информации из текста, то такая система учитывать при работе не только ключевые слова, но и их значения, связи между словами и контекст, что значительно повышает качество работы. Именно таким программным продуктом является представленный сейчас ABBYY Intelligent Search, основанный на технологии Compreno. Он предназначен для интеллектуального поиска данных в корпоративных хранилищах и обладает всеми описанными выше лингвистическими умениями.

Второй продукт, который базируется на той же технологии Compreno, ABBYY Intelligent Tagger предназначен для структурирования имеющейся информации. Он может находить в текстах документов определенные объекты (названия организаций, персон, мест, даты и денежные суммы), что позволяет в дальнейшем автоматически классифицировать и сортировать эти документы, организовывать их автоматическую обработку с той или иной целью.

http://polit.ru/article/2014/04/09/ps_sk_abbyy_compreno/

Фонд поддержки авторов AfterShock

Комментарии

Аватар пользователя GreenWood
GreenWood(3 года 12 месяцев)(09:13:53 / 10-04-2014)
прочитав название статьи подумал : это что за типы такие жрут на складе - про грузчиков что-ли ? :)
Аватар пользователя wasp69
wasp69(3 года 9 месяцев)(09:18:53 / 10-04-2014)

А я сразу почему-то вспомнил американские сухие пайки, переданные хохлоармии  8)))

Аватар пользователя ExMuser
ExMuser(4 года 6 месяцев)(09:30:46 / 10-04-2014)

Гуманитарии. :) А я вот сразу про марки стали подумал. Первая мысль: "в чём хранятся - в чушках, в листах, швеллерах, двутаврах?" :)

Аватар пользователя wasp69
wasp69(3 года 9 месяцев)(09:36:39 / 10-04-2014)

Вот ни разу гуманитарием не был, просто хохлотемой все мозги уже засраны  8)

Аватар пользователя ExMuser
ExMuser(4 года 6 месяцев)(09:40:58 / 10-04-2014)

:) А я только что старый сломаный ТВ отчима оттащил на помойку (тяжелющий, собака), у меня наоборот все мысли про железяки. :)

Аватар пользователя rand0m
rand0m(5 лет 10 месяцев)(09:43:32 / 10-04-2014)

+1)) сам сейчас на месторождении в коммандировке. Стройка. Каждый день со складом работаем

Аватар пользователя ExMuser
ExMuser(4 года 6 месяцев)(10:09:43 / 10-04-2014)

:) Это всё потому что в названии не было контекста, таки. Да и, собственно, в статье тоже. Тема "стали" не раскрыта.

Аватар пользователя Simych
Simych(5 лет 10 месяцев)(10:12:37 / 10-04-2014)

я сразу подумал что "типы стали" не совсем корректно, правильнее марки стали, или виды стали

Аватар пользователя ExMuser
ExMuser(4 года 6 месяцев)(10:17:30 / 10-04-2014)

Именно марки, емнип.

Аватар пользователя lindorenan2
lindorenan2(5 лет 11 месяцев)(09:22:45 / 10-04-2014)

интересно

Аватар пользователя tokomak
tokomak(6 лет 6 дней)(09:29:08 / 10-04-2014)

Вот, когда компы станут адекватно понимать речь людей, и их желания в неё облечённые - со всем жаргоном и полутонами, вот тогда нам и наступит... счастье :)

А пока - все эти потуги, это просто движение по пути грантоискателя в бушующем окиане взаимодействия государства и науки (и техники).

Аватар пользователя GreenWood
GreenWood(3 года 12 месяцев)(09:45:14 / 10-04-2014)
компы людей понять не смогут - люди друг друга часто не понимают другое дело, что компы заставят/вынудят людей думать и общаться шаблонами, которые удобны самим компам
Аватар пользователя tokomak
tokomak(6 лет 6 дней)(09:50:45 / 10-04-2014)

Мыша, клавиатура и банальный набор команд любой проги - вполне себе шаблоны, и узкое окно в цифровой мир, но нам пока хватает. А уж хотя бы распознавание речи (надёжное и ненапряжное) - расширит это окно...

Ну, а когда они станут понимать чего мы говорим им, то нам конец...

Аватар пользователя good-society
good-society(4 года 2 месяца)(10:06:23 / 10-04-2014)

Мне понравилась работа ABBYY. Они учат комп понимать людей лучше, чем люди друг друга :) И есть успехи!

Аватар пользователя good-society
good-society(4 года 2 месяца)(11:33:18 / 10-04-2014)

.

Аватар пользователя SergeyVBNM
SergeyVBNM(5 лет 6 месяцев)(10:30:28 / 10-04-2014)

Так глядишь, скоро люди без машинки-переводчика друг друга не будут понимать

Комментарий администрации:  
*** В бюджете нет денег, приватизация даст немного денег за хорошие активы ***
Аватар пользователя Gbanderlog
Gbanderlog(3 года 8 месяцев)(10:34:09 / 10-04-2014)

Это еще один кирпичик в систему контроля переговоров населения, чем умнее робот, тем меньше шлака нужно разгребать оператору. А это своевременная реакция не только на распространения гриппа, по тегам в твитере, но и прочей социальной заразы.

Идеальная вещь для разведки и мониторинга населения.

Только зная скользкие лапа ABBYY уже понятно для какой разведки будут самые сладкие пирожки.

  

Аватар пользователя Болт
Болт(4 года 1 месяц)(10:51:34 / 10-04-2014)

Успехи, конечно, есть. Но стоит ли это называть "успехами"?

Вот, например, этот конкретный смарт, с которого я сейчас пишу... Ну, понимать-то понимает, что я сказал устно. Но, отвечает эта сволочь с корейским акцентом! И, при любом затруднении, предлагает найти ответ в инете.

В итоге, ежели бухать, лучше общаться с мужиками. Смарт не годится для задушевных бесед!?

Аватар пользователя GreenWood
GreenWood(3 года 12 месяцев)(21:00:50 / 10-04-2014)
эти типы все еще там ... на складе ... жрут ? :)

Лидеры обсуждений

за 4 часаза суткиза неделю

Лидеры просмотров

за неделюза месяцза год

СМИ

Загрузка...