14fb7b9b

«Гугл» провел лингвистические изучения

«Гугл» Специалисты приноровили поисковый сервис «Гугл» для выполнения крупных лингвистических исследовательских работ.

Благодаря ему эксперты, применяя 5 млн отсканированных книжек, сумели изучить развитие языка в заключительные 200 лет. Публикация экспертов размещена в издании Science, а кратко о работе сообщает New Scientist.

До сегодняшнего дня у языковедов не было прибора, с помощью которого можно было бы изучить существенное число текстов. Создатели нового изучения работали с книжками, которые были переброшены в цифровой формат на сегодняшний день — всего их насчитывается около 15 млн. Специалисты избрали из них тридцать процентов текстов (5,2 млн книжек, написанных на британском, французском, испанском, германском, японском и российском языках) и составили основу всех примененных в них слов — их получилось около 500 миллионов. Основу слов Ngrams можно отыскать тут — поиск со слов проводится на основе алгоритмов «Гугл».

Проанализировав принятые данные, создатели сумели сделать множество многообразных выводов. Например, они определили, что за прошедшие сто лет количество довольно часто применяемых слов выросло в два раза — в случае если в 1900 году применялось около 544 миллионов слов, то в 2000 году данная цифра повысилась до одного млн, при этом 52 % свежих слов стало активно применяться после 1950-х годов.

Также, эксперты исследовали, как отображалась на применении тех либо других слов цензура. Специалисты выяснили, что после 1989 года словосочетание «площадь Тяньаньмень» почти перестало встречаться в литературе, произведенной в КНР. То же самое случилось под названием Лев Пустомеля в СССР в 1940-е годы и с именами голливудских артистов, обвиненных в связи с Русским Альянсом в Соединенных Штатах.

Создатели и их коллеги считают, что свежий аппарат позволит экспертам изучать слова и лингвистические линии, применяя такие же расклады и способы, что и эксперты по натуральным наукам.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий