✅Вариант страницы одобрен авторами курса

<aside> 💡 Курс разработан при поддержке фонда и рекомендован к прослушиванию студентами в рамках Академической программы по искусственному интеллекту.

</aside>

Формат курса:

Курс является обязательным для студентов 4 курса кафедры АЯ, читается в осеннем семестре.

Преподаватели:

Лукашевич Наталья Валентинова

доктор технических наук, ведущий научный сотрудник НИЦВ МГУ, профессор кафедры теоретической и прикладной лингвистики филологического факультета МГУ,  доцент кафедры АЯ, ВМК МГУ.

Основные научные интересы: автоматическая обработка текстов, онтологии.

Untitled

Тихомиров Михаил Михайлович

младший научный сотрудник НИВЦ МГУ.

Основные научные интересы: обработка естественного языка, нейронные сети, тезаурусы

tikhomirov_mm.jpg

Аннотация:

Настоящее время характеризуется большими доступными объемами электронных текстовых данных. Текстовые данные относятся к так называемым неструктурированным данным и требуют специализированных методов для работы с ними. Одной из важнейших задач обработки текстовых данных является поиск текстовой информации. Очевидным примером работы с большими текстовыми данных является поиск в Интернет, к которым обращаются миллионы пользователей, требуется одновременное пополнение баз и индексов хранения текстовой информации и выполнение запросов пользователей. Другим примером работы с большими текстовыми данными являются системы текстовой аналитики (информационно-аналитические системы), создаваемые в рамках систем принятия решений. Такие системы также характеризуются большими объемами собираемой текстовой информации, включая страницы Интернет, новостные источники, сообщения социальных сетей. Информационно-аналитические системы обеспечивают как базовые подходы поиска релевантной текстовой информации, так и специализированные функции анализа текстовой информации такие как извлечение информации из текстов, аннотирование и визуализация извлеченной информации, составление отчетов по заданным тематикам. В курсе рассматриваются различные методы работы с большими текстовыми данными включая:

Практикум:

Студентам предлагается реализовать небольшую поисковую систему с использованием нескольких вариантов векторной модели  и языковой модели информационного поиска на основе раздела «Знаете ли Вы?» Википедии. Система должна искать на страницах Википедии предложения, из которых взят факт раздела. По результатам работы системы нужно выполнить сравнение использованных моделей.

Программа курса: