Словники, правописники та віртуальні міста: на що здатна цифрова гуманітаристика

Про те, як священик переконав співзасновника американської електронної корпорації (ІВМ) створити електронний офлайн словник Томи Аквінського та як із цього розвинулася окрема наукова галузь і про те, що таке цифрова гуманітаристика на урочистостях до Дня Гуманітарного факультету УКУ розповів Василь Старко — перекладач і доцент кафедри філології УКУ. Він започаткував викладання комп’ютерної лінгвістики, переклав книгу «Довгий шлях до свободи» Нельсона Мандели та активно долучається до створення цифрових словників.

Василь Старко під час лекції. Фото Даниїла Тюріна

У сучасну епоху людство настільки часто застовує цифрові засоби, що навіть не помітило, як вони стали частиною життя. Гуманітарні науки впроваджують новітні технології не менш активно за інші галузі. У лінгвістиці, як і в біології та хімії, починають дедалі частіше застосовувати цифрові, комп’ютерні й обчислювальні методи досліджень. Це можна назвати цифровим поворотом науки.

Удоступнити наявні матеріали — основне завдання цифрової гуманітаристики

Цифрову гуманітаристику (Digital Humanities) започаткували ще 1949 року. Вона завдячує своєму існуванню священику Роберто Буза, який переконав співзасновника компанії IBM створити електронний конкорданс (електронний офлайн-словник) творів Томи Аквінського — Index Thomisticus. Через те, що існувало безліч творів святого Томи різних форматів і видань, робота над проектом тривала 30 років. Нині збірка доступна для всіх охочих.

Одним із основних завдання цифрової гуманітаристики є забезпечення доступу широкої аудиторії до наявних матеріалів. Тому науковці збирають безліч даних, об’єднують їх і каталогізують. Такими даними є матеріали електронних бібліотек, архівів, цифрові зображення картин та інших мистецьких об’єктів, аудіо- й відеозаписи. Наукова каталогізація спрощує доступ до всіх цих файлів та дає змогу за лічені секунди знайти потрібну інформацію. Саме для цього під час впорядкування даних до них створюється певна анотація, що містить теги, інформацію про твір та автора.

За допомогою цифрової гуманітаристики дані можна не просто демонструвати, а й вивчати

Протягом певного відрізку часу тексти були основним матеріалом для роботи галузі. Науковці створювали текстові масиви, записували їх на електронні носії, розробляли засоби для їх опрацювання. Після Другої світової війни відбувся бум аудіо-досліджень. Записували свідчення ветеранів, жертв та очевидців війни, а згодом впорядковували їх і досліджували. Потім настала черга фото та відео, які також почали переводити в цифровий формат.

Прикладом такого масиву різнорідних відцифрованих даних є колекція культурної спадщини Європи —  Європіана. На цьому порталі можна отримати доступ до 58 млн відцифрованих творів мистецтва: музейних артефактів, книжок, картин, фільмів та музичних творів.

Цифрова гуманітаристика перебуває на перетині гуманітарних і комп’ютерних наук та цифрових технологій. Вони тут є не тільки інструментом, а й об’єктом дослідження.

Новітня наука ще не цілком оформилася в незалежну галузь, проте вже зараз вона має альянс організацій в різних країнах світу та Європі, а в США розвитком цього напряму займається спеціальна урядова структура. Office of Digital Humanities відповідає за грантову підтримку проектів і видає власні наукові журнали.

Інструменти цифрової гуманітаристики

3D моделювання, VR/AR, штучний інтелект та нейронні мережі — у цифровій гуманітаристиці застосовують усі сучасні технології

Одним із яскравих прикладів масштабного застосування 3D моделювання є проект віртуальної Венеції. Дослідники в ньому намагалися за допомогою віртуальних технологій відтворити образ цілого міста.

У новітній науці застосовують одразу декілька способів вивчення та відображення інформації. Інколи для того, щоб реалізувати певний проект, використовують такі методи, поєднання яких іще донедавна не можливо було б навіть уявити.

Проект «Вірусні тексти» досліджує взаємовідносини газет США XIX століття за допомогою аналізу мережевих зв’язків між ними та має елементи картографування. Вчені, які його розробляли, хотіли з’ясувати, які газети передруковували новини та статті інших видань. Аналіз мережевих зв’язків дає змогу з’ясувати й відтворити майже будь-які відносини: між персонажами літературних творів, історичними діячами й сучасними користувачами соціальних мереж.

Цифрова гуманітаристика дає також змогу заново усвідомити можливості вже відомих технологій. Так, у проекті «Майдан: усна історія», до якого долучилися працівники УКУ (зокрема й Уляна Головач), якісно по-новому переосмислена роль роботи зі звуком.

Особливістю цієї науки є те, що до роботи над проектами можуть долучатися не тільки науковці, а й усі охочі. Для розшифрування даних часто потрібні зусилля багатьох тисяч людей. На різних етапах роботи не потрібно володіти певним науковим інструментарієм — достатньо просто мотивації. Тому краудсорсінг у цифровій гуманітаристиці — звична річ. Існує проект із розшифрування рукописних засобів філософа Єремії Бентама, до якого може долучитися кожен, хто цікавиться філософією. Для цього можна завантажити зображення рукописного листа із роботами Бентама, розшифрувати його та віддати на перевірку. Після цього науковці додадуть розшифровку до загальної колекції робіт філософа.

Проекти цифрових словників

Уже понад 11 років Василь Старко разом зі своїми однодумцями розвиває словникові сайти — російсько-український й англо-український. Це не просто оцифровані видання — науковці створили базу даних із 18 словників. Кожне слово має синоніми, відповідники, також словник пропонує приклади із літератури.

Англо-українська база словника містить понад 700 тисяч слів і словосполучень із відповідниками. Вона складається і з термінологічних вузькопрофільних словників, і з загальномовних видань.

Також науковці створили ресурс, що дає змогу перевіряти правопис, – правописник Languagetool. Він не просто перевіряє текст на орфографічні помилки, а й розпізнає русизми, пропонує стилістичні правки та влучніші по контексту слова. Правописник можна завантажити як програму, а також установити як додаток у Google Chrome. Потужності програми дають змогу працювати із понад двадцятьма мовами, а якість програми перевірки правопису ґрунтується на якості словників, на основі яких її зроблено.

Недосконалі текстові редактори можуть підкреслювати неологізми, які люди вживають щодня, бо розробники не оновлюють словники. Languagetool.org має 350 тисяч слів, із яких генерується 5,5 мільйонів словоформ. До кожного слова генеруються всі словотвори. Минулого року базу цього словника взяли за основу пошукової системи української Вікіпедії.

Підгував Роман Тищенко