Abstract:
У статті надано визначення поняття лінгвістичний корпус текстів як збірку електронних текстів, який характеризується такими дистинктивними ознаками, як: репрезентативність, автентичність, відібраність, збалансованість, машиночитаність (В. В. Жуковська); охарактеризовано два корпуси: 1) для англійської мови – Британський національний корпус (БНК), що характеризується обсягом 100 млн. слів, використанням повних текстів, а не вибірок з текстів, підкорпусом усного мовлення (10 млн. слів), наявністю частиномовної розмітки та доступом через Інтернет; 2) для української мови – Генеральний регіонально анотований корпус української мови (ГРАК), що є великою, репрезентативною, структурованою колекцією текстів українською мовою у су проводі програми, яка дозволяє будувати на базі корпусу власні підкорпуси, шукати слова, граматичні форми та їх сполучення, а
також обробляти результати пошуку, сортувати, робити збалансовані вибірки і одержувати різну статистичну інформацію. Клю човим аспектом будь-якої верифікації є синонімічний ряд, який визначено як сукупність слів і словосполучень, які є рівнозначни ми семантично та вживаються для вираження того самого поняття та явища об’єктивної дійсності. Проведено дві методологічніпроцедури:
1) лексикографічна верифікація як процедура пошуку синонімічних рядів у лексикографічних джерелах для англійсь комовних лексем crisis, pandemic, stress, adventure, opposition, а також для українськомовних лексем криза, пандемія, стрес, приго да, протистояння, які дають змогу розкрити сутність поняття “resilience” / “резилентність”; 2) корпусна верифікація як процедураз’ясування частотності англійськомовних лексем crisis, pandemic, stress, adventure, opposition, представлених у БНК, й українсько мовних лексем криза, пандемія, стрес, пригода, протистояння, представлених у ГРАК. Зроблено висновок про те, що якщо для
англійської мови найбільш частотними виявилися opposition – 8617, crisis – 5643, то для української мови – криза – 65634, пригода – 41882.