Методика разметки, использованная при подготовке информационной системы. СПИСКИ ИСПОЛЬЗОВАННЫХ ПОМЕТ
1. Получение нормализованых форм (лемм), частеречная разметка, морфологическая разметка
Cписки словоформ получались путем выгрузки с уровня «Words» программы ELAN. Экспортированные табулированные тексты .txt перекодировались в ANSI с помощью бесплатно распространяемого приложения NotePad++. Затем формировались нумерованные списки словоформ, которые обрабатывались программой mystem. Таким образом, список POS-помет был определен, исходя из возможностей выбранного для машинного этапа разметки морфологического анализатора.
СПИСОК ЧАСТЕРЕЧНЫХ ПОМЕТ
A -- прилагательное
ADV -- наречие
ADVPRO -- местоименное наречие
ANUM -- порядковое числительное
APRO -- местоименное прилагательное
COM -- часть композита (первая часть сложных слов)
CONJ -- союз
INTJ -- междометие
NUM -- числительное
PART -- частица
PR -- предлог
S -- существительное
SPRO -- местоимение
V -- глагол
Затем файл, содержащий результаты автоматического анализа, подвергался ручной обработке. Ручное снятие омонимии осуществлялось на всех релевантных уровнях (часть речи, лемма, постоянные грамматические признаки лексемы, словоизменительные характеристики словоформы).
2. Аннотирование уровня LEX «лексические значения или текстовые функции»
Аннотирование осуществлялось выборочно. Часть помет корпуса многоуровневых аннотаций была получена на этапе
морфологической разметки, а затем проверена вручную, (поскольку mystem присваивает
некоторым элементам словаря такие пометы, как ГЕО ‘географическое название’, ИМЯ ‘имя
собственное’, ОБСЦ ‘обсценная лексика’, ОТЧ ‘отчество’, РАЗГ ‘разговорная форма’, СОКР
‘сокращение’, РЕДК ‘редко встречающееся слово’, УСТАР ‘устаревшая форма’, ФАМ ‘фамилия’).
В ходе ручного снятия омонимии не использовалась помета «редк» ‘редкое’, добавлены
пометы FOREIGN ‘иноязычное вкрапление’, BREAK ‘обрыв’.
В составе файла аннотации со снятой омонимией разметка соответствующих вхождений выглядит
следующим образом: ГЕО {пряжка=S,гео,жен,неод=род,ед}, {питер=S,гео,муж,неод=пр,ед},
ИМЯ {мариинка=S,имя,жен,неод=им,ед}, {масяня=S,имя,жен,од=им,ед}
ОТЧ {сергеевич=S,отч,муж,од=дат,ед}, {анатольич=S,отч,муж,од=им,ед}
РАЗГ {общага=S,разг,жен,неод=пр,ед}, {фигня=S,разг,жен,неод=им,ед},
СОКР {квн=S,сокр,муж,неод=род,ед}
ФАМ {кортасар=S,фам,муж,од=им,ед}, {вяземский=S,фам,муж,од=им,ед}.
3. Аннотирование уровней "тематическое поле"
Аннотирование уровня «тематическое поле» осуществлялось с опорой на имеющуюся POS и морфологическую разметку. словоформ.
СПИСОК ПОМЕТ УРОВНЯ "ТЕМАТИЧЕСКОЕ ПОЛЕ"
a. Существительные: предметные существительные – thing, непредметные существительные – phen, обозначения людей – hum, имена собственные prop
b. Глаголы: глаголы движения, изменения положения, перемещения объекта – move, глаголы создания физического объекта – create, глаголы уничтожения физического объекта – destroy, глаголы присвоения – possess, глаголы ментальной, эмоциональной сферы – mental, глаголы восприятия – percept, глаголы речи – speech, глаголы поведения человека – behave, глаголы физиологической сферы – phys, глаголы, относящиеся к природным явлениям – nat_phen, глаголы изменения состояния или признака – change, глаголы бытия, существования, начала существования – exist, глаголы прекращения существования – cease, глаголы местонахождения – loc, глаголы контакта и опоры – contact.
c. Прилагательные: качественные qualitat, относительные relative, притяжательные possess.
d. Наречия: способа и образа действия – manner, меры и степени – degree, причины и цели – cause, места и направления, расстояния – loc, времени – temp, количество – quant.
e. Местоимения: личные pers, возвратные refl, притяжательные possess, вопросительные/ относительные relat, указательные demon, неопределенные indef, отрицательные neg, определительные determ.
f. Местоименные наречия: времени temp, способа и образа действия manner, причины и цели cause, места и направления, расстояния, loc.
g. Числительные: количественные cardin, порядковые ordin, собирательные collect.
h. Аннотирование уровня "СТИЛЬ", "ФУНКЦИЯ", "ВАЛЕНТНОСТЬ"
Для лексикографической разметки корпуса транскриптов на уровне STYLE было решено использовать набор из четырех помет: нейтральное – neutral, разговорное – colloquial, просторечное – slang, специальное – term. Для лексикографической разметки корпуса транскриптов на уровне FUNCTION «общая и частная функциональная активность» использовались две пометы: общая функциональная активность – common, индивидуальная функциональная активность – unique. Пометы отражают принадлежность лексемы к общей (общеупотребительной) лексике или, напротив, окказиональный/терминологический/узкотерминологический характер её употребления. Лексикографическая разметка корпуса транскриптов на уровне VAL «валентность» включала разметку глаголов. Глаголы корпуса определялись разметчиком как одноместные, двухместные и трёхместные, каждому вручную присваивался индекс «1», «2» и «3».
В информационную систему экспортировались файлы *.eaf c многоуровневой разметкой на следующих уровнях: Frase (реплики говорящих с синтагматическим и фразовым членением), Speaker (код говорящего), Events (невербальные аудиособытия), Voice (качество голоса говорящего), FonetCom (фонетический комментарий), FraseComment (фразовый комментарий), Notes (общий комментарий).
В базе данных содержится также следующие сведения об информантах: Speaker (код говорящего), SpGender (пол говорящего), SpAge (возраст говорящего), SpProf (профессия), SpNat (национальность), SpSoc (социально-демографическая группа), SpPs (психологический тип говорящего), что позволяет производить генерацию словарей по заданным параметрам (пол говорящего, профессия говорящего и др.).