Метод фонетической транскрипции с использованием единого промежуточного
фонетического представления
|
∫ («ш») |
a |
æ |
b |
B~w (рус в) |
bх
(«б»
придыхательное) |
c∫х («ч» придыхательное) |
d
|
ð |
ð' (арабск) |
d' (арабск. «д») |
D~ ð (рус д) |
djх («дж» придыхательное) |
DZ |
dх («д» придыхательное) |
e |
f |
g |
Ğ (турецк. «г» мягкое) |
Ğ’ |
gх («б» придыхательное) |
h |
h' (арабск. «х») |
h'' (арабск. «х») |
i |
ı
(«ы») |
j |
k |
k' (арабск. «к») |
ks
(аффриката «кс») |
kх («к» придыхательное) |
l |
m |
mх («м» придыхательное) |
n |
nх
(«н»
придыхательное) |
o |
ö
(«ё» без йотации) |
p |
pх («п» придыхательное) |
r |
r’
(непроизносимое «р» из англ) |
s |
s' (арабск. «с») |
S~ θ (рус с) |
t |
T’ (арабск.
«т») |
u |
ü («ю»
без йотации) |
v («в») |
w |
W’ |
Ya (русск. «я») |
yo (русск. «ё») |
yu (русск. «ю») |
z |
z' (арабск. «з») |
Z~ θ (рус с) |
θ |
Θ’ (арабск.) |
Ѓ (смычное) |
ђ (англ. «нг») |
Е (je) (на рус всегда е) |
zh («ж») |
dzh («дж») |
З’ |
n’ (испанск. «нь») |
ts («ц») |
цз |
с∫
(«ч») |
чж |
чз |
э |
э (яп на рус всегда Э) |
э: (франц) |
‘
(пунк) |
< (начало слова) |
> (конец слова) |
Каждая фонема имеет при себе
целый ряд параметров, таких как гласный/согласный, мягкий/твердый и др.
Эти параметры приписываются
фонемам на первом этапе превращения слов языка L1 в элементы промежуточного
фонетического представления, например:
L1 – испанский, L2 – русский
l Þ l + мягкость[6]
На втором этапе преобразований для «л мягкого» находится буквосочетание, передающее этот звук в
русском языке. Например:
l + мягкость, в конце
слова Þ «ль», т.е. на конце слова
мягкое «л» превращается в русском языке в «ль».
Еще один пример.
L1 – английский, L2 – русский
На
первом этапе (английский – промежуточное ФП) суффикс –tion представляется следующим образом:
t, i, o, n, в конце слова Þ ∫ согл., е
гласн., n согл.
На
втором этапе это сочетание будет передано на русский язык уже при помощи 3
правил:
∫ Þ ш
е после согласной Þ е
n Þ н,
Таким
образом, аффикс –tion будет
передан на русский при помощи буквосочетания «шен».
В данном случае использовалось правило
передачи звука «ε» именно после согласного, так как в противном случае
(после гласной или в начале слова) он выражался бы в русском языке при помощи
буквы «е».
Изложим проблему машинной
транскрипции с использованием языка математики.
Здесь мы принимаем, что сама
буква, а не только обозначаемый ею звук, обладает некоторыми параметрами (например,
гласность/согласность, ряд и так далее). Это необходимо для того, чтобы
выяснить, какой звук обозначает данный символ в определенном месте слова и
какой набор параметров будет соответствовать данному звуку. В противном случае
подобная операция представляется затруднительной или трудоемкой.
Определим параметр как пару P=<N,V>, где N – имя
параметра, а V – его значение. Параметр будет отображать
некоторые характеристики буквы, важные для транскрипции, или позволяющие
классифицировать буквы по группам. Например: <”ряд“,
”передний“>,<”тип“, ”гласная“>, <”ударение“, ”безударная“>. Два
параметра равны, если совпадают их имена и значения.
Также дадим определение буквы,
удобное для дальнейшего изложения. Буква состоит из графемы, однозначно
идентифицирующей данную букву, и набора параметров, либо изначально присущих
данной букве, либо отражающих положение буквы в слове. В связи с этим определим
букву как пару S=<C,{P}>, где C –
фиксированный символ (графема), обозначающий данную букву, а P – набор ее параметров. При этом будем считать, что
различные написания одной и той же буквы (например, строчное и прописное или
начальное, срединное, конечное и изолированное) имеют одно и то же обозначение,
однако могут обладать (в зависимости от
применения) различными значениями определенных параметров. Набор
параметров определяется критичностью различения таких написаний при
транскрипции и особенностями языка.
Примером буквы может служить пара
<’A’,{<“тип”, “гласн”>, <”написание”,
”прописн”>, <”ряд”, “задний”>}>, где ‘А’ – графема,
идентифицирующая данную букву, а множество, заключенное в фигурные скобки –
множество параметров данной буквы. Здесь и в дальнейшем выделим с помощью
апострофов графемы, относящиеся к символам некоторого языка. Служебные графемы,
предназначенные для обеспечения процесса транскрипции, будут обозначаться
несколькими символами и не будут заключаться в апострофы.
Определим следующие операторы
сравнения букв.
Оператор = производит сравнение
как графем букв, так и их наборов параметров. Две буквы S1
и S2 равны в смысле оператора = (S1=S2), если равны их графемы и множество
параметров S2 является подмножеством параметров S1.
Оператор » производит сравнение только наборов
параметров букв. Две буквы S1 и S2 равны в смысле оператора » (S1»S2),
если множество параметров S2 является подмножеством параметров S1.
В целом транскрипция будет
состоять из двух частей – перевода с языка оригинала на язык-посредник и
перевода с языка-посредника на язык транскрипции. Плюсом такого подхода
является сокращение количества наборов правил транскрипции в случае работы со
многими языками. Как это было показано выше, при отсутствии языка-посредника
приходилось бы создавать базы для транскрипции с каждого языка на все
остальные, что составило бы NL*(NL-1) баз, где NL – количество языков, с которыми производится работа.
При транскрипции через язык-посредник это количество составит лишь 2* NL, так как потребуются базы лишь для
транскрипции на язык-посредник и с него.
Однако подобный подход налагает
дополнительные требования на язык-посредник. Алфавит языка-посредника должен
содержать звуки всех языков, с которых производится транскрипция. Кроме
алфавита для языка-посредника должен определяться набор параметров, которыми
могут обладать буквы этого языка. Для того, чтобы корректно произвести
транскрипцию, правила транскрипции с языка-посредника должны охватывать все
буквы алфавита этого языка, что несколько увеличивает объем правил.
Одновременно с этим за счет проведения дополнительных работ скорость
транскрипции падает.
Также имеется необходимость
определить алфавит каждого языка с тем, чтобы сопоставить любому символу,
встречающемуся в данном языке, букву из этого алфавита (графему и набор
параметров).
В целом, процесс транскрипции
разобъем на пять этапов:
1.
преобразование
написания слова на языке оригинала во внутреннее представление;
2.
выделение
слогов, расстановка переносов и ударений;
3.
перевод
внутреннего представления слова в промежуточное фонетическое написание;
4.
перевод
промежуточного фонетического написания слова во внутреннее представление слова
на языке транскрипции;
5.
преобразование
внутреннего представления слова на языке транскрипции в написание слова на
языке транскрипции.
Опишем каждый из этих этапов
подробнее
1. Преобразование написания
слова на языке оригинала во внутреннее представление состоит в преобразовании слова языка,
записанного как множество символов W=<G>, во множество букв W’=<S>. Здесь G –
символ (знак), а в случае машинной транскрипции - информационный код знака в
одной из компьютерных кодировок (ASCII, ANSI или иной другой). Для такого преобразования вводится
множество правил, называемых правилами алфавита, сопоставляющих символу
(информационному коду знака) G букву S. Âa={Ra}, где Âa – база правил алфавита, а Ra=<G,S> – правило.
Примерами правил алфавита могут
служит следующие множества.
<’A’,<’A’,{<“тип”, “гласн”>, <”написание”,
”прописн”>, <”ряд”, “задний”>}>>
<’a’,<’A’,{<“тип”, “гласн”>, <”написание”,
”строчн”>, <”ряд”, “задний”>}>>
<’B’,<’B’,{<“тип”,“согласн”>,<”написание”,”прописн”>,<”звонкость”,“звонкая”>}>>
<’b’,<’B’,{<“тип”,“согласн”>,<”написание”,”строчн”>,<”звонкость”,“звонкая”>}>>
Курсивом здесь выделена часть,
относящаяся к букве (S), а полужирным шрифтом –
параметры буквы.
Для всех графем входного слова
последовательно находятся такие правила, что графема входного слова совпадает с
графемой из найденного правила. Внутреннее представление слова получается путем
последовательной конкатенации букв, входящих в полученные правила. Кроме того,
в начало и конец слова добавляются специальные буквы, обозначающие начало и
конец слова. Все графемы, для которых не было найдено соответствия в правилах
алфавита, считаются знаками препинания и передаются дальше без изменений с
соответствующей пометкой. Перед началом группы знаков препинаний ставится буква
конца слова, после нее – начала слова. Подобный подход позволяет вычленить не
только знаки препинания, но и символы из других алфавитов, которые не должны
транскрибироваться в рамках данного языка.
Таким образом WÞW’=Sm, причем
a) S1=<BEG,{}>,
b) SN=<END,{}>, здесь BEG
и END – графемы, обозначающие начало и конец слова,
c) Sm=S, если $ Ra=<G,S>ÎÂa : G=Gj, здесь j=1..M, где M – общее количество
графем во входном слове,
d) Sm=<Gj,{}>,
если не$ Ra=<G,S>ÎÂa : G=Gj,
e) Sm=<BEG,{}>, если Sm-1
получено по правилу d), а Sm+1 получено по правилу c),
f) Sm=<END,{}>, если Sm-1
получено по правилу c), а Sm+1 получено по правилу d),
Здесь mÎ(1,N), где N – общее количество букв в выходном слове (во
внутреннем формате).
2. Выделение слогов и
расстановка переносов производятся
для того, чтобы определить закрытые/открытые слоги и ударные/безударные буквы.
Любая буква, находящаяся в конце слога, приобретает дополнительный параметр
«буква в слоге» со значением «открытая». Для остальных букв значение этого параметра
– «закрытая».
Выделение слогов производится по
следующему алгоритму. Для алфавита каждого языка может быть задан набор
слогообразующих букв. В качестве части слога, присоединяемой к слогообразующей
букве, берется половина букв между двумя слогообразующими. При нечетном
количестве букв, средняя передается следующему слогу. Исключение делается для
приставок, суффиксов и окончаний, разделение на слоги которых фиксировано. Они
присоединяются к остальной части слова как отдельный слог или несколько самостоятельно
выделенных слогов. Написание и деление на слоги таких приставок, суффиксов и
окончаний задается отдельной базой правил.
Расстановка ударений, как и
выделение слогов, не является обязательной. Их необходимо производить для
языков, в которых буквы читаются различным образом в зависимости от того, в
какой позиции находится данная буква – в ударной или безударной, в конце слога
или нет.
3. Задачей перевода внутреннего представления слова в
промежуточное фонетическое написание является приведение слов различных
языков к единой записи в рамках алфавита языка-посредника. На вход данного
этапа поступает последовательность букв языка. Выходом этапа является набор
фонем, входящих в состав языка-посредника.
Под строкой (словом) здесь будем
понимать упорядоченное множество букв. Подстрокой слова будет являться
подмножество последовательно идущих букв данного слова. Обозначим через подстроку слова длиной l, начинающуюся с
буквы в позиции i. В дальнейшем верхний индекс подстроки будет
обозначать позицию, с которой начинается данная подстрока в слове, а нижний
индекс будет обозначать длину подстроки. Символом * будем обозначать
произвольное значение позиции.
Под правилом перевода будем
понимать пару Rt=<>, где - строка-образец, а - строка-результат.
Правило R применимо к подстроке , если строка-образец сравнима с . Под сравнимостью понимается нахождение равенства букв из и в одних и тех же
позициях подстрок. При этом здесь две буквы S1 и S2 равны, если S1=S2
или S1»S2.
Подробный алгоритм определения применимости правила к строке приведен ниже.
Под переводом подстроки будем понимать
функцию , такую, что $Rt=<>ÎÂt применимое к . Здесь Ât={Rt} - база
правил перевода.
Задача перевода в промежуточное
фонетическое написание в этом случае может быть представлена следующим образом.
Пусть имеем на входе на данный
этап некоторое слово W=<S1,
S2, ..., Sa> и набор правил перевода Ât. Перевод внутреннего представления в промежуточное
фонетическое написание в этом случае будет заключаться в нахождении и
применении упорядоченного подмножества правил Â=<>, таких что:
1)
i=<i1,i2,…,in>, где n –
число правил в подмножстве Â;
2)
l=<l1,l2,…,ln>;
3)
a;
4)
i1=1;
5)
ik+1=ik+lk для k<n и in+ln=a+1;
6)
"i,l $Rt=<> : $ .
Здесь множество i – это множество позиций, с которых применимы правила,
а множество l – множество длин подстрок.
Результатом перевода будет
являться конкатенация результатов последовательного применения правил перевода.
Проверка применимости правила к
строке производится следующим образом. Правила могут содержать в себе буквы со
специально определенной графемой EMPTY.
Сравнение буквы правила и буквы строки производится при помощи оператора =,
если графема буквы правила не равна EMPTY, и
при помощи оператора » в противном случае.
В начале перевода внутреннего
представления слова в промежуточное фонетическое написание текущая позиция во
входной строке устанавливается в 1. Далее, до тех пор, пока не будет достигнут
конец слова, последовательно применяется следующий алгоритм.
Сохраняем текущую позицию. Далее
пытаемся найти все правила, применимые для строки, начинающейся с текущей
позиции. Если первые несколько последовательно идущих букв в правиле имеют
графему, равную EMPTY, то уменьшаем текущую позицию на количество
таких букв. Если текущая позиция меньше 1, то считаем, что правило не
применимо, восстанавливаем текущую позицию и переходим к следующему правилу.
Начиная с полученной текущей
позиции последовательно сравниваем буквы строки и правила. Если хотя бы одна
буква строки не равна соответствующей букве правила, то считаем, что правило не
применимо, восстанавливаем текущую позицию и переходим к следующему правилу.
Если сравнение всех букв прошло успешно, то считаем, что правило применимо. В
этом случае помещаем сохраненную текущую позицию в множество i. Во множество l помещаем
количество букв в правиле за вычетом последовательно идущих букв в начале и в
конце правила, имеющих графему равную EMPTY.
Далее восстанавливается сохраненная текущая позиция и алгоритм переходит к
следующему правилу.
По окончании перебора всех правил
текущая позиция увеличивается на величину, сохраненную в множестве l. В случае если к
одной и той же позиции в слове применимо несколько правил, то для каждого
правила заводятся свои множества i и l.
4. Этап перевода промежуточного фонетического
написания слова во внутреннее представление слова на языке транскрипции
аналогичен этапу 3, но имеет противоположные задачи. Он служит для того, чтобы
сформировать последовательность букв, отражающих полученное звучание слова в
языке транскрипции. Работа этапа осуществляется по тем же принципам, что и
этапа 3. Здесь правила являются не столь многозначными, как на этапе 3, так как
имеется возможность задать одно определенное правило для передачи данного
набора звуков при наличии альтернативы.
5. Преобразование внутреннего
представления слова на языке транскрипции в написание слова на языке
транскрипции является
обратным относительно этапа 1. Здесь могут использоваться те же самые правила,
что и на этапе 1, так как в большинстве случаев должно существовать
взаимнооднозначное соответствие между графемой и буквой с данным набором
параметров. Буквы с графемами BEG и END удаляются, знаки препинания передаются
соответствующими символами.
Предложенный метод позволяет
формально подойти к проблеме машинной транскрипции в многоязыковых системах.
Это позволит строго сформулировать требования к языку-посреднику и языкам,
участвующим в транскрипции, исследовать их особенности и свойства. Формализация
процесса транскрипции позволяет проще перейти к решению задачи машинной
транскрипции.
Как это было показано выше,
методом, наиболее подходящим для передачи фамильно-именных групп одного языка в
другой, является практическая транскрипция. Она позволяет сохранить
«узнаваемость» имени одного языка в другом.
Использование людей позволяет
опереться на огромный опыт специалистов, однако транскрипция, проводимая лицом
слабо разбирающимся в прикладных вопросах передачи слов с различных языков,
наталкивается на ряд трудностей. Это так называемые ошибки человеческого
фактора. Кроме того, на практике существует целый ряд правил, противоречащих
друг другу и используемых различными лингвистическими школами и традициями. Это
приводит к тому, что получить однозначую передачу слова с одного языка на
другой в ряде случаев не возможно. Изложенные проблемы приводят к задаче
формализации процесса машинной транскрипции и набора правил, по которым она проводится.
Применение промежуточной
фонетической таблицы позволяет проводить траскрипцию сразу между несколькими
языками. Создание такой таблицы и ее использование приводит к уменьшению
работы, которую необходимо проделать при создании правил транскрипции. В работе
приводится вариант такой таблицы, разработанной в ходе исследования основных
европейских и азиатских языков.
В данной работе процесс
транскрипции был разбит на пять этапов, после чего на основе теории множеств
была предложена математическая модель каждого из этапов. Создание такой модели
позволяет перейти к практической реализации программного комплекса, имеющего
возможность производить транскрипцию слов между несколькими языками.
Формализация самого процесса транскрипции позволяет перейти к созданию
рекомендаций по написанию правил транскрипции.
1. Клышинский Э.С., Слезкина О.Ю. К проблеме математического описания
многоязычной математической транскрипции // Сб. Трудов научно-практического
семинара «Новые информационные технологии-6»,
МГИЭМ, Москва, 2003.
2. Реформатский А.А. Введение в
языкознание. Гл. 3. Фонетика // М.: Аспект Пресс, 1996.
3. Трубецкой Н.С. Основы фонологии // М.: НЛ, 1960.
[1] Когда же один и тот же звук можно передать
различными буквами/буквосочетаниями, выбирается тот вариант, который
максимально отображает графическую форму слова.
[2] Базируясь на каком-либо алфавите,
транслитерация допускает условное употребление букв, введение дополнительных и
диакритических знаков.
[3] Буква а в закрытом ударном слоге
произносится как нечто среднее между русскими буквами а и э.
[4] В этом списке были перечислены лишь основные проблемы, встающие при осуществлении практической транскрипции при оформлении машиночитаемых документов. Такие же частные случаи как проблемы неблагозвучности и встречающийся в основном в художественной литературе перевод имен по смыслу, здесь не рассматриваются.
[5] Эволюция написания под влиянием фонетической тенденции ясно прослеживается на передаче фамилии английского политического деятеля XVIII века R. Walpole. В энциклопедическом словаре Брокгауза и Ефрона (изд. 1891 г.) он значится как Вальполь, в 6 томе БСЭ (изд. 1951 г.) дается транскрипция Вальпол, а в 44 томе БСЭ изд. 1956 г. и позже - чисто фонетический вариант: Уолпол.
[6] Для облегчения понимания в статье вместо
цифровых кодов, соответствующих элементам таблицы, используются аналогичные
символы транскрипции.