8). Не кирилический ввод Слова, написанные латинскими символами произносятся в соответствии с правилами American English, но с русскими звуками (как будто говорить по русски с сильным акцентом).


Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте файл и откройте на своем компьютере.
Russian voice “Alyona” 1). Общее; Этот документ описывает некоторые важные аспекты лингвистической обработки русской тексто - речевой системы. Описываются различные типы символов и форматов, допустимых в тексте. Описание основано на символах со стандартным кодом ANSI 1251 для алфавитов кирилицы. Эта версия документа соответствует голосу высокого качества Russian "Alyona". 2). Буквы в орфографическом тексте; Символы русской кирилицы - А - Я, а - я, и латиницы - A - Z a - z. Определенные другие символы также рассматриваются как буквы, использующиеся в других славянских языках, с кодом Cyrillic 1251 "ѕ, ј, ћ, ђ, џ, ѓ, ґ, ќ, љ, њ, ў, і, ї, є". Слова записанные латиницей рассматриваются как английские, но произносятся русскими звуками. Символы вне этих обл астей, то есть числа, знаки пунктуации и другие не - текстовые символы не считаются буквами. 3). Символы пунктуации; Знаки пунктуации в тексте влияют на ритм и интонацию предложения. В тексте разрешены следующие символы пунктуации: , : ; “ ” . ? ! ( ) ' — « » 3.1). Запятая, двоеточие, точка с запятой: Запятая , , двоеточие : , точка с запятой ; и длинное тире — для краткой паузы в предложении. 3.2). Кавычки: Кавычки “ ” и « » возле одного слова или группы слов, для краткой паузы перед и после текста в к авычках. 3.3). Точка: Точка . - знак пунктуации в конце предложения с конечной интонацией, сопровождающийся отчасти более длинной паузой. Точка может также использоваться как десятичный знак в числе, и в сокращениях (аббревиатурах) (смотри ниже). 3.4). Знак вопроса: Знак вопроса ? заканчивает предложение, и вызывает нарастающую интонацию вопроса. 3.5). Знак восклицания: Знак восклицания ! аналогичен точке, также падает интонация с последующей паузой. 3.6). Круглые скобки: Круглые скобки ( ) в озле одного слова или группы слов, для краткой паузы перед и после заключенного в скобки текста. 4). Другие не - текстовые символы; 4.1). Не - текстовые символы: Символы указанные ниже обрабатываться иначе. Некоторые произносятся всегда одинаково (смотри ри с. 1) , другие же произносятся только в определенных контекстах, описанных подразделах этой главы. Рис. 1 4.2). Символы с разным произношением в зависимости от контекста: 4.2.1). Дефис: Дефис - проиносится как «минус» в двух случаях a. если стоит перед цифрой, но не после нее. b. если стоит перед цифрой и знаком равно. В датах, между днями и годами дефис не проиносится. В сложных словах дефис не проиносится. Во всех других контекстах, произносится как «дефис». Примеры: - 3 минус три 44 - 3 сорок четыре дефис три 44 - 3=41 сорок четыре минус три равно сорок один 2.2.2002 второе февраля две тысячи второго года 4.2.2). Звёздочка: Звёздочка * проиносится как “умножить на” только когда стоит между цифрами с последующим знаком равно. Во всех других контекстах, произносится как «звёздочка». Примеры: 2*3 два звёздочка три 2*3=6 два умножить на три равно шесть *bc звёздочка би си 4.2.3). Проценты: Если в цифровой строке (с пробелом или без), то знак % произносится в разных грамматическ их падежах/числах, в зависимости от цифр. Во всех других контекстах, произносится в именительном падеже единственного числа «процент». Пример: 21% двадцать один процент 2% два процента 24% двадцать четыре процента 46% сорок шесть процентов 4.2.4). Г радус: Если в конце цифровой строки, то знак ˚ произносится в разных грамматических падежах/числах, в зависимости от цифр. Во всех других контекстах, произносится в именительном падеже единственного числа «градус». Пример: 21 ˚ двадцать один градус - 2 ˚ минус два градуса 24 ˚ двадцать четыре градуса 46 ˚ сорок шесть градусов 4.2.5). Знак валюты: Знак валюты $ произносится как доллар склоняется в разных грамматических падежах/числах, в зависимости от цифр. Его детальное рассмотрение описано в разделе 5.4. 5). Обработка чисел; 5.1). Введение: Строки цифр обрабатываются тексто - речевым синтезатором по разному, в зависимости от формата строки цифр, и пунктуации или нечисловых символов. Чтобы ознакомить пользователя с различными типами форматированных и н е форматированных строк цифр, признанных системой, вот краткое описание основной обработки чисел, вместе с примерами. Обработка числа подразделена на следующие категории, описанные в подразделах ниже: Произношение целого числа. Ведущий ноль. Десятичные числа. Валютные расчеты. Аббревиатуры величины. Порядковые числительные. Арифметические операторы. Смешанные цифры и буквы. Дневное время. Даты. Телефонные номера. 5.2). Произношение целого числа: Произношение для целого числа из части цифровой строки. Пример: Example 2425 целое число 2 425 целое число 24,25 24 - целое число, 25 – десятичная часть Числа обозначающие тысячи, миллионы и миллиарды (числа больше чем 999), группируются также и с использованием пробела. Запятая или точка инициирует произношение цифр как десятичное число (смотри ниже). Чтобы достичь правильного произношения, группирование должно быть правильным. Правила для группирования чисел - следующие: Числа группируются по три начиная с конца. Первая группа в числе может состоять из одной, двух, или трех цифр. Если группа, (за исключением первой) не содержит трех цифр, то их последоват ельность не интерпретируется как целое число. Наибольшее читаемое число - 99999999999 (одиннадцать цифр). Числа свыше этого читаются как отдельные цифры. Пример: 2580 две тысячи пятьсот восемьдесят 2 580 “ 25800 двадцать пять тысяч восемьсот 25 800 “ 2580350 два миллиона восемьдесят тысяч триста пятьдесят 2 580 350 “ 1000000000 один миллиард 2000000000 два миллиарда 2000 две тысячи 123456789012 один два три четыре пять шесть семь восемь девять ноль один два 25 456 789 012 двадцать пять миллиардов четыреста пятьдесят шесть миллионов семьсот восемьдесят тысяч двенадцать Примечание; целые числа в большинстве случаев произносятся в именительном/винительном падежах. Для правильного произношения чисел в других падежах, они должны быть н аписаны по буквам как алфавитные символы. Если не установлено иначе, то это правило работает также в валютах, датах и метрических единицах. 5.3). Ведущий ноль: Числа, начинающиеся с 0 (ноль), читаются цельно с нолем в начале. Пример: 09253 ноль девять тысяч двести пятьдесят три 020 ноль двадцать 5.4). Десятичные числа: Десятичные числа: При написании десятичных чисел используется запятая или точка. Часть десятичного числа (перед запятой), читается согласно правилам в 5.2. Дробь ( часть после запятой или точки), читается как целое число без ноля с одним, двумя или тремя числами, соответственно как «десятых», «сотых» и «тысячных». Примечание: число содержащее запятую и сопровождаемое не точно тремя цифрами читается не как десятичное а как целое число. Д есятичные части, содержащие больше чем три символа, читаются цифра за цифрой. Пример: 16,234 шестнадцать целых двести тридцать четыре тысячных 3,1415 три точка один четыре один пять 1251,04 тысяча двести пятьдесят одна целая четыре сотых 1,251,04 тысяча двести пятьдесят одна целая четыре сотых 2,50 две целых пятьдесят сотых 5.5). Валютные расчеты: Для валютных расчетов - следующие правила: Числа с нулем или два десятичных после или перед валютными знаками $ или € читаются как денежные суммы. Числа с нулем или два десятичных после или перед словами «евро», «рубль», «копейка» или «доллар» (в единственном или множественном числах), читаются как денежные суммы в именительном падеже. Допустимые десятичные знаки - запятая и точка. Никаких пробелов в числе. Если десятичная часть - 00, то она читаться не будет. Одиночные пробелы между разными словами необходимы для правильного произношения. Пример: $15,00 пятнадцать долларов 15,00£ пятнадцать фунтов стерлинга 15.00 евро пятнадцать евро 15.30 рублей пятнадцать рублей тридцать копеек Большие суммы можно также написать следующим образом. $ 5 млн. пять миллионов долларов Другая валюта (например руб. и коп. ), написанная аббревиатурой, читается аналогично вышеуказанным правилам. Поддерживаемые аббревиат уры - $, €, czk, gbp, usd, руб., коп., euro, евро, дол., рубл( - ь, - я, - ей), копейк( - а, - и, - ек), доллар( - , - а, - ов), фунт( - а, - ов). 5.6). Аббревиатуры метрических единиц: Если после цифровой строки (с пробелом), то аббревиатуры величины произносятся в ра зных грамматических падежах/числах в зависимости от цифр. Предыдущее число произносится в именительном падеже. Во всех других контекстах, аббревиатуры произносятся во множественном числе притяжательного падежа или же неопределенно. Пример: 21 км двадцать один километр 2 км два километра 24 км двадцать четыре километра 46 км сорок шесть километров 21 т. двадцать одна тонна 2 т. две тонны 24 т. двадцать четыре тонны 46 т. сорок шесть тонн Поддерживаемые аббревиатуры - м, м2, м3, см2, см3, км, км2, км3, дм, дм2, дм3, мм, мм2, мм3, г, с., кг, °C, °F, тыс., км/ч, м/с, мл, мин, сек, ч, час., сл, см, дл, л, га, т, cal, kcal, кал, ккал, В, кВ, мгor сг. Следующие исключения/правила: а). Аббревиатура «г» произносится как «год» в датах, или как «грам», если стоит после цифр не дат, или «город» в других контекстах. в). Аббревиатуры «час» и «сек» не произносятся, если не стоят после цифр. с). Аббревиатуры произносятся в независимости от наличия точки. 5.7). Порядковые числительные; Числа читаются как порядковые в следующих случаях: а). Число следует за названием месяца или же за его аббревиатурой, и оно - меньше или равно 31. Число может быть после названия дня или его аббревиатуры. Например: 3 января, 3 мар, пн 3 янв в). Число состоит из интервала дне й с названием месяца. Например: 15 - 16 января с). Число с дефисом перед й, ая, е, го, х, му . Например: 1 - й, 1 - е, 3 - го, 23 - му. Пример: 30 апреля 1999тридцатое апреля тысяча девятьсот девяносто девятого года апрель 30 1999тридцатое апреля тысяча девятьсот де вяносто девятого года май 1953 г.май тысяча девятьсот пятьдесят третьего года 3 маятретье мая 1999 - готысяча девятьсот девяносто девятого Правильные аббревиатуры для месяцев: янв, фев, мар, апр, май, июн, июл, авг, сен, окт, ноя и дек. Правильные аббревиа туры для дней: пон, вт, ср, чт, пт, сб, вс. Данные аббревиатуры произносят только названия месяцев и дней при появлении в правильных контекстах даты. 5.8). Арифметические операторы: Числа вместе с арифметическими операторами читаюся согласно примерам ниж е. - 12 минус двенадцать +24 плюс двадцать четыре 2*3 два умножить на три 2*3=6 два умножить на три равно шесть 2/3 две третьих 5.9). Смешанные цифры и буквы: Если буква в пределах последовательности цифр, то группы цифр читаются как целые числа согласно правилам выше. Буквы разграничивают числа. Пример: 77B84Z3 семьдесят семь би восемьдесят четыре зэд три 0092B87 - B ноль ноль девяносто два би восемьдесят семь би 5.10 Дневное время: Двоеточие используется, чтобы разделять часы, минуты и секунды. Аббревиатуры «час», «мин» и «сек» (вместе с возможным вариантом «ч»), с пробелом между временем и аббревиатурой. Аббревиатуры времени произносятся как «час», «минута», «секунда» в разных грамматических падежах/числах, в зависимости от цифр. Числа произнося тся цельно. Замыкающий ноль не произносится. Другие возможные шаблоны: a) hh:mm (или h:mm) b) hh:mm:ss (или h:mm:ss) c) hh:mm’ss” (или h:mm’ss”) eg. 12:30’45” h = hour, m = minute, s = second. В шаблоне a): если “mm” - часть равна “00”, то она будет читаться как «ровно». Пример: 9:00 девять часов ровно 13:00 тринадцать часов ровно В шаблоне b) если вторая часть равна “00”, то она читаться не будет. В шаблоне с) те же правила, что и в b). Пример: 9 час 20 мин девять часов двадцать минут 2 час 3 мин два часа три минуты 1 час. 20 мин. 2 сек. один час двадцать минут две секунды 9:20 девять часов двадцать минут 2:03 два часа три минуты 1:20’02” один час двадцать минут две секунды 12:00 двенадцать часов ровно 0:00 ноль часов ровно 00:00 ноль часов ровно 5.11). Даты: Правильные форматы дат; Тип 1: dd - mm - yyyy, dd.mm.yyyy, and dd/mm/yyyy Тип 2: dd - mm - yy, dd.mm.yy, and dd/mm/yy “ yyyy ” – год написанный четырьмя цифрами (напр. 2007), “yy” - год написанный двумя цифрами (напр. “07” для “2007”), “ mm ” – номер месяца между 1 и 12, а “ dd ” – номер дня между 1 и 31. В качестве разделителей используются дефис, точка и слэш. Во всех форматах, используются одна или две цифры в части mm и dd . Ноли используются в числах меньше 10. Месяцы и дни от 1 до 9 могут сос тоять из одной цифры или включать в себе ноли (напр. 01 или 1 для Января). Числа произносятся как порядковые числительные, в именительном или родительном падежах, в зависимости от контекста. Примеры правильных форматов: 10 - 02 - 2003, 10 - 2 - 2003, 10.02.2003, 1 0.2.2003, 10/02/2003, 10/2/2003, 10 - 02 - 03, 10 - 2 - 03, 10.02.03, 10.2.03, 10/02/03, 10/2/03 Все эти примеры дат читаются как «десятое февраля две тысячи третьего года». Диапазоны дней и лет поддерживают также предлог «с», «по», «от». Примеры: с 1998 - 1999 г. с тысяча девятьсот девяносто восьмого по тысячу девятьсот девяносто девятый год. с 1939 - 45 г. с тысяча девятьсот тридцать девятого по сорок пятый год. с 14 - 15 февраляс четырнадцатого по пятнадцатое февраля с 14 - 15 февраля 1999 г.с четырнадцатого по пятнадцатое февраля тысяча девятьсот девяносто девятого года. с 14 февраля 1999 г.с четырнадцатого февраля тысяча девятьсот девяносто девятого года. от 14 февраля 1999 г.от четырнадцатого февраля тысяча девятьсот девяносто девятого года. с 14 по 15 февраля с четырнадцатого по пятнадцатое февраля. Другие возможные форматы: 30 апреля 1999 тридцатое апреля тысяча девятьсот девяносто девятого года. май 1953 г. май тысяча девятьсот пятьдесят третьего года. 3 мая третье мая. 5.12). Телефонные номера: В этой секции описываются шаблоны цифр, признанные в качестве номеров телефона . В произношении номеров телефона, все числа читаются как целые, сформированные группами цифр, разделенных пробелом, слешем, тире или дефисом с паузой между группами. Ведущий но ль произносится как ноль. Группы из четырех цифр и больше произносятся цифра за цифрой. 5.12.1). Простые телефонные номера: Следующие последовательности цифр могут быть разделены пробелом или дефисом: ·xxxxx xxxxxx ·xxxxx xxx xxx ·xxxxx xxxxx ·xxxx xxxxx xx ·xxxx xxx xxxx ·xxxx xxxxxx ·xxx xxxx ·xx xx xx ·xxx xxxx xxxx ·( Код) xxxx xxxx ·( Код) xxxxxxx ·( Код) xxxxxx ·( Код) xxxxx ·( Код) xxx xxxx ·( Код) - xxx - xxxx ( Код области равен 0 с 2 - 7 цифрами) В этих форматах возможны следующие последовательности: x xxx/xxx - xxxx ·xxxx/x - xx - xx ·xxx/xxx - xxx ·xxx/xx - xx - xx ·xx/xxx - xx - xx ·xxx - xxx - xxx ·(x) - xxx - xxx ·(xx) - xxx - xxx ·(xxx) - xxx - xxx ·(x).xxxx.xxx.xxx ·(x) - xxxx - xxx - xxx ·(xx).xxxx.xxx.xxx ·(xx) - xxxx - xxx - xxx ·(xxx).xxxx.xxx.xxx ·(xx) xxx - xx - xx ·(xx) xxx.xx.xx ·(xxxx) xx.xx.xx ·(xxxx) xx - xx - xx ·(xxxx) x.xx.xx ·(xxxx) x - xx - xx ·(xxx) xxx.xx.xx ·(xxx) xxx - xx - xx Последовательность xxx - xxx распознается как телефонный формат только если после «tel, mob, tel:, телефон, тел:, тел.; моб. т.; моб. тел.» Примеры: (09) 345 - 46 - 71 ноль девять, триста сорок пять, сорок шесть, семьдесят один. тел. (09) 345 - 46 - 71 телефон, ноль девять, триста сорок пять, сорок шесть, семьдесятодин. (093) 45 - 46 - 71 ноль девяносто три, сорок пять, сорок шесть, семьдесят один. 093/45 - 46 - 71 ноль девяносто три, сорок пять, сорок шесть, семьдесят один. 093/400 - 071 ноль девяносто три, четыреста, ноль семьдесят один. 093/400071 ноль девяносто три, четыре, ноль, ноль, ноль, семь, один. 5.12.1). Международные телефонные номера: Все форматы распознаются, если имеется международный префикс: 00x +xx 00(xxx) 00xx +xxx +(x) 00xxx 00(x) +(xx) +x 00(xx) +(xxx) Примеры: + 32 (09) 345 - 46 - 71 плюс тридцать два, ноль девять, триста сорок пять, сорок шесть, семьдесят один. тел. + 32 (09) 345 - 46 - 71 телефон, плюс тридцать два, ноль девять, триста сорок пять, сорок шесть, семьдесят один. 007 (09) 345 - 46 - 71 ноль ноль семь, ноль девять, триста сорок пять, сорок шесть, семьдесят один. 6). Как изменять ошибки произношения; Слова, произносимые текстово - речевым синт езатором неправильно могут быть введены в лексикон. В этом лексиконе, пользователь вводит фонетическую транскрипцию слова (смотри главу 7). Фонетические транскрипции могут также вводиться непосредственно в тексте, с использованием PRN - пометки (смотри руков одство пользователя). 7). Русский фонетический текст; Русская текстово - речевая система от Acapela использует подмножество SAM фонетического алфавита (Speech Assessment Methods Phonetic Alphabet) или SAMPA. Только SAMPA может использоваться в фонетических транскрипциях. Символы не указанные на нижеследующих рисунках, неправильные, и будут проигнорированы при их включении в лексикон пользователя. Символы SAMPA пишутся с пробелом после каждой фонемы. Единственная кавычка « ’ » после согласных, указывает на п алатализацию (смягчение согласных). Числа «1» и «2» после гласных указывают на первостепенный и второстепенный лексический акцент (иногда называемый «word - stress», смотри часть 7.3). 7.1). Согласные: 7.1.1). Символы для русских согласных. Рис. 2 7.2). Гласные: 7.2.1). Символы для русских гласных. Рис. 3 7.3). Лексический акцент; Лексический акцент указывает уровень выступа (или акцента) слога в слове. В русском языке, некоторые слова могут различиться позицией этого лексического акцента. Н апример, слово замок имеет два значения, в зависимости от позиции лексического акцента в слове (зАмок: /z A1 m @ k / замОк: /z V m o1 k /). Практически все слова в русском языке имеют лексический акцент даже если он не всегда различается. Следовательно, ва жно включать лексические метки акцента при написании фонетических транскрипций. В фонетических транскрипциях, первичный акцент указан символом «1» непосредственно после (без пробела) акцентированной гласной. Второстепенный акцент указывается символом «2». Примеры: Представитель / p r’ $ t s t V v’ i1t’ $ l’ / Спецпредставитель / s p e2 ts p r’ $ t s t V v’ i1 t’ $ l’ / Отметьте, что символ «1» в русском языке имеет два значения: символ SAMPA для гласной /1/ (буква «ы»), и первичный лексический акцент. Символ первичного лексического акцента «1» всегда следует за символами гласной без пробела во второй позиции, и различается звуком SAMPA [1]. Нап ример /11/ в /v 11 t / отражает звук «ы» под первичным лексическим акцентом «1». 7.5). Горловые паузы: Горловые паузы представлены фонетическим символом /? /, - небольшим дополнительным звуком, произведенным в горле. Часто используется, для разделения дв ух слов, когда второе слово начинается с напряженной гласной. Этот звук включается в транскрипцию для чистоты произношения. Например, высказывание «ну а он» может произноситься бегло без паузы /n U V o1 n/, или более ясно, с одной или двумя паузами /n U? V ? o1 n /. 7.6). Пауза: Подчеркивание _ в фонетической транскрипции генерирует небольшую паузу. 8). Не кирилический ввод; Слова, написанные латинскими символами произносятся в соответствии с правилами American English, но с русскими звуками (как будто г оворить по русски с сильным акцентом). 9). Аббревиатуры; В текущей версии русской текстово - речевой системы, аббревиатуры на рис. 4 разпознаются во всех контекстах. Эти аббревиатуры нечувствительные к падежам и не требуют точки для признания в качестве со кращения. Здесь не указанны аббревиатуры после цифр, так как они уже изучены выше. Рис. 4 10). Веб адреса и эл - почта; Веб адреса и эл - почта читаются так: «www» читается по буквам. Точка читается как точка, дефисы как «дефис», подчеркивание ( _ ) к ак «подчеркивание», слеш ( / ) как «слеш». «us, uk, fr» и все другие аббревиатуры для стран (за исключением «ru»), читаются по буквам. «@» читается как «собачка». Слова/строки (включая «org», «com» и «edu»), произносятся согласно нормальным правилам произношения в системе (Russian или American English) и в соответствии с лексиконом. Пример: StringReading www.acapela - group.com www точка акапела дефис груп точка ком http://www.acapela - group.com http двоеточие слеш w w w точка акапела дефис груп точка ком [email protected] смирнов собачка yahoo точка ру ivan [email protected] иван подчеркивание смирнов собачка yahoo точка ру ---------------------------------------------------------------------------------------------------- --- ------------------------ 08.11.11 перевод: Еvmir

Приложенные файлы

  • pdf 26566366
    Размер файла: 845 kB Загрузок: 0

Добавить комментарий