Emacs для начинающих

       

Описание формата словаря Мюллера, Издание 7. Под GNU GPL.


В первой строке словарного файла обозначены авторские права на словарь:

  • (C) V.K.Mueller English-Russian Dictionary, 7 Edition;
  • "State Publishing House of Foreign and National Dictionaries" Moscow 1961;
  • Free Electronic Version by S.Starostin 1996 starling.rinet.ru/download/dict.exe;
  • Electronic Version by E.S.Cymbalyuk 1999 under GNU GPL, ver. 1.2, see latest version on www.chat.ru/~mueller_dic or www.geocities.com/mueller_dic
  • Исходная электронная версия словаря Мюллера 7-ой редакции свободно доступна на странице (под названием dict.exe). Во время юридического разбирательства между фирмой "ABBYY" и издательством "Русский Язык" выяснилось, что издательство "Русский язык" имеет права только на издания после 1961 г., а до того никаких прав на ограничение его распространения ни у кого нет. Как обладатель авторского права на вышеуказанную (dict.exe) электронную версию словаря Мюллера, Сергей дал мне разрешение на его переработку. Я разрешаю использовать мое электронное представление словаря Мюллера под

    в закрытых проектах пользуйтесь версией Сергея :-)

    Словарь зарегистрирован в депозитарии электронных изданий НТЦ "ИНФОРМРЕГИСТР" 29 февраля 2000 г. и ему присвоен номер государственного учета 0320000030.

    Во второй строке кратко описан формат словаря на английском, а в третей превод на русский (затем идут пояснения к сокращениям).

  • Формат словаря Каждая словарная статья представляет собой строку.
  • Два пробела отделяют английское слово от его перевода.
  • Русские буквы кодируются в koi8-r.
  • A stress in a Russian word is coded by a capital letter.
  • Транскрипция в формате IPA показывается в квадратных скобках.
  • Различные значения одного слова индексируются латинскими или арабскими цифрами с предшествующим подчеркиванием. Например, _I-_VII, 1.-6., 1>-34>, а>-о>.
  • Служебные слова начинаются с символа "_" и завершаются символом "." или ":".
  • Формат словаря максимально приближен к исходному (книжному) форматированию текста словаря.


    Для авторов программных оболочек, в которых нужно отделять переводимое слово в словарной статье от его перевода (пояснения) введен разделитель --- два пробела подряд.
    Мной введен один служебный символ --- "_" (он был выбран, так как в обычных текстах словарей он не встречается и в регулярных выражениях Unix не играет специфической роли). С этого символа начинаются все служебные слова, причем слова, обозначающие употребление в разных областях знания, русские, а грамматические служебные слова --- английские. Все служебные слова заканчиваются точкой или двоеточием. Список сокращений добавлен в начало файла словаря, после строки с авторскими правами. С символа "_" начинаются также римские цифры, обозначающие разные значения основного переводимого слова (чтобы отличить от употребления буквы "I" в предложениях и в сносках на другие слова). Словарная статья может разбиваться на подразделы цифрой с точкой и/или русской буквой со скобочкой ">" (я заменил обычную скобку ")" на ">", для более точной работы автоматического форматирования).
    В исходном словаре Сергея Старостина особым образом кодировалось ударение в русских словах. Чтобы не потерять эту информацию в данной версии все русские ударные буквы превращены в заглавные. При правильно настроенной русской локали это позволит проводить поиск по русским словам без учета регистра. Доступна версия и с нормальным использованием русских букв.
    Транскрипция выделятся скобочками "[" и "]". Символы транскрипции соответствуют стандарту (International Phonetic Alphabet).
    Основные английские фонетические символы,
    "a" from "man" --- Q, 81
    "w" --- W
    "a" from "past" --- A, 65
    ":" from a: in "past" --- 249, 0xF9
    "e" from "her" --- 171, 0xAB
    "e" first from diphthong in "care" --- E, 69
    "o" from "wash" --- 141, 0x8D
    "a" from "son" --- 195, 0xC3
    "i" короткое "i" from "ink" --- I
    "i" длинное "i" from "machine" --- i
    "'" ударение голосом --- 200, 0xC8
    "," понижение голоса --- 199, 0xC7
    "k" --- H
    "z" --- Z, 90
    "ng" --- N, 78
    "sh" --- S, 83
    "th" с голосом --- D, 68
    "th" без голоса --- T, 84
    Большинство маленьких английских букв не изменили своего положения. Главная неприятность в использовании IPA
    стандарта --- нельзя сделать один фонт содержащий и русские и английские буквы и фонетические символы (разве только UNICODE). К тому же на месте "-", "(", ")" находятся другие символы и для нормальной работы их приходится удалять (хотя в обычных бумажных словарях они используются вперемешку с символами транскрипции).
    Словарь (версия 1.2) вместе с файлом хешей можно скачать в виде tar.gz архива. Тот же словарь с ударениями в русских словах можно найти здесь. Каждый пакет занимает по 2.6 Mb.
    --- программа на C для перекодировки словаря в другие русские кодировки (с сохранением транскрипции в Sil-IPA).
    Все вопросы, замечания и предложения присылайте Евгению Цымбалюку на mueller_dic@koi.chat.ru

    Содержание раздела