Автоматизация учета

Описание формата файлов конфигурации (CF, EPF, ERF)

Внутренняя структура файла конфигурации (*.cf) давно не является секретом, однако подробной документации на него в сети практически нет. Данная статья является попыткой восполнить этот пробел.
2,2 тыс. 149

Внутренняя структура файла конфигурации (*.cf) давно не является секретом, однако подробной документации на него в сети практически нет. Данная статья является попыткой восполнить этот пробел.

Внутренняя структура файла конфигурации (*.cf) не является секретом. Добрые люди давно разобрали его и создали немало интересных утилит, позволяющих работать с этим форматом. На Инфостарте найдется добрый десяток (если не больше) интересных публикаций, так или иначе читающих содержимое *.cf файлов, так что тема эта совсем не новая.

Однако, хорошей, добротной документации на этот формат, к сожалению, совсем немного. На написание данной статьи меня надоумила публикация глубокоуважаемого awa, который подробно, во всех деталях описал структуру формата файловой ИБ 1С:Предприятия (*.1CD).

Та статья, как мне кажется, стала катализатором для целого ряда разработок, созданных другими авторами. Открытость и доступность информации подтолкнула творческую активность авторов, а все сообщество получило ряд отличных инструментов по работе с файловыми базами 1С.

Мне кажется, что подробное описание формата CF тоже сможет заинтересовать многих авторов, и, может быть, мы получим возможность увидеть массу новых интересных разработок на тему файлов конфигурации.

Предыстория

Как уже говорилось выше, структура формата давно известна и в сети есть информация по его структуре (хотя, довольно скудная). Мне эта информация понадобилась при разработке программы V8Viewer, работая над которой, я опирался на следующие материалы:

  • http://infostart.ru/public/15695/, автор  brix8x
  • http://www.richmedia.us/post/2011/01/18/cf-file-format-1c-8-compatible.aspx, если не ошибаюсь, автор – Elisy
  • http://infostart.ru/public/15867/, автор awa

Хочется выразить благодарность авторам, за то, что поделились информацией с народом.

Терминология

Перейдем непосредственно к теме нашего обсуждения.

Для того чтобы расставить точки над i, давайте определимся с названием самого формата.

Во-первых, в этом формате создаются не только файлы конфигурации, но также файлы внешних отчетов и обработок. В интернете мне попадалось название Compound-файл. Возможно, оно является устоявшимся среди старожилов 1С, но мне оно не очень нравится.

Предлагаю в рамках данной статьи называть данный формат «контейнер».  Если уважаемая публика подскажет в комментариях правильное название, я буду очень рад.

Смотрим внутрь

Логической единицей хранения данных внутри контейнера является документДокумент, это осмысленный законченный набор данных, который можно прочитать и каким-то образом интерпретировать. Я специально не пользуюсь термином «файл», поскольку, это название я приберегу для другой сущности,  о которой чуть позже.

Итак, в общих чертах, файл CF (EPF/ERF) представляет собой контейнер, в котором хранятся документы.

Каждый документ внутри контейнера может быть разбит на блоки. Минимальной физической единицей хранения данных является блок, но осмысленной логической единицей является документ. Иными словами, документы внутри контейнера могут лежать в виде разрозненных кусочков (блоков) и для того, чтобы прочитать содержимое документа, все его кусочки нужно собрать и объединить.

Структура контейнера

Контейнер включает в себя следующие части (по порядку):

  1. Заголовок контейнера
    1. Адрес первого пустого блока, в который можно добавлять данные
    2. Размер блока по умолчанию
    3. Количество файлов в контейнере
  2. Документ оглавления контейнера
  3. Собственно данные, которые перечислены в оглавлении

Для того чтобы прочитать содержимое контейнера, необходимо прочитать документ оглавления. Однако, поскольку,  документ состоит из блоков, то прежде необходимо научиться собирать полный документ из этих самых блоков.

Структура блока

Блок состоит из заголовка и тела. В заголовке указывается общий размер всего документа, размер текущего блока и адрес (позиция в файле) следующего блока. Сразу за заголовком идет тело блока – собственно, те данные, которые нам нужны. Тело блока имеет ровно ту длину (в байтах), которая указана в заголовке.

Внутри контейнера тут и там встречается волшебная константа, обозначающая некую «пустоту» – это число 0x7fffffff.

Когда мы собираем документ из блоков, то смотрим в заголовке на адрес следующего блока. Если он равен 0x7fffffff, то «следующего» блока нет, этот – последний.

Константа 0x7fffffff - это значение INT_MAX, т.е. максимальное значение 4-байтового целого числа со знаком.

Логические «файлы»

Я упоминал, что термин «файл» я приберегу до лучших времен. Эти времена настали :)

Вся конфигурация хранится в контейнере в виде файлов. Если мы вспомним школьный курс информатики, то вспомним, что «файл», говорили нам – это именованный документ.

Файлотличается от «документа» тем, что у него есть имя, и по этому имени к нему можно обращаться. Если мы будем разбирать содержимое конфигурации и строить дерево метаданных, то найдем внутри файлов очень много упоминаний других файлов. Процедура чтения конфигурации оперирует именами файлов и ссылается на них по имени.

Если подвести итоги, то можно сказать следующее: в контейнере лежат разные документы, но некоторые из них имеют имя. Такие документы называются «файлы» и они носят не служебный, а непосредственно прикладной характер. Именно файлы хранят информацию о метаданных конфигурации.

Компоненты файла

Каждый файл состоит из двух документов:

  1. Документ атрибутов, который содержит имя файла и даты создания/изменения
  2. Документ содержимого, который содержит собственно тело файла

Оглавление контейнера

Теперь, когда все составные части озвучены, осталось рассмотреть, пожалуй, самый главный документ контейнера – документ оглавления, в котором указано расположение всех файлов контейнера. Как говорилось выше, документ оглавления это самый первый документ контейнера и он идет сразу же за заголовком контейнера.

Оглавление представляет собой массив записей, каждая из которых указывает на файл. Поскольку, файл состоит их двух документов (атрибуты и содержимое), то запись оглавления указывает на оба из них. Запись оглавления представляет собой три числа INT32:

  1. Адрес (смещение в файле) документа атрибутов
  2. Адрес (смещение в файле) документа содержимого
  3. Число 0x7fffffff (маркер конца записи).

Напоминаю, что каждый документ может быть разбит на блоки (фрагментирован). Алгоритм сборки документа из блоков будет рассмотрен ниже.

Запись оглавления представляет собой 2 значащих числа INT32. Первое число – это адрес документа атрибутов файла. По этому адресу мы попадем на начало 1-го блока документа атрибутов. Из документа атрибутов мы можем узнать имя файла. Второе число – адрес документа содержимого файла. По этому адресу мы попадем на начало 1-го блока документа содержимого, откуда будем читать непосредственно данные файла.

Особенности сжатия данных.

Контейнер может содержать самые разные файлы. Как правило, это текстовые файлы в кодировке UTF-8. Однако среди файлов контейнера могут встречаться другие файлы-контейнеры. Проще всего провести аналогию с файловой системой. Контейнер – это директория, а файлы внутри контейнера – это ее содержимое. Директория может содержать другие директории.

Корневой каталог этой «файловой системы» - это сам файл *.CF. Внутри него могут быть другие файлы-контейнеры, по сути – вложенные директории, которые считываются ровно по тому же самому алгоритму и имеют ровно ту же самую структуру.

Тем не менее, есть одна особенность корневой директории. Все документы содержимого файлов внутри корневой директории сжаты по алгоритму Deflate. Содержимое файлов внутри вложенных директорий уже не сжато. Проще говоря, на верхнем уровне файла-контейнера тела всех файлов сжаты, но если файл внутри контейнера сам является контейнером, то внутри него файлы уже будут записаны в чистом виде (без сжатия).

Цепочка свободных блоков

В результате удаления каких-либо данных из контейнера в нем могут образовываться пустые места. Эти свободные места связываются в цепочку и образуют этакий «документ», данные которого отсутствуют. Иными словами, свободные блоки связаны друг с другом по тому же принципу, по которому связаны друг с другом блоки документов. Адрес первого свободного блока указывается в самом начале заголовка контейнера. Если адрес свободного блока равен INT_MAX, то это значит, что в середине контейнера нет свободных (пустых) блоков.

Краткий итог по теоретической части

  1. Файл CF(EPF/ERF) записан в формате «контейнера»
  2. Контейнер начинается с заголовка
  3. Все содержимое контейнера, за исключением заголовка, записано в виде «документов»
  4. Документ может быть разбит на блоки
  5. Документ начинается с заголовка блока, по которому можно узнать, как прочитать весь документ целиком
  6. Сразу за заголовком контейнера идет документ оглавления
  7. Оглавление, это набор записей, которые указывают на «файлы» внутри контейнера
  8. Каждый файл состоит из двух документов – документа атрибутов, где указано имя этого файла и документа содержимого, где, собственно, расположены данные файла.
  9. Каждая запись оглавления содержит 2 адреса. Первый – адрес документа атрибутов файла, второй – адрес документа содержимого.
  10. Контейнер может содержать вложенные контейнеры (как бы, вложенные папки)
  11. Файлы внутри корневого контейнера сжаты по алгоритму Deflate, файлы внутри вложенных контейнеров записаны без сжатия.

Давайте уже пощупаем байты

Итак, настало время рассмотреть, как конкретно устроены все упомянутые выше сущности.

Основным способом чтения данных из контейнера является чтение цепочки блоков, составляющих те или иные документы. Кажется, что правильно будет начать с принципа чтения блочных документов.

Чтение документа по блокам

Каждый документ в контейнере обязательно начинается с заголовка блока. При этом документ может быть разбит на несколько блоков. Для того чтобы прочитать документ, необходимо его «собрать» из блоков.

Итак, заголовок блока представляет собой строку длиной 31 байт. Строка эта имеет следующий вид:

[CRLF][Размер всего документа][Пробел][Размер текущего блока][Пробел][Адрес следующего блока][CRLF], где:

  • CRLF – стандартный перевод строки Windows, пара символов rn (0x0D,0x0A)
  • Размер всего документа – общая длина документа в байтах. Записана в виде строкового представления hex-числа. Длина – 8 байт.
  • Пробел – пробел. Символ 0x20
  • Размер текущего блока – длина тела блока в байтах. Записана также в виде строкового представления числа INT32 в hex-формате. Если документ состоит из единственного блока, то размер всего документа либо меньше, либо совпадает с размером текущего блока (что логично)
  • Адрес следующего блока – адрес по которому расположен очередной блок документа. Если адрес следующего блока равен INT_MAX, то это значит, что следующего блока нет. Адрес следующего блока также записан в виде строкового представления числа.

Сразу за заголовком блока идет тело блока, которое имеет длину, указанную в поле «Размер текущего блока».

Рассмотрим рисунок: длина всего документа составляет 0x54 байта, красной рамкой выделены эти 0x54 байта. Это данные документа. Длина блока составляет 0x200 байт, т.е. больше чем длина самого документа. По этой причине остальные данные блока составляют "нули" неиспользуемого пространства. Значащие байты - это те, которые отмечены красной рамкой.

Если длина документа больше длины блока, то нужно прочитать следующий блок. Если в поле «Адрес следующего блока» записано значение, отличное от 0x7fffffff, то необходимо считать текущий блок, затем перейти по этому адресу и считать другой блок. Если в этом блоке также будет задан адрес следующего блока, то надо перейти и туда. Таким образом, формируется «цепочка» блоков, из которых состоит документ.

Чтение необходимо продолжать до тех пор, пока в поле «Адрес следующего блока» не встретится значение 0x7fffffff или пока не будет считано количество байт, указанное в поле «Размер всего документа».

Поле «Размер всего документа» имеет смысл только для первого блока. Во всех последующих блоках документа оно имеет значение 0x00000000.

Формат заголовка контейнера

Заголовок контейнера имеет длину 16 байт и состоит из следующих полей:

Поле

Тип

Пояснение

Адрес первого свободного блока

INT32 (4 байта)

Смещение, по которому начинается цепочка свободных блоков

Размер блока по умолчанию

INT32 (4 байта)

Блок может иметь произвольную длину, но значение по умолчанию можно использовать для добавления новых блоков, например.

Поле неизвестного назначения (см. комментарии к статье) Часто совпадает с количеством файлов в контейнере

INT32 (4 байта)

Число, отражающее некоторую величину, как правило, совпадающую с количеством файлов в контейнере, однако, коллеги в комментариях считают, что это не совсем так. На алгоритм интерпретации контейнера данное число никак не влияет, его можно игнорировать.

Зарезервированное поле

INT32 (4 байта)

Всегда равно 0 (всегда ли?)

Формат записи документа оглавления

Оглавление содержит перечень указателей на файлы, размещенные в контейнере

Поле

Тип

Пояснение

Адрес документа атрибутов

INT32 (4 байта)

Адрес документа атрибутов файла

Адрес документа содержимого

INT32 (4 байта)

Адрес документа содержимого файлов

Зарезервированное поле

INT32 (4 байта)

Всегда равно 0x7fffffff

Формат документа атрибутов файла

Документ атрибутов описывает имя файла и даты его создания/изменения. 

Поле

Тип

Пояснение

Время создания файла

UINT64 (8 байт)

Время создания файла, выраженное в количестве 100-микросекундных интервалов, прошедших с начала нашей эры (01.01.0001 00:00:00)

Время изменения файла

UINT64 (8 байт)

Аналогично

Зарезервированное поле

INT32 (4 байта)

Всегда равно 0. Возможно, это флаги атрибутов, что-то вроде «только чтение», «скрытый» и т.п. Однако, я не встречал файлов, где это поле бы отличалось от нуля.

Имя файла

Строка в формате UTF-16

Занимает все оставшееся тело документа (за вычетом 2-х дат и резервного поля)

Принцип чтения контейнера

Для того, чтобы прочитать контейнер мы должны сделать следующие вещи:

Чтение оглавления

  1. Собрать из блоков документ оглавления и прочитать его
  2. Обойти все записи в документе оглавления и прочитать документы атрибутов (имена) файлов контейнера
  3. Сопоставить каждому полученному имени адрес документа содержимого
  4. На выходе получается соответствие «Имя файла» -> «Адрес содержимого»

Чтение файлов

  1. По имени файла получить из оглавления адрес документа содержимого
  2. Собрать из блоков документ содержимого
  3. Если это корневой контейнер, то распаковать документ содержимого (он сжат)
  4. Готово. Полученный результат является данными искомого файла.

Обновление от 25.02.2014

В статью внесены правки, рекомендованные awa в комментариях.

В заключение

Данная статья не является истиной в последней инстанции, вероятно, в ней есть даже ошибки. Тем не менее, если данная тема Вам интересна, то я надеюсь, что эта статья поможет вам в реализации ваших проектов. Удачи!

Начать дискуссию

Кабимин может не поддержать законопроект о регулировании маркетплейсов

Чтобы не допустить конфликтов между маркетплейсами, селлерами и покупателями, правительство отправит депутатский законопроект о маркетплейсах на концептуальную переработку.

Курсы повышения
квалификации

20
Официальное удостоверение с занесением в госреестр Рособрнадзора

🎈Акция ко дню главбуха! Онлайн-курсы по финмоделированию, зарплате, маркетплейсам и ФСБУ за 3 690 рублей!

Расширьте карьерные горизонты с новой акцией на курсы «Клерка» специально ко Дню главного бухгалтера! Консультируйте клиентов на маркетплейсах, применяйте в работе федеральные стандарты без ошибок, изучите финмоделирование и считайте зарплату без ошибок! До 22 апреля все курсы стоят 3 690 рублей!

🎈Акция ко дню главбуха! Онлайн-курсы по финмоделированию, зарплате, маркетплейсам и ФСБУ за 3 690 рублей!

Иностранные банки закрыли инвесторам из РФ доступ к статусу их ценных бумаг

Российские инвесторы не смогут перевести свои активы в отечественные депозитарии и участвовать в замещении облигаций.

Лучшие спикеры, новый каждый день

Медицинское освидетельствование иностранных граждан в России

Почти все иностранные граждане обязаны регулярно проходить медицинские обследования. Без них находиться на территории России нельзя. Расскажем о том, как иностранному гражданину пройти обязательное медицинское освидетельствование.

Иллюстрация: Вера Ревина/Клерк.ру

😷 С 2026 года самозанятые смогут получать больничные пособия. Но могут быть злоупотребления, считает эксперт

Самозанятым позволят добровольно отчислять средства в Соцфонд, из которых сформируется база для выплаты больничных пособий.

130

Названа самая быстро развивающаяся отрасль российской экономики

ИТ-отрасль заняла 1-е место по темпам роста ключевых показателей за 4 года среди всех крупных отраслей экономики России.

Опытом делятся эксперты-практики, без воды

Так ли страшен налоговый мониторинг? Теперь читатели «Клерка» узнают больше об этом виде контроля

На «Клерке» есть полезный блог компании ДРТ, которая знает все о налоговом мониторинге. Читатели могут в любой момент уточнить важную информацию в комментариях.

Так ли страшен налоговый мониторинг? Теперь читатели «Клерка» узнают больше об этом виде контроля
125

Самозанятый vs ИП. С кем заказчику выгоднее сотрудничать

Очевидного ответа, с кем выгоднее сотрудничать — с самозанятыми или ИП — нет. И те, и те самостоятельно платят налог с вознаграждения. А вот в чем нюансы сотрудничества — разберем подробнее.

Самозанятый vs ИП. С кем заказчику выгоднее сотрудничать

🧠Пятничный мозгонапрягатель. Бухгалтер, отвлекись от работы

Бухгалтера, давайте напряжем бул... извилины и поищем предметы.

🧠Пятничный мозгонапрягатель. Бухгалтер, отвлекись от работы
22
119
ФСБУ НМА

Расходы на актив, не признанный НМА, учитывают по ПБУ 10/99

Компания понесла расходы, которые в бухучете не связаны с созданием нематериального актива. Значит, их не надо учитывать по нормам ФСБУ 14/2022.

Бизнес в новых регионах за 2024 год платит два из трех имущественных налогов

Имущественные налоги устанавливаются Налоговым кодексом и региональными и местными законами. В новых регионах эти налоги могут быть введены с 01.01.2024.

Мемы от великих художников. Пятничный пост для поднятия настроения

Продолжаем собирать мемы от великих художников. Ловите подборку картин, которые отлично подходят для бухгалтерских и не только мемов.

Мемы от великих художников. Пятничный пост для поднятия настроения
183
Миникурсы, текстовые и видеоинструкции для бухгалтеров

Смена профессии: как бухгалтеру перебороть страх перемен

Бухгалтер — одна из популярных и востребованных профессий, но одновременно с этим одна из самых ответственных и напряженных. Выгорания случаются у бухгалтеров достаточно часто, и в эти минуты приходят мысли о смене профессии. Как быть, если сердце требует перемен, а разум переживает за благосостояние?

Смена профессии: как бухгалтеру перебороть страх перемен
1
667

День отдыха за работу в выходной оплате не подлежит, но оплатить его надо

Если сотрудник в прошлом месяце работал в выходной день, а в текущем взял отгул, то ему надо оплатить полный оклад, хотя работать он будет на 1 день меньше.

1
112

У иностранных инвесторов будет упрощенный порядок оформления виз в РФ

За инвестиции в российскую экономику от 50 млн рублей иностранные предприниматели смогут получать многократные деловые визы в РФ.

О праве на вычет НДС, уплаченного в качестве налогового агента, в случае расторжения договора

Вправе ли организация принять к вычету НДС, исчисленный с суммы уплаченного аванса, в 1 квартале 2024 года, поскольку с момента расторжения договора не прошло года? Рассказывает Коллегия налоговых консультантов.

Переходный период закончился: как платить налоги в 2024 году

В 2023 году система расчетов с бюджетом претерпела существенные изменения. Закон от 14.07.2022 № 263-ФЗ внес поправки в НК. Появилось понятие Единого налогового счета (ЕНС). Каждому налогоплательщику, будь то физлицо, ИП или компания, открыт единый налоговый счет, на котором учитываются все расчеты с бюджетом, касающиеся уплаты налогов и взносов.

Переходный период закончился: как платить налоги в 2024 году

Тест: понимаете ли вы бухгалтерские термины. Выпуск 2

Проверьте свои знания в области бухгалтерской терминологии. Сегодня тест посвящен активам и пассивам.

Тест: понимаете ли вы бухгалтерские термины. Выпуск 2
10
125

👀 «Клерк» на YouTube смотрят уже больше 5000 человек!

На нашем ютуб-канале вы найдете крутые налоговые и бухгалтерские новости. Подкасты про финансы и инвестиции, а также вебинары для бухгалтеров и кадровиков.

36

Интересные материалы

Аргументы для повышения стоимости бухгалтерского обслуживания

Продолжаем серию статей про то, как организовать работу по повышению стоимости бухгалтерских услуг. В рамках предыдущей статьи мы рассмотрели вопросы о том, как подготовиться к повышению цен, а также насколько сильно допустимо поднимать стоимость обслуживания клиентам. Теперь нам предстоит поговорить о том, какие аргументы использовать для согласования повышения стоимости, а также рассмотреть важные аспекты психологии принятия решений клиентом.

Аргументы для повышения стоимости бухгалтерского обслуживания