Виртуальные и физические адреса
Понятие «адрес памяти» может рассматриваться с двух точек зрения. С одной стороны, при написании любой программы ее автор либо явно указывает, по каким адресам должны размещаться переменные и команды (так бывает при программировании на языке ассемблера), либо присвоение конкретных адресов доверяется системе программирования. Те адреса памяти, которые записаны в программе, принято называть виртуальными адресами.
С другой стороны, каждой ячейке памяти компьютера соответствует ее адрес, который должен помещаться на шину адреса при каждом обращении к ячейке. Эти адреса называются физическими.
В ЭВМ первого поколения не делалось различия между виртуальными и физическими адресами: в программе требовалось указывать физические адреса. Это означало, что такая программа могла правильно работать, только если сама программа и все ее данные при каждом запуске (и на любом компьютере) должны были размещаться по одним и тем же физическим адресам. Такой подход стал крайне неудобным, как только была поставлена задача передать распределение памяти под управление ОС.
В настоящее время программирование в физических адресах может использоваться лишь в очень специальных случаях. Как правило, ни программист, пишущий программу, ни компилятор, транслирующий ее в машинные коды, не должны рассчитывать на использование конкретных физических адресов.
Но тогда возникает вопрос, когда и каким образом должен происходить переход от виртуальных адресов к физическим.
Есть два принципиально разных ответа на этот вопрос.
В системах, не рассчитанных на использование специальных аппаратных средств преобразования адресов, замена виртуальных адресов на физические может быть выполнена только программным путем. Это должно быть сделано до начала работы программы, либо на этапе компоновки программы, либо (в более поздних системах) при загрузке программы из файла в память.
В современных системах, предназначенных для работы на процессорах с сегментной или страничной организацией памяти (см. об этом ниже), программа даже после загрузки в память содержит виртуальные адреса. Преобразование в физические адреса выполняется при выборке каждой команды из памяти, при обращении к ячейкам данных – т.е. при каждом использовании адреса. Конечно, это возможно только в том случае, если имеется специальная аппаратура, позволяющая преобразовывать адреса практически без потери времени.
Распределение памяти без использования виртуальных адресов
Виртуальный адрес физический адрес
Все эти действия выполняются автоматически, без участия программиста, то есть механизм виртуальной памяти является прозрачным по отношению к пользователю.
Наиболее распространенными реализациями виртуальной памяти является страничное, сегментное и странично-сегментное распределение памяти, а также свопинг.
Суть концепции виртуальной памяти заключается в том, что адреса, к которым обращается выполняющийся процесс, отделяются от адресов, реально существующих в оперативной памяти.
Главной особенностью виртуальной памяти является преобразование (или трансляция) адреса, к которому производится обращение со стороны программы, в реальный адрес, причём это преобразование должно выполняться быстро. Механизмы динамического преобразования адресов (ДПА) преобразуют смежные адреса виртуальной памяти в необязательно смежные адреса реальной памяти. Таким образом, пользователь освобождается от необходимости учитывать размещение своих процедур и данных в реальной памяти. Программа обращается к виртуальной памяти по виртуальному адресу.
Преимущество ВП состоит в том, что объем ОЗУ не может быть увеличено ни
практически, ни теоретически. (Это попросту невозможно ни какими средствами
нельзя оптимизировать или преобразовать ячейки памяти, для того, чтобы, скажем,
помещать туда два бита информации вместо одного).
В настоящее время все множество реализаций виртуальной памяти может быть представлено тремя классами:
— страничная виртуальная память организует перемещение данных между памятью и диском страницами — частями виртуального адресного пространства фиксированного и сравнительно небольшого размера (достоинства — высокая скорость обмена, низкий уровень фрагментации; недостатки — сложно организовать защиту данных, разделенных на части механически);
— сегментная виртуальная память предусматривает перемещение данных сегментами — частями виртуального адресного пространства произвольного размера, полученными с учетом смыслового значения данных (достоинства — «осмысленность» сегментов упрощает их защиту; недостатки — медленное преобразование адреса, высокий уровень фрагментации);
— сегментно-страничная виртуальная память сочетает достоинства обоих предыдущих подходов.
Виртуальный адрес
Виртуальный адрес — это адрес ячейки памяти с точки зрения программиста. Он может как совпадать, так и отличаться от физического адреса.
Виртуальный адрес в 32-разрядном режиме
В большинстве компьютерных архитектур виртуальный адрес является числом от нуля до некоего максимального значения, обычно определяемого разрядностью вычислительной машины, преобразуемым в физический адрес аппаратурой процессора. Архитектура IA-32 является одним из немногих исключений из этого правила. Во-первых, в программах используются сегментированные адреса, состоящие из 16-разрядного селектора сегмента и 32-разрядного смещения, т.е. адрес является не одним, а парой чисел. Во-вторых, фирма Intel не использует термин «виртуальный адрес», называя используемые в программах адреса логическими; таким образом, с точки зрения документации Intel, программист имеет дело именно с логическими адресами, а термин «виртуальный адрес» к архитектуре IA-32 вообще отношения не имеет. В-третьих, все операционные системы для архитектуры IA-32, поддерживающие механизм виртуальной памяти, а следовательно, оперирующие виртуальными адресами, пользуются механизмом сегментации IA-32 лишь в минимально необходимом объёме, предоставляя программам плоское адресное пространство, адресация внутри которого выполняется с помощью смещения, а селекторы сегментов остаются неизменными. Когда документация Windows или Linux говорит о передаче виртуальных адресов различным системным вызовам, во всех случаях передаётся только смещение из состава логического адреса.
Таким образом, можно считать, что термин «виртуальный адрес» применительно к 32-разрядным версиям распространённых ОС для платформы IA-32 является эквивалентом термина Intel «смещение, входящее в состав логического адреса для сегментов DS, SS, ES и CS» или другого, мало распространённого в реальной практике, но также используемого в документации Intel термина «эффективный адрес» (по отношению к тем же сегментам). Поскольку используется плоское адресное пространство с сегментами максимального размера (4 Гбайта), численно значение смещения (виртуального адреса) будет совпадать с линейным адресом, однако проводить знак равенства между терминами «виртуальный адрес» и «линейный адрес» некорректно, поскольку программист прямо работает именно с виртуальными адресами (в частности, передаёт их системным вызовам), а линейные адреса существуют лишь в глубинах процессора и для программиста недоступны в принципе.
Что касается сегментов FS и GS, они используются нестандартным образом. В Windows FS фактически является отправной точкой для доступа к TEB (в пользовательском режиме), т.к. адрес TEB в качестве базового адреса загружен в дескриптор сегмента, селектор которого хранится в FS. Сам TEB является частью «общего» сегмента кода, стека и данных, доступного через сегментные регистры CS, SS, DS и ES, поэтому доступ к нему можно получить и через указанные регистры, указав правильное смещение. Адресация через GS для прикладных программ недоступна вообще.
Виртуальный адрес в 64-разрядном режиме
В 64-разрядном режиме сегментация упразднена, поэтому программист работает с адресами, состоящими лишь из одного 64-разрядного числа и численно совпадающими с линейными адресами. Однако и здесь архитектура IA-32 является исключением из общего правила: линейный, а значит, и виртуальный адрес (логический в документации Intel) адрес фактически является числом со знаком, поскольку требуется, чтобы они были «каноническими», т.е. чтобы все старшие биты адреса были равны либо нулю, либо единице в зависимости от значения самого старшего физически реализованного разряда адреса. Например, в первых 64-разрядных микропроцессорах архитектуры IA-32 физически реализованы не 64-разрядные, а 48-разрядные линейные адреса, которые должны находиться в пределах от 0000_0000_0000_0000h до 0000_7FFF_FFFF_FFFFh или от FFFF_8000_0000_0000h до FFFF_FFFF_FFFF_FFFFh, т.е. как числа со знаком лежать в пределах от –2**47 до +2**47–1.
Адреса памяти: физические, виртуальные, логические, линейные, эффективные, гостевые
Мне периодически приходится объяснять разным людям некоторые аспекты архитектуры Intel® IA-32, в том числе замысловатость системы адресации данных в памяти, которая, похоже, реализовала почти все когда-то придуманные идеи. Я решил оформить развёрнутый ответ в этой статье. Надеюсь, что он будет полезен ещё кому-нибудь.
При исполнении машинных инструкций считываются и записываются данные, которые могут находиться в нескольких местах: в регистрах самого процессора, в виде констант, закодированных в инструкции, а также в оперативной памяти. Если данные находятся в памяти, то их положение определяется некоторым числом — адресом. По ряду причин, которые, я надеюсь, станут понятными в процессе чтения этой статьи, исходный адрес, закодированный в инструкции, проходит через несколько преобразований.
На рисунке — сегментация и страничное преобразование адреса, как они выглядели 27 лет назад. Иллюстрация из Intel 80386 Programmers’s Reference Manual 1986 года. Забавно, что в описании рисунка есть аж две опечатки: «80306 Addressing Machanism». В наше время адрес подвергается более сложным преобразованиям, а иллюстрации больше не делают в псевдографике.
Начнём немного с конца — с цели всей цепочки преобразований.
Физический адрес
Эффективный адрес
Эффективный адрес — это начало пути. Он задаётся в аргументах индивидуальной машинной инструкции, и вычисляется из значений регистров, смещений и масштабирующих коэффициентов, заданных в ней явно или неявно.
Например, для инструкции (ассемблер в AT&T-нотации)
addl %eax, 0x11(%ebp, %edx, 8)
эффективный адрес операнда-назначения будет вычислен по формуле:
eff_addr = EBP + EDX * 8 + 0x11
Логический адрес
Здесь обычно у тех, кто столкнулся с этими понятиями впервые, голова начинает идти кругом. Несколько упростить (или усложнить) ситуацию помогает тот факт, что почти всегда выбор селектора (и связанного с ним сегмента) делается исходя из «смысла» доступа. По умолчанию, если в кодировке машинной инструкции не сказано иного, для получения адресов кода используются логические адреса с селектором CS, для данных — с DS, для стека — с SS.
Линейный адрес
Эффективный адрес — это смещение от начала сегмента — его базы. Если сложить базу и эффективный адрес, то получим число, называемое линейным адресом:
lin_addr = segment.base + eff_addr
Преобразование логический → линейный не всегда может быть успешным, так как при его исполнении проверяется несколько условий на свойства сегмента, записанных в полях его дескриптора. Например, проверяется выход за границы сегмента и права доступа.
Сегментация была модной на некотором этапе развития вычислительной техники. В настоящее она почти всюду была заменена другими механизмами, и используется только для специфических задач. Так, в режиме IA-32e (64-битном) только два сегмента могут иметь ненулевую базу. Для остальных четырёх в этом режиме всегда линейный адрес == эффективный.
Что такое виртуальный адрес?
В литературе и в документации других архитектур встречается ещё один термин — виртуальный адрес. Он не используется в документации Intel на IA-32, однако встречается, например, в описании Intel® Itanium, в котором сегментация не используется. Можно смело считать, что для IA-32 виртуальный == линейный.
В советской литературе по вычислительной технике этот вид адресов также именовался математическим.
Страничное преобразование
Однако общая идея всегда одна и та же: линейный адрес разбивается на несколько частей, каждая из которых служит индексом в одной из системных таблиц, хранящихся в памяти. Записи в таблицах — это адреса начала таблицы следующего уровня или, для последнего уровня — искомая информация о физическом адресе страницы в памяти и её свойствах. Самые младшие биты не преобразуются, а используются для адресации внутри найденной страницы. Например, для режима PAE с размером страниц 4 кбайт преобразование выглядит так:
В разных режимах процессора различается число и ёмкость этих таблиц. Преобразование может завершиться неудачей, если очередная таблица не содержит валидных данных, или права доступа, хранящиеся в последней из них, запрещают доступ к странице; например, при записи в регионы, помеченные как «только для чтения», или попытке чтения памяти ядра из непривилегированного процесса.
Гостевой физический
До введения возможностей аппаратной виртуализации в процессорах Intel страничное преобразование было последним в цепочке. Когда же на одной системе работают несколько виртуальных машин, то физические адреса, получаемые в каждой из них, приходится транслировать ещё один раз. Это можно делать программным образом, или же аппаратно, если процессор поддерживает функциональность EPT (англ. Extended Page Table). Адрес, раньше называвшийся физическим, был переименован в гостевой физический для того, чтобы отличать его от настоящего физического. Они связаны с помощью EPT-преобразования. Алгоритм последнего схож с ранее описанным страничным преобразованием: набор связанных таблиц с общим корнем, последний уровень которых определяет, существует ли физическая страница для указанной гостевой физической.
Полная картина
Я попытался собрать все преобразования адреса в одну иллюстрацию. В ней преобразования обозначены стрелками, типы адресов обведены в рамки.
Как уже было сказано выше, каждое из преобразований может вернуть ошибку для адресов, не имеющих представления в следующем по цепочке виде. Устранение подобных проблем — это задача операционных систем и мониторов виртуальных машин, реализующих абстракцию виртуальной памяти.
Заключение
Виртуальные и физические адреса
Понятие «адрес памяти» может рассматриваться с двух точек зрения. С одной стороны, при написании любой программы ее автор либо явно указывает, по каким адресам должны размещаться переменные и команды (так бывает при программировании на языке ассемблера), либо присвоение конкретных адресов доверяется системе программирования. Те адреса памяти, которые записаны в программе, принято называть виртуальными адресами.
С другой стороны, каждой ячейке памяти компьютера соответствует ее адрес, который должен помещаться на шину адреса при каждом обращении к ячейке. Эти адреса называются физическими.
В ЭВМ первого поколения не делалось различия между виртуальными и физическими адресами: в программе требовалось указывать физические адреса. Это означало, что такая программа могла правильно работать, только если сама программа и все ее данные при каждом запуске (и на любом компьютере) должны были размещаться по одним и тем же физическим адресам. Такой подход стал крайне неудобным, как только была поставлена задача передать распределение памяти под управление ОС.
В настоящее время программирование в физических адресах может использоваться лишь в очень специальных случаях. Как правило, ни программист, пишущий программу, ни компилятор, транслирующий ее в машинные коды, не должны рассчитывать на использование конкретных физических адресов.
Но тогда возникает вопрос, когда и каким образом должен происходить переход от виртуальных адресов к физическим.
Есть два принципиально разных ответа на этот вопрос.
В системах, не рассчитанных на использование специальных аппаратных средств преобразования адресов, замена виртуальных адресов на физические может быть выполнена только программным путем. Это должно быть сделано до начала работы программы, либо на этапе компоновки программы, либо (в более поздних системах) при загрузке программы из файла в память.
В современных системах, предназначенных для работы на процессорах с сегментной или страничной организацией памяти (см. об этом ниже), программа даже после загрузки в память содержит виртуальные адреса. Преобразование в физические адреса выполняется при выборке каждой команды из памяти, при обращении к ячейкам данных – т.е. при каждом использовании адреса. Конечно, это возможно только в том случае, если имеется специальная аппаратура, позволяющая преобразовывать адреса практически без потери времени.
Дата добавления: 2015-09-07 ; просмотров: 688 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ



