Byte/RE ИТ-издание

Встречайте – Pentium 4

Илья Гавриченков,
http://www.fcenter.ru

Intel Pentium Pro, выпущенный в 1995 г., стал первым процессором с архитектурой P6. С тех пор прошло уже достаточно много времени, сменилось несколько поколений процессоров, однако архитектура их по сути не менялась. Семейства Pentium II, Pentium III и Celeron имеют все то же строение ядра, различаясь, в сущности, только размером и организацией кэша 2-го уровня и наличием набора команд SSE (он появился в Pentium III). Естественно, рано или поздно архитектура P6 должна была устареть. И дело тут вовсе не в невозможности дальнейшего наращивания тактовых частот и даже не в обострившейся в последнее время конкуренцией с AMD.

Конечно, нельзя отрицать тот факт, что достигнув частоты в 1 ГГц, Intel столкнулась с проблемами при дальнейшем наращивании частоты своих процессоров: Pentium III 1,13 ГГц даже пришлось отзывать из-за его нестабильности. Однако эту проблему легко можно решить, перейдя на технологию 0,13 мкм – тем более что ее повсеместное внедрение не за горами.

Настоящая причина потребности в новой архитектуре кроется глубже. К сожалению, дальнейшее наращивание частоты существующих процессоров приводит все к меньшему росту их производительности. Проблема в том, что латентности – т. е. задержки, возникающие при обращении к тем или иным узлам процессора – в P6 по нынешним меркам уже слишком велики. Именно это стало основной причиной, по которой Intel затеяла разработку Pentium 4 “с нуля”. Таким образом, новый Pentium 4 – действительно новый процессор, ничего общего не имеющий со своими предшественниками. В его основе лежит архитектура, названная Intel NetBurst Architecture. Этим названием компания Intel хотела подчеркнуть, что основная цель нового процессора – ускорить выполнение задач потоковой обработки данных, напрямую связанных с бурно развивающимся Интернетом.

Архитектура Intel NetBurst

Первым делом попробуем разобраться с особенностями новой архитектуры (рис. 1). В основе архитектуры NetBurst лежит несколько инноваций, в комплексе позволяющих добиться конечной цели – гарантировать запас быстродействия и будущую наращиваемость для процессоров семейства Pentium 4. Ниже перечислены основные технологии, использованные в новом процессоре.

Fig.1
Рис. 1. Архитектура NetBurst.


Hyper Pipelined Technology – конвейер Pentium 4 имеет беспрецедентно большую глубину – 20 стадий.

Advanced Dynamic Execution – улучшенное предсказание переходов и исполнение команд с изменением порядка их следования (out of order execution).

Trace Cache – для кэширования декодированных инструкций в Pentium 4 используется специальный кэш.

Rapid Execution Engine – ALU процессора Pentium 4 работает на вдвое большей, чем сам процессор, частоте.

SSE2 – расширенный набор инструкций для обработки потоковых данных.

400 MHz System Bus – новая системная шина с частотой 400 МГц.

Рассмотрим все нововведения по порядку.

Hyper Pipelined Technology

Названием Hyper Pipelined Technology конвейер Pentium 4 (рис. 2) обязан своей длине – 20 стадий (для сравнения: у Pentium III – 10 стадий). Чего же достигла Intel, так удлинив конвейер? Благодаря тому, что выполнение каждой команды разбито на более мелкие этапы, каждый из них теперь может выполняться быстрее, что позволяет беспрепятственно увеличивать частоту процессора. Так, если при используемом сегодня технологическом процессе 0,18 мкм предельная частота для Pentium III составляет 1 ГГц (или, по более оптимистичным оценкам, 1,13 ГГц), Pentium 4 сможет достигнуть частоты 2 ГГц.

Fig.2
Рис. 2. Конвейер Pentium 4.


Однако у чрезмерно длинного конвейера есть и свои недостатки. Первый очевиден – каждая команда теперь, проходя большее число стадий, выполняется дольше. Мы полагаем, что именно для того, чтобы младшие модели Pentium 4 превосходили по производительности старшие модели Pentium III, частоты Pentium 4 начинаются с 1,4 ГГц.

Второй недостаток длинного конвейера обнаруживается при ошибках в предсказании переходов. Как и любой современный процессор, Pentium 4 может выполнять инструкции не только последовательно, но и параллельно, соответственно, не всегда в том порядке, в каком они следуют в программе, и не всегда доподлинно зная направления условных переходов. Выбирая в таких случаях ветви программы для дальнейшего выполнения, процессор прогнозирует результаты выполнения условных переходов на основании накопленной статистики. Однако иногда блок предсказания переходов все же ошибается, и в этом случае приходится полностью очищать конвейер, сводя на нет всю предварительно проделанную работу по выполнению не той ветви в программе. Естественно, при более длинном конвейере его очистка обходится дороже в том смысле, что на новое заполнение конвейера уходит больше процессорных тактов, а следовательно, и времени.

Advanced Dynamic Execution

Целью ряда ухищрений в архитектуре Pentium 4, под общим названием Advanced Dynamic Execution, как раз и является минимизация простоя процессора при неправильном предсказании переходов и увеличение вероятности правильных предсказаний. Для этого Intel улучшила блок выборки инструкций для внеочередного выполнения и повысила правильность предсказания переходов. Правда, для этого алгоритмы предсказания переходов дорабатывались минимально; в качестве основного же средства достижения цели было выбрано увеличение размеров буферов, с которыми работают соответствующие блоки процессора.

Так, для выборки следующей исполняемой инструкции теперь используется окно величиной в 126 команд – против 42 команд у процессора Pentium III. Объем же буфера, в котором сохраняются адреса выполненных переходов и на основании которого процессор предсказывает будущие переходы, теперь увеличен до 4 Кбайт (у Pentium III – всего 512 байт).

В результате этих нововведений, а также благодаря небольшой доработке алгоритма, вероятность правильного предсказания переходов была улучшена по сравнению с Pentium III на 33%. Это очень хороший показатель, поскольку теперь Pentium 4 правильно предсказывает переходы в 90-95% случаев.

Trace Cache

По сравнению с Pentium III, где обычный кэш 1-го уровня был разделен на область инструкций и область данных, в Pentium 4 применен новый подход. Инструкции в кэше 1-го уровня теперь не сохраняются, он предназначен только для данных. Для кэширования инструкций используется Trace Cache, однако по сравнению с обычным кэшем 1-го уровня он имеет много преимуществ, направленных опять-таки на минимизацию простоев процессора при выполнении неправильных предсказаний переходов.

Первое и основное – в Trace Cache сохраняются уже декодированные инструкции. Это значит, что в нем хранятся не классические x86 инструкции, а так называемые микрокоманды – более простые операции, которыми непосредственно оперирует процессорное ядро. Сохранение в Trace Cache микроопераций позволяет избежать повторного декодирования x86 инструкций при повторном выполнении того же участка программы или при неправильном предсказании переходов.

Второе преимущество Trace Cache заключается в том, что микрооперации в нем сохраняются именно в том порядке, в каком они выполняются. Правда, правильный порядок определяется опять на основании предсказания переходов, однако вероятность того, что переходы предсказываются неправильно, достаточно мала для того, чтобы отказаться от очевидного выигрыша, получаемого путем отказа от повторных декодирований и предсказаний переходов.

Intel не раскрывает размеров своего Trace Cache в килобайтах, однако известно, что в нем может сохраняться до 12 000 микроопераций.

Rapid Execution Engine

Наиболее простая часть современного процессора – это АЛУ (арифметико-логическое устройство). Intel сочла возможным увеличить его тактовую частоту внутри Pentium 4 вдвое по отношению к самому процессору. Таким образом, например, в Pentium 4 1,4 ГГц АЛУ работает на частоте 2,8 ГГц (рис. 3).

Fig.3
Рис. 3. Rapid Execution Engine.


В АЛУ исполняются простые целочисленные инструкции, поэтому производительность нового процессора при операциях с целыми числами должна быть очень высокой. Однако на производительности Pentium 4 при операциях с вещественными числами, MMX или SSE двукратное ускорение АЛУ никак не сказывается.

Таким образом, латентность АЛУ существенно снижается. В частности, на выполнение одной инструкции типа ADD Pentium 4 c частотой 1,4 ГГц тратит всего 0,35 нс, в то время как выполнение этой команды у Pentium III 1 ГГц занимает 1 нс.

SSE2

Реализовав в своем процессоре Athlon новый конвейерный математический сопроцессор (FPU), AMD очень сильно обогнала интеловский Pentium III в производительности при операциях с вещественными числами. Тем не менее Intel в Pentium 4 не стала сосредотачиваться на совершенствовании FPU, а просто увеличила возможности блока SSE. В результате у Pentium 4 появился расширенный набор команд SSE2, в котором к имеющемуся набору из 70 инструкций было добавлено еще 144. Такое решение вытекает из идеологии NetBurst, основная цель которой – увеличение скорости работы с потоками данных.

Инструкции SSE позволяли оперировать с восемью 128-разрядными регистрами XMM0..XMM7, в которых хранились по четыре вещественных числа одинарной точности. При этом все SSE-операции проводились одновременно над четверками чисел, в результате чего специально оптимизированные программы, в которых выполнялось большое количество однотипных вычислений (а к ним, помимо обработки потоков данных, в какой-то мере относятся и 3D-игры), получали существенный прирост производительности.

SSE2 оперирует с теми же самыми регистрами и обратно совместим с SSE процессора Pentium III. А столь впечатляющее расширение набора команд вызвано тем, что теперь операции со 128-разрядными регистрами могут выполняться не только как с четверками вещественных чисел двойной точности, но и как с парами вещественных чисел двойной точности, с шестнадцатью однобайтовыми целыми, с восемью короткими двухбайтовыми целыми, с четырьмя четырехбайтовыми целыми, с двумя восьмибайтовыми целыми или с 16-байтовыми целыми (рис. 4). Тем самым теперь SSE2 представляет собой симбиоз MMX и SSE и позволяет работать с любыми типами данных, вмещающимися в 128-разрядные регистры.

Fig.4
Рис. 4. Выполнение операций со 128-разрядными регистрами при наличии SSE2.


Таким образом, набор команд SSE2 гораздо более гибок, позволяя добиваться впечатляющего прироста в производительности. Однако его использование требует специальной оптимизации программ, поэтому ждать внедрения SSE2 сразу после выхода нового процессора не стоит. Со временем же он имеет достаточно большие перспективы (поэтому AMD тоже собирается реализовать SSE2 в своем новом семействе процессоров Hammer).

Старые же программы, не использующие SSE2, а полагающиеся на обычный сопроцессор, никакого прироста в производительности при использовании Pentium 4 не получат. Более того, хотя Intel и утверждает, что блок FPU в Pentium 4 был слегка усовершенствован, время, необходимое на выполнение обычных операций с вещественными числами, возросло по сравнению с Pentium III в среднем на 2 такта.

Кэш первого уровня

Поскольку теперь команды хранятся в Trace Cache, кэш 1-го уровня в Pentium 4 предназначен только для хранения данных. Однако его размер в этом процессоре, основанном на ядре Willamette, составляет всего 8 Кбайт – это немного даже на фоне 16-килобайтной области данных в кэше 1-го уровня в Pentium III. И все же Intel была вынуждена сократить объем кэша 1-го уровня в Pentium 4, так как ядро этого процессора и без того получалось слишком большим. Тем не менее архитектура Pentium 4 может поддерживать кэш и большего размера, поэтому скорее всего при переходе на технологический процесс 0,13 мкм и новое ядро Northwood объем кэша 1-го уровня будет увеличен.

Однако для увеличения производительности Intel применила для доступа к кэшу 1-го уровня новый алгоритм, чем уменьшила его латентность в Pentium 4 до двух процессорных тактов (вместо трех тактов в Pentium III). Таким образом, учитывая большую тактовую частоту Pentium 4, время реакции его кэша 1-го уровня составляет всего 1,4 нс для 1,4 ГГц модели – против 3 нс у кэша 1-го уровня в Pentium III 1 ГГц.

Так же, как и в Pentium III, кэш Pentium 4 1-го уровня кэшем со сквозной записью (write through) и имеет четыре области ассоциативности, при этом длина одной строки кэша равна 64 байтам.

Кэш второго уровня

В процессоре Pentium 4 имеется Advanced Transfer Cache 2-го уровня объемом 256 Кбайт. Так же, как и в Pentium III, кэш 2-го уровня имеет широкую 256-битную шину, благодаря чему пропускная способность кэша в процессорах от Intel выше, чем в их конкурентах от AMD, где используется 64-битная шина кэша. Однако, в отличие от Athlon, в Pentium 4 (как в Pentium III) кэш 2-го уровня не является эксклюзивным, т. е. он дублирует данные, находящиеся в кэше 1-го уровня.

Так как Pentium 4 рассчитан на обработку потоковых данных, скорость работы кэша 2-го уровня – один из ключевых для него моментов. Поэтому Intel увеличила пропускную способность кэша 2-го уровня в новом процессоре в два раза – благодаря тому, что данные из него передаются на каждый процессорный такт, в то время как данные из кэша 2-го уровня в Pentium III передаются только на каждый второй такт. Таким образом, пропускная способность кэша 2-го уровня в Pentium 4, работающем, например, с частотой 1,4 ГГц, имеет теперь внушительную величину 44,8 Гбайт/с. Для сравнения: пропускная способность Advanced Transfer Cache у Pentium III 1 ГГц составляет 16 Гбайт/с.

Как и в Pentium III, кэш 2-го уровня имеет восемь областей ассоциативности и строки длиной 128 байт. Однако, в отличие от Pentium III, каждая строка может быть изъята не целиком, а по 64-байтовым половинкам.

Говоря о системе кэширования в Pentium 4, нельзя не отметить тот факт, что архитектура NetBurst поддерживает и кэш третьего уровня размером до 4 Мбайт. Однако в Pentium 4 эта возможность пока не используется, она зарезервирована для применения в серверных процессорах.

Процессор

Итак, после краткого знакомства с основными деталями архитектуры NetBurst, основного оружия Pentium 4, взглянем на его формальную спецификацию.

Спецификация
Чип, производимый по технологии 0,18 мкм с использованием алюминиевых соединений. Переход на медные соединения Intel планирует произвести одновременно с внедрением технологии 0,13 мкм.
Ядро Willamette, основанное на архитектуре NetBurst. Содержит 42 млн. транзисторов и имеет площадь 217 кв.мм. Это более чем в два раза превосходит площадь ядра Athlon или Pentium III.
Работает в специальных материнских платах с 423-контактным процессорным разъемом Socket 423.
Использует высокопроизводительную Quad Pumped системную шину с частотой 400 МГц.
Кэш данных 1-го уровня 8 Кбайт. Trace Cache для декодированных инструкций рассчитан на 12000 микроопераций.
Интегрированный Advanced Transfer Cache 2-го уровня размером 256 Кбайт.
Работает на полной частоте ядра и имеет 256-битную шину.
Напряжение питания – 1,7 В.
Набор SIMD-инструкций SSE2.
Тактовые частоты 1,4 и 1,5 ГГц. Позднее ожидается версия с частотой 1,3 ГГц.
Fig.5 Рис. 5. Процессор Intel Pentium 4.


Процессор Intel Pentium 4 будет выпускаться в FC-PGA упаковке, однако само ядро будет закрыто специальной металлической крышкой, защищающей его от повреждения (heat spreader). Устанавливаться процессор будет в гнездо Socket 423, имеющее 423 контакта и отличающееся по размеру от обычных Socket 370 и Socket A.

Photo1 Photo2
Так выглядит Intel Pentium 4.


Из-за большого ядра тепловыделение новых кристаллов будет достаточно высоким. В частности, Pentium 4 1,4 ГГц, работающий на напряжении 1,7 В и потребляющий примерно 32 A, будет рассеивать порядка 52 Вт тепла (1,5 ГГц Pentium 4 – 55 Вт тепла). Поэтому охлаждающие вентиляторы для Pentium 4 должны иметь достаточно большие размеры и площадь поверхности.

Photo3 Вентилятор для Pentium 4.


Стоимость процессора при поставках партиями 1000 шт. составляет соответственно 819 и 644 долл. для моделей с тактовыми частотами 1,5 ГГц и 1,4 ГГц. Pentium 4 1,3 ГГц, который появится 29 января 2001 г., будет стоить 409 долл. Intel планирует достаточно агрессивно снижать цены на Pentium 4, с тем, чтобы этот процессор мог применяться в настольных компьютерах среднего уровня (табл. 1).

Таблица 1. Планируемое снижение цен на процессор Intel Pentium 4 (долл.).

  20 ноября 10 декабря 29 января
Pentium 4 1,5 ГГц 819 819 644
Pentium 4 1,4 ГГц 644 574 440
Pentium 4 1,3 ГГц 409

Чипсет и системная шина

Поскольку Pentium 4 имеет совершенно новую архитектуру, ему потребовался и новый чипсет. А коль скоро Intel нацеливает свой новый процессор на приложения, работающие с потоками данных, такой чипсет должен прежде всего обеспечивать высокую пропускную способность основных шин: шины памяти и системной шины, соединяющей процессор с северным мостом чипсета.

В первую очередь необходимо сказать о том, что Pentium 4 использует совершенно новую процессорную шину Quad Pumped, работающую с частотой 400 МГц. Пропускная способность такой шины в три раза больше, чем у шины процессора Pentium III, и составляет 3,2 Гбайт/с. Благодаря этому минимизируются простои быстрого процессора в ожидании следующей порции данных. Физически новая системная шина реализуется путем умножения тактовой частоты (которая для Pentium 4 составляет 100 МГц) на 4 в контроллерах процессорной шины чипсета и процессора. Иными словами, на частоте 400 МГц работает только участок между процессором и чипсетом.

При такой высокопроизводительной шине, чтобы система была сбалансирована, подсистема памяти должна обеспечивать пропускную способность не менее 3,2 Гбайт/с. Поэтому при создании набора системной логики для нового процессора Intel приняла решение адаптировать чипсет i840, который поддерживает два канала Direct RDRAM. Как известно, пропускная способность PC800 RDRAM составляет 1,6 Гбайт/с, т. е. при использовании двух каналов Rambus пропускная способность памяти оказывается как раз на уровне 3,2 Гбайт/с. Чипсетов с поддержкой SDRAM пока нет, и в лучшем случае они появятся только к середине следующего года.

В результате чипсет для Pentium 4 i850 (Tehana) выглядит следующим образом (рис. 6). В качестве южного моста в этом наборе логики используется уже знакомая нам по чипсету i815E микросхема ICH2, а в качестве северного моста – новый MCH Intel 82850. В числе ключевых особенностей последнего следует отметить поддержку двух каналов Rambus, каждый из которых может функционировать с парой модулей RIMM; поддержку 400-мегагерцовой системной шины и AGP 4x.

Fig.6
Рис. 6. Схема чипсета i850 для Pentium 4.


Системные платы

Из-за дороговизны самого чипсета i850 (75 долл.), а также ввиду того, что платы под Pentium 4 должны иметь шестислойную PCB, производить их достаточно сложно и дорого. Поэтому весьма ограниченное число производителей системных плат высказало желание ввязаться в производство плат под Socket 423. В ближайшее время платы под Pentium 4 будут выпускать только восемь производителей. Спецификации некоторых таких плат уже известны; они приведены в табл. 2. :

Таблица 2. Спецификации системных плат для Pentium 4.

Плата Чипсет Форм-фактор Слотов RIMM AGP Слотов PCI CNR Примечания
AOpen AX4T i850 ATX 4 AGP Pro 5 1  
ASUS P4T i850 ATX 4 AGP Pro 5 0 Есть возможность разгона
Gigabyte GA-8TX i850 ATX 4 AGP Pro 5 1 Интегрированный Creative CT5880
Intel D850GB i850 ATX 4 AGP Pro 5 1  
MSI MS-6339 i850 ATX 4 1 5 1  

Как видно из табл. 2, все платы под Pentium 4 похожи друг на друга: все имеют по четыре слота для RIMM и по пять слотов PCI. Большинство плат будет оборудоваться слотом AGP Pro, позволяющим использовать профессиональные графические карты с повышенным энергопотреблением.

ATX 2.03

Помимо новых системных плат и новых кулеров, как бы парадоксально это ни звучало, новому процессору потребуется и новый корпус, совместимый со спецификацией ATX 2.03. И вызвано это двумя причинами.

Во-первых, ввиду того что кулеры для Pentium 4 имеют большие радиаторы, масса которых может достигать 450 г, крепить их к процессорному сокету больше нельзя. Теперь для удерживания кулера будет использоваться специальное устройство (рис. 7), крепящиеся при помощи четырех болтов непосредственно к корпусу. Соответственно корпус должен иметь дополнительные крепежные отверстия.

Fig.7 Photo4
Рис. 7. Крепление кулера для процессора Pentium 4.


Устройство для удерживания кулера крепится к корпусу четырьмя болтами.


Дополнительный плюс, который дает использование специального устройства крепления для кулера, – это уменьшение влияния электромагнитного поля процессора, работающего на сверхвысоких частотах, на другие компоненты системной платы.

Второе новое требование спецификации ATX 2.03 – наличие у блока питания дополнительного четырехжильного кабеля питания, подключаемого к системной плате, с напряжениями 12 и 5 В. Дополнительное питание необходимо для процессора Pentium 4, отличающегося чрезмерно большим энергопотреблением.

Photo5 Дополнительный четырехжильный кабель питания.


Тестирование

Как мы тестировали

Производительность Pentium 4 мы сравнивали с самыми быстрыми на сегодня процессорами других семейств: Intel Pentium III 1 ГГц и AMD Athlon 1,2 ГГц. Для тестирования было собрано три системы со следующими конфигурациями:

Конфигурации тестируемых систем
Процессор Intel Pentium 4 1,4 ГГц Intel Pentium III 1 ГГц AMD Athlon 1,2 ГГц
Системная плата Intel D850GB (i850) ASUS CUSL2 (i815) ABIT KT7 (VIA KT133)
Память PC800 RDRAM 256 Мбайт PC133 SDRAM 256 Мбайт PC133 SDRAM 256 Мбайт

Все системы имели графическую плату ASUS V7700 32MB (nVIDIA GeForce2 GTS) и жесткий диск IBM DTLA 307015. Тестирование проводилось под управлением операционной системы Microsoft Windows2000 SP1 с установленным DirectX 8.

Результаты тестов

Поскольку процессор Pentium 4 имеет совершенно новую архитектуру, анализ его производительности состоял из двух частей. В первой для измерения быстродействия мы использовали синтетические тесты, а во второй протестировали процессор на реальных приложениях. Результаты тестирования приведены во врезке.

Тест CPUmark (рис. 8) показывает производительность целочисленной части процессора и скорость работы с данными. Казалось бы, поскольку АЛУ Pentium 4 работает на удвоенной частоте процессора, то по результатам этого теста впереди должен быть Pentium 4. Однако этого не происходит. Причина медлительности Pentium 4 в данном тесте кроется в недостаточно большом кэше 1-го уровня, в который не помещаются все необходимые для его работы данные. Athlon же, с областью данных в кэше 1-го уровня размером 64 Кбайт (а это в 8 раз больше, чем кэш данных Pentium 4), значительно превосходит всех своих соперников.

Тест FPU Winmark (рис. 9) показывает “чистую” скорость работы математического сопроцессора благодаря тому, что все данные, необходимые для его работы, умещаются в кэше 1-го уровня.

3DMark2000 CPUMarks (рис. 10) демонстрирует теоретическую скорость работы процессора по обработке типовых игровых 3D-сцен при активном использовании наборов SIMD-команд SSE и 3DNow!. К сожалению, тестов, которые позволили бы оценить выигрыш, получаемый от использования новых SSE2-инструкций Pentium 4, пока нет, поэтому мы довольствовались использованием лишь базового набора инструкций SSE. Тем не менее даже в этом случае Pentium 4 оказывается на высоте, обходя ближайшего конкурента, процессор AMD Athlon 1,2 ГГц, на 12%. Таким образом, логично ожидать, что в играх, особенно поддерживающих SSE, Pentium 4 будет показывать достойные результаты.

Поскольку процессор Pentium 4 работает на совершенно новой платформе, использующей двухканальную RDRAM, посмотрим, какую скорость операций с памятью может обеспечить эта система в сравнении с остальными двумя платформами (рис. 11).

Из графиков совершенно очевидно, что действительно скорость работы кэшей 1-го и 2-го уровней в Pentium 4 по сравнению с Pentium III возросла. Однако AMD Athlon обладает гораздо большим по размеру кэшем 1-го уровня, что в ряде случаев обуславливает его превосходство. Естественно, пропускная способность двухканальной RDRAM гораздо выше, чем используемой в системах на Athlon и Pentium III PC133 SDRAM. Результаты этого теста позволяют также сказать, что кэш 2-го уровня в процессоре Athlon действительно работает медленнее, чем даже в Pentium III, из-за более узкой шины. Достаточно любопытен факт, что влияние кэша 1-го уровня совершенно не сказывается в системе с Pentium 4 при записи в память.

Перейдем теперь к тестам в реальных приложениях. WinStone 2000 Content Creation основывается на измерении скорости системы в нескольких приложениях для создания контента. Как можно видеть из рис. 12, производительность системы с Pentium 4 однозначно выше, чем у системы на Pentium III 1 ГГц и приближается к производительности системы с Athlon 1,2 ГГц.

SYSMark 2000 использует для измерения производительности офисные приложения. Здесь упор делается на приложения более широкого профиля, чем в предыдущем тесте, в результате чего показатели Athlon в целом в этом тесте выше (рис. 13). Однако архитектуры Pentium III, Athlon и Pentium 4 различаются слишком сильно, поэтому соотношения производительностей этих процессоров может изменяться от приложения к приложению. Поэтому посмотрим на скорости испытуемых процессоров в конкретных приложениях (рис. 13).

Нетрудно заметить, что тут однозначного лидера выделить тяжело. Тем не менее в семи из двенадцати приложений лидирует AMD Athlon 1,2 ГГц, в то время как Pentium 4 показывает большую скорость только в трех задачах: системе распознавания речи Dragon Naturally Speaking Preferred 4.0, графическом редакторе Adobe Photoshop 5.5 и в утилите для кодирования видеопотока Microsoft Windows Media Encoder 4.0. Таким образом, полностью возможности Pentium 4 раскрываются действительно только в задачах потоковой обработки данных. И даже при этом своей высокой производительностью процессор частично обязан подсистеме памяти с гораздо более высокой пропускной способностью, чем у конкурирующих платформ.

Для оценки производительности систем в 3D-пакете 3D Studio MAX мы засекли время рендеринга сцены Anisotropic Wheel, входящей в дистрибутив (рис. 14; меньшее время соответствует лучшему результату). Удивительно, но тут производительность Pentium 4 1,4 ГГц в точности повторяет производительность Pentium III 1 ГГц. Это говорит о том, что FPU в Pentium 4 действительно работает медленнее, чем в Pentium III. Athlon 1,2 ГГц, обладая лучшим блоком FPU, легко обошел обоих конкурентов, построив сцену на 40% быстрее.

Тестирование в архиваторах позволяет увидеть целочисленную производительность процессоров при оперировании небольшими объемами данных. В архиваторе WinZip лучшую скорость (рис. 15; меньшее значение соответствует лучшему результату) продемонстрировал Athlon 1,2 ГГц. По всей видимости, сказывается большой объем кэша 1-го уровня у этого процессора. В WinRAR нет равных процессору Pentium 4 1,4 ГГц с АЛУ, работающим на частоте 2,8 ГГц. Влияние объемного кэша 1-го уровня Athlon в работе с WinRAR сводится на нет достаточно большим объемом словаря, используемого в этом архиваторе.

Перейдем теперь к результатам, которые показали испытуемые системы в игровых приложениях. В Quake3 Pentium 4 1,4 ГГц показывает себя с лучшей стороны, демонстрируя на 30% более высокое быстродействие, чем Athlon 1,2 ГГц, не говоря уже о Pentium III (рис. 16). Это объясняется как тем, что АЛУ протестированного Pentium 4 работает на частоте 2,8 ГГц, так и тем, что Quake3 использует SSE-инструкции, которые, как мы показали выше, исполняются на Pentium 4 очень быстро.

При высоких разрешениях в Quake3 число fps, с одной стороны, зависит в основном от пропускной способности шин, связывающих различные компоненты системы, но с другой стороны, ограничивается скоростью заполнения используемой в системе графической платы. Именно поэтому тут разброс результатов не так велик, как в предыдущем случае. Благодаря шине Quad Pumped Pentium 4 остается в лидерах, однако Athlon с 200-мегагерцовой шиной EV6 практически дышит ему в затылок.

В Unreal Tournament (рис. 17) лидирующую позицию удерживает Athlon, имеющий самый производительный среди всех участвующих в тесте процессоров блок FPU. Однако с увеличением разрешения, которое влечет за собой возрастание нагрузки на шины передачи данных в системе, вперед выходит Pentium 4. Что ж, с 400-мегагерцовой шиной и памятью с пропускной способностью 3,2 Гбайт/с спорить тяжело.

Expendable – игра, выполняющая во время своей работы интенсивные операции с небольшими объемами данных. Поэтому система на Pentium 4 с RDRAM, имеющей большую латентность, оказывается медленнее обоих своих конкурентов (рис. 18). Результаты практически полностью повторяются и при большем разрешении.

К сожалению, в настоящий момент мы не можем оценить потенциал новых Pentium 4 с точки зрения разгона. Дело в том, что имевшаяся в нашем распоряжении системная плата для Pentium 4 – Intel D850GB – не имела никаких функций для запуска процессора на частоте, отличающейся от штатной. Однако по мере появления системных плат от сторонних производителей мы протестируем Pentium 4 и на разгон.

Результаты тестирования

Pentium 4 1,4 ГГц Pentium III 1,0 ГГц Athlon 1,2 ГГц

Выводы

Безусловно архитектура Pentium 4 имеет массу достоинств, основным из которых следует признать возможность легкого наращивания тактовых частот. Однако производительность нового процессора в ряде приложений все же не так высока, как хотелось бы: достаточно часто она оказывается меньше производительности старшего процессора семейства Athlon. Виной этому – сверхдлинный 20-стадийный конвейер и недостаточно большой кэш данных 1-го уровня.

У систем на Pentium 4 есть и более существенные недостатки, главный из которых – цена. Поскольку стоимость RDRAM, необходимой для Pentium 4, а также системных плат для него достаточно высока, Athlon-платформы обладают сегодня гораздо лучшим соотношением цена/производительность.

Тем не менее Pentium 4 все же имеет перспективы на будущее. С переводом технологического процесса на 0,13 мкм и с выпуском чипсетов, поддерживающих более дешевые типы памяти, чем RDRAM, Pentium 4 может стать массовым процессором. Пока же, на наш взгляд, он будет применяться преимущественно в высокопроизводительных профессиональных рабочих станциях.

Вам также могут понравиться