책소개
CPU는 그저 복잡한 하드웨어가 아니다!
블로그에서 바로 읽는 듯한 생생한 개발 노하우「Bolg2Book」시리즈 제 9권 『프로그래머가 몰랐던 멀티코어 CPU 이야기』. 이 책은 기본적인 CPU 구조에 대한 내용부터 최신 멀티코어 CPU에 적용된 여러 알고리즘을 다루었다. CPU에 적용된 비순차 실행, 명령어 레벨 병렬성(ILP) 등의 동작 원리, 멀티코어 프로세서의 동작 원리와 그 속에 숨겨진 소프트웨어 알고리즘을 설명한다. 또한 명령어 집합 구조, 프로그램의 의미를 결정짓는 의존성, 프로세서 기본 동작, 고성능 프로세서가 되려면 필요한 파이프라인, 비순차 실행에서 하이퍼스레딩, 칩 멀티프로세서, 캐시, 가상 함수의 처리 과정, 병렬 프로그래밍과 하이젠버그 등을 자세하게 살펴본다.
☞ 북소믈리에 한마디!
이 책은 프로그래머의 눈으로 하드웨어 이야기 없이, 마치 프로그래밍과 알고리즘 책을 보듯이, 최신 멀티코어 CPU 구조를 이해할 수 있도록 도왔다. 고성능 CPU의 비밀은 알고리즘에 있다. CPU에 적용된 파이프라인, 비순차 실행, 하이퍼스레딩, 캐시, 분기문 예측, 프리펫칭은 모두 프로그램에 적용 가능한 알고리즘 그 자체이다. 이 책에서는 왜 CPU가 멀티코어로 진화했는지, 또 왜 이렇게 병렬 프로그래밍이 어려운지 살펴본다.
저자소개
저자 김민장
C/C++ 언어와 윈도우 프로그래밍의 매력에 빠져 긴 시간 동안 취미로 혹은 직업으로 프로그래밍을 해오고 있다. 서울대학교에서 조선해양공학과 전산학을 전공하고 미국 조지아텍 전산학과에서 어떻게 하면 프로그래머가 병렬 프로그래밍을 더 쉽게 할 수 있을까라는 문제에 골몰하고 있다. 포시에스에서 웹 리포팅툴 소프트웨어를 개발하였으며, 인텔에서 프로그램의 병렬성을 분석하는 기법을 연구하였다.
목차
Story 01. 프로그래머가 프로세서도 알아야 해요?
들어가며
고달픈 프로그래머
누구를 위해 이 책을 썼는가?
참고문헌
Story 02. 프로세서의 언어 : 명령어 집합 구조
들어가며
프로그래머가 보는 프로세서
프로세서의 언어 : 명령어 집합 구조
RISC와 CISC로 알아보는 명령어 집합 구조
간단한 코드로 보는 RISC와 CISC의 차이
아직도 RISC vs. CISC ?
결론
참고문헌
Story 03. 프로세서의 기본 부품과 개념들
들어가며
마이크로아키텍처란?
산술 논리 장치 : 프로세서 속의 계산기
클록, 1사이클이 가지는 의미
메모리 계층
컨트롤 장치
프로세스와 스레드
가상 메모리
결론
참고문헌
Story 04. 암달의 법칙과 프로세서의 성능 지표
들어가며
암달의 법칙
병렬 처리에서의 암달의 법칙
프로그램의 수행 시간
성능 향상을 위해 해야 할 일
결론
참고문헌
Story 05. 프로그램의 의미를 결정 짓는 의존성
들어가며
데이터 의존성
컨트롤 의존성
메모리 의존성
루프에서의 데이터 의존성
결론
Story 06. 프로세서 기본 동작
들어가며
명령어 처리의 기본적인 다섯 단계
명령어 인출
명령어 해독
피연산자 인출
명령어 실행 단계
연산 결과 저장
예외 처리
결론
참고문헌
Story 07. 고성능 프로세서의 시작 : 명령어 파이프라인
들어가며
파이프라인의 기본 개념
파이프라인의 효율적인 설계
파이프라인 프로세서의 구현
파이프라인 해저드
파이프라인 : 소프트웨어 병렬화의 한 가지 방법
결론
참고문헌
Story 08. 또 하나의 혁명 : 비순차 실행
들어가며
비순차 슈퍼스칼라 프로세서가 필요한 이유
비순차 실행의 원리 : 명령어 수준 병렬성
슈퍼스칼라 파이프라인 구조
비순차 실행의 구현 : 토마슐로 알고리즘
비순차 프로세서 파이프라인
결론
참고문헌
Story 09. 하이퍼스레딩 : 병렬성의 극대화
들어가며
하이퍼스레딩이 뭐야?
동시 멀티스레딩의 구현과 성능
결론
참고문헌
Story 10. 멀티코어 혁명 : 칩 멀티프로세서
들어가며
멀티코어 시대
싱글코어의 한계 : 에너지 장벽
싱글코어의 한계 : ILP의 한계
병렬 컴퓨터의 개념
병렬 컴퓨터 구조
멀티코어의 구성 방식
멀티코어의 한계 : 메모리 장벽과 병렬 프로그래밍
여전히 중요한 싱글코어 성능
결론
참고문헌
Story 11. 데이터 병렬성 : SIMD와 GPU
들어가며
데이터 병렬성
GPU : 또 하나의 병렬 프로세서
CUDA 프로그래밍 모델 : 스레드와 메모리 모델
CUDA 프로그래밍의 예 : 행렬 곱셈
nVidia GPU의 자세한 스레드 실행 구조 : 워프(Warp)
결론
참고문헌
Story 12. 고성능 프로세서의 필수 조건 : 똑똑한 캐시
들어가며
왜 캐시가 필요하고 잘 작동할 수 있을까?
일반적인 캐시 구조
CPU 캐시의 기본적인 설계
고성능 캐시를 위한 알고리즘
멀티코어에서의 캐시
결론
참고문헌
Story 13. if 문은 그냥 실행되는 것이 아니다
들어가며
분기문 명령어와 프로그래밍 언어
분기 예측이 필요한 이유
분기 예측에 기반한 투기적 실행
기본적인 분기 예측 방법
더 똑똑한 과거 기반의 미래 예측
히스토리를 이용한 분기 예측
프리디케이션
결론
참고문헌
Story 14. 가상 함수에 담긴 복잡함
들어가며
분기 목적지 예측
간접 분기문의 분기 목적지 예측
결론
참고문헌
Story 15. 효율적인 메모리 명령 실행 알고리즘
들어가며
효율적인 메모리 연산의 실행
컴파일러 최적화의 장애물 : 포인터
결론
참고문헌
Story 16. 메모리 레이턴시 감추기 : 프리펫처
들어가며
필요한 데이터를 미리 잘 가져오자
기본적인 소프트웨어 프리펫칭
포인터 기반 자료구조의 소프트웨어 프리펫칭
하드웨어 프리펫칭 알고리즘
결론
참고문헌
Story 17. VLIW로 살펴보는 두 변수 교환 방법
들어가며
VLIW의 철학
두 변수를 교환하는 방법에 대한 고찰
결론
참고문헌
Story 18. 프로그래머의 새로운 과제 : 병렬 프로그래밍
들어가며
병렬 프로그래밍은 선택이 아니라 필수
기본 개념 : 원자적 실행과 동기화 연산
멘델브로 집합으로 보는 병렬 프로그래밍
결론
참고문헌
Story 19. 골치 아픈 멀티스레드 버그 : 하이젠버그
들어가며
재현이 어려운 골치 아픈 버그
대표적인 병행성 버그 : 원자성 위반과 순서 위반
결론
참고문헌
Story 20. 어려운 병렬 프로그래밍, 그리고 그 미래는?
들어가며
비효율적인 병렬 프로그래밍 : 가짜 공유 문제
미래의 병렬 프로그래밍 방법론