이번에 Dell Blade 에 Rocks+ 를 구성하면서 여러가지 많은 공부를 했습니다.
잊어먹기 전에 간단히 메모라도 해두어야죠..

  • IPMI 패스워드 설정
    • Rocks 문서에 보면, 파워 관리를 위해 IPMI를 사용하는 방법이 나와 있습니다.
    • 네트워크를 통해 관리하려면, IP를 입력하고, 네트워크 관리를 활성화 하고, 계정에 패스워드를 입력하여 활성화 시켜줘야 합니다.
    • 계정을 활성화할 경우 Dell Blade의 샤시 관리 모듈 (CMC)와 각 블레이드의 IPMI 모듈(iDRAC6)의 통신이 안된다는 군요.
    • 이 문제때문에 블레이드 서버가 관리 모듈에서 사라지는 문제를 겪었습니다.
    • 해결 방법은 패스워드를 설정하지 않는 것이죠...
    • default 계정으로 root/calvin을 사용하면 됩니다.
    • 참고 : Google 그룹스(Rocks Cluster)

  • Infiniband  연결방법
    • Blocking <-> Non-Blocking 구조가 있다고 합니다.
    • 총 16개의 블레이드가 장착되는데,, Infiniband 카드를 장착할 때 8대는 B위치에 나머지 8대는 C위치에 장착해야 하고,
    • Infiniband 스위치 모듈 또한 B위치/C위치에 각각 연결해야 합니다.

  • 블레이드 서버 MAC <--> 샤시 MAC 매칭
    • 이번에 이 기능을 보고 참 좋아졌구나 생각했습니다.
    • 블레이드 서버에 문제가 생겨서 보드를 교체할 경우 Onboard NIC의 MAC주소가 바뀌게 됩니다.
    • 이런 문제를 해결하기 위해 만들어진 것인지는 모르겠지만, Onboard NIC의 MAC주소를 샤시의 MAC 주소로 1:1 매핑시켜주는 기능이 있습니다.
    • 이 기능은 샤시 관리 모듈(CMC)의 Add-on 기능이며, 메모리를 꽂아서 활성화 시켜주어야 합니다.
    • 이 메모리는 샤시의 Service Tag를 기억하고 있으며, Service Tag가 다를 경우 동작하지 않습니다.

  • ifcfg-eth0 의 MAC 주소와 성능관계??
    • 이번 프로젝트의 최대 미스테리입니다.
    • 일반적으로 RedHat 계열 리눅스에서 네트워크 설정을 하면 /etc/sysconfig/network-scripts/ifcfg-eth0 안에 HWADDR=xx:xx:xx:xx:xx:xx 형태의 MAC을 기록하게 됩니다.
    • 이 항목을 주석처리하고 리부팅했는데 성능이 향상되었다?
    • 성능과 MAC주소와 무슨 관계가 있는지.. ??? 연구가 필요한 부분이네요..

왜 설치가 안됐을까 고민고민하다가 rocks 의 graphs 에 대해서 확인하고, 그 원인을 찾았습니다.
graphs 는 rocks 패키지 설치의 지도와 같습니다.
지도에 support 가 설치되어 있어야 설치가 된다고 연결이 되어 있더군요.



당연히 안되는 걸 가지고,, 한참을 헤맸네요..
그럼 해결 방법은 ??

support-client ==> client
support-server ==> server

로 연결 고리를 바꾸면 가능하지 않을까요? ㅎㅎㅎ

[root@rocks ~]# cd /export/rocks/install/rocks-dist/x86_64/build/graphs/default/
[root@rocks default]# cp ofed.xml intel-developer.xml intel-icr.xml /export/rocks/install/site-profiles/5.3/graphs/default/
[root@rocks default]# cd /export/rocks/install/site-profiles/5.3/graphs/default/

ofed.xml
FROM
<edge from="support-server">
  <to>ofed-server</to>
  <to>ofed-base</to>
  <to>ofed-prune-packages</to>
</edge>

<edge from="support-client" cond="ofed">
  <to>ofed-client</to>
  <to>ofed-base</to>
  <to>ofed-prune-packages</to>
</edge>

TO
<edge from="server">
  <to>ofed-server</to>
  <to>ofed-base</to>
  <to>ofed-prune-packages</to>
</edge>

<edge from="client" cond="ofed">
  <to>ofed-client</to>
  <to>ofed-base</to>
  <to>ofed-prune-packages</to>
</edge>


intel-developer.xml
FROM
<edge from="support-server" to="intel-developer-server"/>
<edge from="support-client" to="intel-developer-client"/>
<edge from="support-base"   to="intel-developer-base"/>

TO
<edge from="server" to="intel-developer-server"/>
<edge from="client" to="intel-developer-client"/>
<edge from="base"   to="intel-developer-base"/>


intel-icr.xml
FROM
<edge from="support-server">
<to>intel-icr-frontend</to>
</edge>

<edge from="support-client">
<to>intel-icr-client</to>
</edge>

TO
<edge from="server">
<to>intel-icr-frontend</to>
</edge>

<edge from="client">
<to>intel-icr-client</to>
</edge>

[root@rocks default]# cd /export/rocks/install/
[root@rocks install]# rocks create distro

'Rocks' 카테고리의 다른 글

What you have to do after channel bonding  (0) 2010.10.19
Dell Blade 성능이슈 및 해결 방법  (0) 2010.10.08
Rocks+ 설치 주의사항  (0) 2010.09.18
HPC Cluster 구성 툴의 다양화  (0) 2010.07.07
Rocks 5.4 발표 일정  (5) 2010.06.25
http://www.dell.com/Downloads/Global/Power/ps4q09-20100176-Gulbeden.pdf

Administrators can also use the command line for driver installation. The command msiexec /qn /i path, where path is the path to the WinOF MSI pack- age, enables driver installation through the command line; the MSI package can reside on a net- work share to help avoid the need to copy packages to individual cluster nodes.


The clusrun command enables running the same command on multiple compute nodes in parallel, which can help save a significant amount of time for driver installation in large clusters. The ndinstall command, which comes with the InfiniBand driver, can be used with the -i parameter to enable Network Direct after driver installation. When Network Direct is enabled, the ndinstall -l command lists the OpenIB Network Direct provider.


자동설치방법

msiexec /qn /i {PATH}


설치 후 Network Direct Enable

ndinstall -i


Network Direct provider 확인하는 방법

ndinstall -l

HPC Server 2008 R2 버전이 얼마전에 출시되었습니다.
Compute Node 자동 설치 중에 Product Key를 확인하는 과정에서 에러가 발생했습니다.
MS에서 제공된 Product Key였는데,, 설치 중에 계속해서 에러가 발생하더군요.
결국 해결 못해서,,
Compute Node Template 에서 Product Key를 삭제한 후 설치를 진행했습니다.
설치 완료 후 각 노드에 들어가서 Product Key를 입력했는데,, 잘 인식되더군요.
이건 무슨 문제인지....
아무래도 설치 프로세스 과정의 버그가 아닐까 싶습니다.
이 문제 때문에 반나절 허비했습니다.
유사 경우가 발생할 경우 고민하지 마시고, Product Key 삭제 후 설치하셈

+ Recent posts