데이터 가져오기(Data Importing) 성능을 향상시키는 방법은?

Nick Lamb -

ClustrixDB 클러스터로 데이터를 가져 오는 가장 일반적인 방법은 Importing Data에서 설명한대로 clustrix_import 도구를 사용하는 것입니다. Clustrix 가져오기는 ClustrixDB 병렬 처리를 활용하도록 설계되었으며 성능 데이터 수집에 권장되는 방법입니다.

몇 가지 이유로 clustrix_import를 사용할 수 없는 경우 다음에 나오는 최적의 가져오기 속도에 대한 몇 가지 권장 사항을 참고하십시오.

  • 가능한 동시성을 높이십시오. LOAD DATA INFILE을 사용하는 경우, 가져올 대상 파일을 여러 개로 분할하고 병렬 LDI 호출하는 것을 고려하십시오. 데이터를 로딩하는 애플리케이션이 있는 경우, 다중 스레드를 활용하십시오. 클러스터에서 동시성에 대한 가장 좋은 방법은 클러스터내에서 코어당 하나의 스레드입니다.
  • 가져오기 단계에서 auto_increment를 비활성화하십시오. 심지어 INSERT시 해당 값이 제공되는 경우에도 auto_increment 값을 유지하는데 약간의 성능상 오버헤드가 존재합니다. 컬럼에서 AUTO_INCREMENT절 없이 테이블을 생성하는 경우, 이런 불이익을 피할 수 있습니다. 물론, 가져올 데이터가 auto_increment 컬럼의 값을 가지고 있는 경우에만 가능합니다. 일단 가져오기가 완료되면 ALTER TABLE MODIFY COLUMN을 실행하여 AUTO_INCREMENT 컬럼을 다시 추가할 수 있으며, 이는 테이블 재작성이 필요한 동작이 아니므로 즉시 완료됩니다. clustrix_import는 자동으로 이 작업을 수행합니다. 
또 다른 질문이 있으십니까? 문의 등록

0 댓글

댓글을 남기려면 로그인하세요.
Zendesk 제공