본문 바로가기

반응형

[Google]

(8)
[BQ] schema 생성 BigQuery에서 schema를 생성하는 방법을 정리한다. Google Cloud console 사용하기 CREATE TABLE SQL문 사용하기 bq 명령문 사용하기 JSON 형식으로 스키마 생성하기 Reference https://cloud.google.com/bigquery/docs/schemas?hl=ko
[BQ] BigQuery partition partition? cluster? 파티셔닝(partitioning)과 클러스터링(clustering)은 성능을 높여 쿼리 비용을 최소화하는 기술이다. 더 적은 리소스를 사용하여 속도를 향상시키는 방법이다. 기본적으로 이 두 가지 방법은 쿼리를 실행할 때 스캔(scan)하는 데이터의 양을 제한하는 방법을 이용한다. partition 테이블 파티셔닝은 큰 테이블을 작은 테이블로 분할하는 것이다. BigQuery의 경우, 서로 다른 파티션을 물리적으로 다른 곳에 저장한다. 테이블을 분할하여 쿼리를 실행할 때 액세스할 파티션을 결정하고, 스캔할 데이터를 최소화한다. Time-unit column(시간 단위 열) timestamp 또는 날짜와 같은 시간 값을 기준으로 테이블 분할 Ingestion time(수집..
[BQ] BigQuery partition limit BigQuery의 파티션(partition) 최대 갯수는 4,000개이다. 파티션 제한 갯수가 있으므로 파티션을 나눈 기준에 따라 파티션 만료시간을 지정해 놓아야 파티션 초과 에러가 발생하지 않는다. Update the partition limitation BQ 명령어로 파티션 만료시간 지정하기 bq update --time_partitioning_expiration 14256000 --time_partitioning_type HOUR project_name:database_name.table_name BigQuery console로 파티션 만료시간 지정하기 ALTER TABLE database_name.table_name SET OPTIONS ( -- Sets partition expiration to..
[BQ] 쿼리 비용 Tip BigQuery 쿼리 비용 책정 https://cloud.google.com/bigquery/pricing.html?hl=ko#storage 가격 책정 | BigQuery: 클라우드 데이터 웨어하우스 | Google Cloud BigQuery 가격 책정 검토 cloud.google.com 주문형 쿼리 요금과 관련하여 다음 사항을 참고하세요. BigQuery는 열 형식 데이터 구조를 사용합니다. 따라서 선택한 열의 총 데이터 처리량을 기준으로 요금이 청구되며, 열별 총 데이터는 해당 열의 데이터 유형에 따라 계산됩니다. 데이터 크기 계산 방식에 대한 자세한 내용은 데이터 크기 계산을 참조하세요. 오류가 발생한 쿼리 또는 캐시에서 결과를 검색하는 쿼리에는 요금이 청구되지 않습니다. 스크립트 작업의 경우 이러..
[BQ] Python에서 BigQuery 실행하기 Python Client for Google BigQuery Example Usage 구글 GCS 서비스 계정 json 파일을 사용하여 BigQuery에 쿼리 실행하기 from google.cloud import bigquery CREDS = 'test_service_account.json' client = bigquery.Client.from_service_account_json(json_credentials_path=CREDS) job = client.query('select * from dataset1.mytable') for row in job.result(): print(row) Reference https://stackoverflow.com/questions/45003833/how-to-run..
[BigQeury] IFNULL vs. NULLIF 산술 및 문자열 연산자 NULL에 대한 산술/문자열 연산자 결과 A + NULL 반환 값: NULL A - NULL 반환 값: NULL A / NULL 반환 값: NULL A * NULL 반환 값: NULL NULL / A 반환 값: NULL 0 / NULL 반환 값: NULL 0 * NULL 반환 값: NULL A & NULL 반환 값: A NULL 전파 NULL 전파를 피하기 위한 조건문 IF IF(expr, true_result, else_result) 설명 expr은 Bool 표현식이어야 한다. expr 조건 결과(True/False)에 따라 반환값을 정할 수 있는 조건문이다. expr이 True인 경우 true_result 값이, False 또는 NULL인 경우 else_result 값이 반환된..
[Google] BigQuery에 대하여 BigQuery란? 대용량 데이터 셋(최대 몇 십억 개의 행)을 대화식으로 분석할 수 있는 웹 서비스 대규모 데이터 저장 및 분석 플렛폼으로 일종의 데이터 웨어하우스 (Data Warehous) Data Warehous : 축적된 데이터를 모아서 관리하는 곳 BigQuery 구성 Project : 데이터를 담는 최상위 개념으로, 하나의 프로젝트에 여러 개의 데이터 셋이 포함된다. Dataset : RDB에서의 DataBase 개념으로, 하나의 데이터 셋에 여러 개의 테이블이 포함된다. 주어진 클라우드 프로젝트 내에서는 BigQuery 데이터 셋이 고유하다. Table : RDB에서 테이블과 동일한 개념이다. 지정된 데이터 셋 내에서 BigQuery 테이블은 고유하다. Job : BigQuery 상의 모든..
[BigQuery] NET.HOST() NET.HOST BigQuery > Net 함수 (공식 문서) URL을 STRING으로 취해 호스트를 STRING으로 반환한다. 최상의 결과를 위해서는 URL 값이 RFC 3986 에 정의된 형식을 준수해야 한다. 함수에서 입력을 파싱하지 못랄 경우에는 NULL을 반환한다. NET.HOST 사용 NET.HOST(url) # domina 값 리턴 이 함수는 정규화를 수행하지 않는다. 리턴 값의 데이터 유형은 string 이다. 리턴 값은 url의 domain이다.

반응형