본문 바로가기

반응형

전체 글

(121)
TLDR Too long; didn't read Wikipedia 스택오버플로우나 개발 관련 커뮤니티를 보다보면 tldr이라는 줄임말을 쉽게 볼 수 있다. 이 것은 Too long; didn't read라는 뜻으로, 쉽게 말해 너무 길어서 읽지 않았다는 뜻이다. 커뮤니케이션을 잘 하려면 말을 간단하고 명료하게 할 수 있어야 한다.
[SQL] CONVERT_TZ() CONVERT_TZ() 함수 In MySQL the CONVERT_TZ() returns a resulting value after converting a datetime value from a time zone specified as the second argument to the time zone specified as the third argument. This function returns NULL when the arguments are invalid. CONVERT_TZ(dt, from_tz, to_tz) 예시 SELECT CONVERT_TZ('2023-07-14 08:00:00', '+09:00', '+00:00'); SELECT CONVERT_TZ('2023-07-14 08:00:00', ..
[Spark] pyspark datafrmae to csv pyspark.pandas.dataframe.to_csvDataFrame.to_csv(path: Optional[str] = None, sep: str = ',', na_rep: str = '', columns: Optional[List[Union[Any, Tuple[Any, …]]]] = None, header: bool = True, quotechar: str = '"', date_format: Optional[str] = None, escapechar: Optional[str] = None, num_files: Optional[int] = None, mode: str = 'w', partition_cols: Union[str, List[str], None] = None, index_col: Unio..
[Python] pandas dataframe 행/열 count pandas dataframe의 행 또는 열의 수를 카운트하는 방법을 알아보자.  Referencehttps://stackoverflow.com/questions/15943769/how-do-i-get-the-row-count-of-a-pandas-dataframe
[Spark] Pyspark - substring으로 문자열 자르기 Pyspark를 이용해서 spark에 있는 string 형식(YYYYmmddHH)의 날짜 데이터에서 day 까지만 데이터를 추출해야 할 일이 생겼다.YYYYmmddHH -> YYYYmmdd 만 출력/추출 하고 싶을 때 substring() 함수를 사용해보자.SELECT substring(hour, 1, 8) AS dayFROM table_name substring() function 사용하기pyspark.sql.functions.substring(str, pos, len)하위 문자열은 pos 에서 시작 하고 str이 문자열 유형일 때 길이가 len 이거나 str이 이진 유형일 때 길이가 len 이고 byte에서 pos 에서 시작하는 바이트 배열의 슬라이스를 반환한다 . 참고 : 위치(len)는 기준이 0..
[BQ] schema 생성 BigQuery에서 schema를 생성하는 방법을 정리한다. Google Cloud console 사용하기 CREATE TABLE SQL문 사용하기 bq 명령문 사용하기 JSON 형식으로 스키마 생성하기 Reference https://cloud.google.com/bigquery/docs/schemas?hl=ko
[BQ] BigQuery partition partition? cluster? 파티셔닝(partitioning)과 클러스터링(clustering)은 성능을 높여 쿼리 비용을 최소화하는 기술이다. 더 적은 리소스를 사용하여 속도를 향상시키는 방법이다. 기본적으로 이 두 가지 방법은 쿼리를 실행할 때 스캔(scan)하는 데이터의 양을 제한하는 방법을 이용한다. partition 테이블 파티셔닝은 큰 테이블을 작은 테이블로 분할하는 것이다. BigQuery의 경우, 서로 다른 파티션을 물리적으로 다른 곳에 저장한다. 테이블을 분할하여 쿼리를 실행할 때 액세스할 파티션을 결정하고, 스캔할 데이터를 최소화한다. Time-unit column(시간 단위 열) timestamp 또는 날짜와 같은 시간 값을 기준으로 테이블 분할 Ingestion time(수집..
[BQ] BigQuery partition limit BigQuery의 파티션(partition) 최대 갯수는 4,000개이다. 파티션 제한 갯수가 있으므로 파티션을 나눈 기준에 따라 파티션 만료시간을 지정해 놓아야 파티션 초과 에러가 발생하지 않는다. Update the partition limitation BQ 명령어로 파티션 만료시간 지정하기 bq update --time_partitioning_expiration 14256000 --time_partitioning_type HOUR project_name:database_name.table_name BigQuery console로 파티션 만료시간 지정하기 ALTER TABLE database_name.table_name SET OPTIONS ( -- Sets partition expiration to..

반응형