Skip to content

TJ 전체 번호 크롤링 범위 분할 병렬 실행 #266

Description

@GulSam00

작업 개요

crawl_tj_all_number.yml 워크플로우는 crawlAllTJSongByNumber.ts(START_NUMBER=1, END_NUMBER=99999)를 단일 잡으로 실행한다. GitHub Actions 6시간 제한 안에서는 1~10000번 대까지만 순회할 수 있어, 나머지 구간이 누락된다.

순회 범위를 환경변수로 파라미터화하고, 워크플로우에서 1만 단위 10구간으로 나눠 병렬(matrix) 실행해 6시간 제한 안에서 전 대역(1~99999)을 커버한다.

작업 체크리스트

  • crawlAllTJSongByNumber.tsSTART_NUMBER / END_NUMBER를 환경변수로 주입받도록 수정 (기본값 유지 + 범위 검증)
  • crawl_tj_all_number.yml을 matrix 전략으로 1만 단위 10구간 병렬 실행 (fail-fast: false)
  • DB 전체 로드가 잡마다 중복 수행되는 부분 영향 확인 (읽기 전용, 잡당 1회 → 그대로 유지)
  • /verify로 build / lint / format / type-check 검증

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions