AI 학습 데이터, 어디까지 합법일까? (실무자가 챙겨야 할 저작권 리스크 관리법)

1. 유명한 LAION-5B 같은 데이터셋도 법적 안전성은 20% 대에 불과해, 무작정 썼다간 Getty Images 소송 꼴 날 수 있습니다.

2. 완벽한 합법 AI 학습 데이터 없습니다. FOSSology나 ClearlyDefined 같은 도구로 내부 리스크 점수(80점 기준)를 매겨야 합니다.

3. 전체 검증 말고 상위 10% 위험 데이터만 먼저 거르고, 문제 발생 시 바로 갈아끼울 수 있는 모듈형 데이터 구조를 짜세요.

AI 학습 데이터, 이거 썼다가 우리도 소송 당하는 거 아냐?

판교 테크노밸리의 새벽 2시, AI 스타트업 사무실 풍경은 다들 비슷할 겁니다. 개발팀이 LAION-5B나 Common Crawl 같은 대형 데이터셋을 내려받으려는데, 팀장님이 쓱 다가와서 묻죠.

“이거 저작권 문제없는 거 확실해?”

솔직히 2024년, 2025년까지만 해도 “공개된 거면 다 쓰는 거지 뭐” 하는 분위기였잖아요. 근데 지금 2026년 1월 시점에서는 상황이 완전히 다릅니다. AI 기본법 논의가 구체화되고 글로벌 규제가 빡빡해지면서, 이제 데이터 출처는 곧 회사의 생명줄이 됐습니다.

실제로 얼마 전 한 개발자 커뮤니티에서 본 글이 기억납니다. “LAION 데이터셋 믿고 썼다가 Getty Images 소송 뉴스 보고 등골이 서늘했다”고요.

이게 그냥 기분 탓이 아닙니다. LG AI연구원이 발표한 자료를 찾아보니 꽤 충격적이더군요. ‘상업적 사용 가능’ 딱지가 붙은 인기 데이터셋 2,852개를 뜯어봤더니, 법적으로 진짜 깨끗하고 안전한 건 고작 21%밖에 안 됐다고 합니다.

우리가 믿고 쓰던 데이터셋 5개 중 4개는 나중에 법적 분쟁의 씨앗이 될 수 있다는 소리입니다. 지금 이 글을 읽는 분들도 속도는 내야겠는데 불안하고, 검증하자니 인력은 없는 딜레마에 빠져 계실 겁니다.

이득과 손해, 냉정하게 계산기 두드리기

무조건 “안전한 것만 쓰자”고 하면 사업 못 합니다. 그렇다고 “일단 쓰고 보자”고 하면 나중에 회사 문 닫을 수도 있고요. 그래서 현업 실무자들이 실제로 고민하는 포인트들을 정리해봤습니다.

ad

중요하다고 생각하는 기준들을 딱 추려봤는데요.

◇ 완전 인증 데이터 (정식 라이선스 구매)

  • 이득: 법적 분쟁 확률 거의 0%, 투자자들이 좋아함.
  • 손해: 비용이 비쌈, 데이터 양이 적어서 성능이 좀 아쉬울 수 있음.
  • 판단: 오래 갈 장기 프로젝트나 핵심 기능엔 이게 맞습니다.

◇ 공개 데이터셋 (LAION, CC 등)

  • 이득: 당장 다운로드 가능, 양이 방대해서 초기 모델 학습 속도가 빠름.
  • 손해: 실제 안전성 20% 수준. 나중에 모델 다 갈아엎어야 할 수도 있음.
  • 판단: 내부 프로토타입이나 데모 버전 만들 때만 써야 합니다.

◇ 자체 수집 데이터 (크롤링 후 가공)

  • 이득: 우리 서비스에 딱 맞음, 경쟁사 대비 차별점 확실함.
  • 손해: 수집하고 라벨링하는 인건비와 시간이 엄청남.
  • 판단: B2B 사업이나 특화된 버티컬 AI라면 결국 이 길로 가야 합니다.

여기서 핵심은 데이터 출처 → 라이선스 → 2차 저작물 변형 가능 여부 이 3단계를 확인하는 겁니다. 유럽의 EU AI법이나 캘리포니아 쪽 법안들이 계속 강화되고 있어서, 단순히 “오픈소스니까 공짜“라는 생각은 이제 버려야 합니다.

지금 당장 적용 가능한 안전장치들

“그래서 어쩌라는 거냐, 전수조사라도 하란 말이냐?” 싶으실 텐데요. 다행히 삼성SDS나 네이버 같은 대기업뿐만 아니라, 요즘 똑똑한 스타트업들이 쓰고 있는 검증된 도구와 방법론이 있습니다.

자동화된 검증 도구 활용 (맨땅에 헤딩 금지)

사람이 일일이 라이선스 텍스트 읽고 있을 시간 없습니다. 검증된 툴을 돌리세요.

데이터 리니지(Data Lineage) 추적: Datasheets for Datasets 같은 양식을 써서 데이터가 어디서 왔고 어떻게 변했는지 기록을 남깁니다. 나중에 문제 생겼을 때 “우리는 확인하고 썼다”는 증거가 됩니다.

라이선스 자동 분석: ClearlyDefinedFOSSology 같은 오픈소스 분석 도구를 쓰면, 이 데이터셋에 섞인 라이선스가 상업적으로 써도 되는 건지 점수로 보여줍니다.

리스크 스코어 시스템 도입

대기업 법무팀이 없어도 우리끼리의 기준은 만들 수 있습니다. 보통 이런 식으로 점수를 매겨서 판단하더라고요.

ad

저작권 위험도 (40%) + 라이선스 모호성 (30%) + 데이터 종속성 (20%) + 규제 (10%)

  • 70점 미만: 미련 없이 삭제.
  • 70~85점: 데이터 변형(Augmentation) 후 사용.
  • 85점 이상: 바로 사용.

이렇게 숫자로 기준을 정해두면, “이거 써도 돼요?” 하고 물어볼 때마다 회의할 필요가 없어집니다. “82점이니까 변형해서 쓰자”고 1분 만에 결정할 수 있죠.

비용은 줄이고 안전은 챙기는 현실적 꿀팁

이게 진짜 실무 꿀팁인데요, 검증 비용과 피로도를 확 낮추는 방법이 있습니다.

10% 표본 검사는 전체 100만 개를 다 보지 마세요. 가장 위험해 보이는 상위 10%만 먼저 돌려봅니다. 거기서 문제 나오면 그 데이터셋은 버리는 겁니다. 이것만 해도 비용 90% 아낍니다.

모듈형 구조 설계는 이게 제일 중요합니다. 데이터셋 A가 문제가 생겼을 때, AI 모델 전체를 폐기하지 않도록 설계하세요.

  • 모델 = [데이터모듈 A] + [데이터모듈 B] + [데이터모듈 C]

만약 LAION 이슈가 터지면? [데이터모듈 A]만 쏙 빼고 CC-News로 갈아끼우는 겁니다. 완벽한 데이터를 찾는 것보다, 언제든 교체 가능한 구조를 만드는 게 훨씬 현실적인 안전 전략입니다.

Q&A, 근데 여기서 제일 궁금한 거 있으시죠?

Q: LAION-5B 같은 건 이제 아예 쓰면 안 되나요?

A: 쓰셔도 되는데, 상업용 서비스엔 비추천입니다. 연구용이나 내부 테스트용으로는 괜찮지만, 제품에 들어가는 순간 리스크가 너무 커집니다. 굳이 쓰시겠다면 위에서 말한 툴로 필터링을 아주 빡빡하게 거쳐야 합니다.

Q: 스타트업이라 유료 데이터 살 돈이 없는데 어떡하죠?

A: ‘리스크 스코어 80점’ 원칙을 지키세요. 공개 데이터 중에서도 CC0(저작권 포기)나 CC-BY(출처 표시) 라이선스가 명확한 것들만 골라 쓰는 겁니다. 그리고 나중에 투자 받으면 그때 유료 데이터로 교체할 수 있게 ‘모듈형’으로 만들어 두는 게 핵심입니다.

[관련 자료] AI 기본법 Archives – 이끼 블로그



댓글 남기기

banner