생성형 AI 스타트업 퍼플렉시티가 웹사이트의 명시적인 크롤링 차단을 무시한 채 은밀히 콘텐츠를 수집한 혐의로 인터넷 인프라 제공업체 클라우드플레어로부터 강한 비판을 받았다.
클라우드플레어는 최근 자사 블로그를 통해 퍼플렉시티가 robots.txt 파일로 크롤링을 차단한 웹사이트들에서 사용자 에이전트를 구글 크롬 브라우저로 위장해 접근하고 있다고 밝혔다. 또한 퍼플렉시티가 IP 주소 및 네트워크 번호를 자주 바꾸며 하루 수백만 건에 이르는 요청을 은폐형 크롤러로 보냈다고 주장했다.
퍼플렉시티는 이에 대해 클라우드플레어의 주장은 영업용 홍보에 불과하며, 해당 크롤러는 우리와 무관하다고 부인했다. 하지만 클라우드플레어는 네트워크 분석과 머신러닝 기반의 지문 식별 기술을 통해 퍼플렉시티가 콘텐츠 수집을 위해 웹 표준을 의도적으로 우회했다고 반박하며 법적 분쟁으로 번질 가능성도 제기되고 있다.
퍼플렉시티의 이번 논란은 생성형 AI 기업의 웹사이트 콘텐츠 스크래핑 문제에서 처음이 아니다. 지난해 오픈AI는 챗GPT 학습을 위한 콘텐츠 수집 과정에서 워싱턴포스트, CNN 등 여러 주요 언론사들과 저작권 침해 소송을 진행 중이다. 구글의 생성형 AI 바드 역시 언론사 콘텐츠 무단 스크래핑으로 AP 통신과 월스트리트저널 등과 법적 갈등을 빚고 있다.
국내에서는 KBS·MBC·SBS 등 지상파 방송사들이 네이버를 상대로 생성형 AI ‘클로바X’와 ‘하이퍼클로바’가 뉴스 콘텐츠를 무단으로 학습했다며 저작권 소송 및 공정거래위원회에 제소 했고, 신문협회는 네이버가 언론사의 기사를 허락 없이 사용했으며, 정당한 보상을 하지 않았다는 점을 중점적으로 지적하고 있다
AI 마케팅 전문가인 에이치엘스토리 최진명 대표는 AI 기술 발전 속도가 웹 표준과 법적 규제보다 빠르게 진행되고 있어 콘텐츠 제공자와 AI 기업 간 갈등은 계속될 것이라며, AI 기업들이 콘텐츠 제공자와 라이선스 협약을 체결하거나 윤리적이고 투명한 콘텐츠 수집 정책을 적극 도입할 필요가 있다고 말했다.
퍼플렉시티 사례는 AI 기술 발전이 법적 규제와 윤리적 기준 수립을 촉진하는 계기가 될 것으로 보이며, 콘텐츠 제공자와 AI 업계 간 공정한 상생 모델 구축이 더욱 중요해지고 있다.