메타, AI 모델 개발 위해 불법자료 이용 논란
최근 메타가 경쟁사인 오픈AI와 미스트랄을 이기기 위한 전략을 세우는 과정에서 불법적으로 저작권이 있는 자료를 사용했다는 사실이 드러났어요. 캘리포니아 법원에서 공개된 서류들에 따르면, 메타는 자사의 오픈소스 AI 모델인 ‘라마’를 개발하기 위해 저작권이 침해된 자료를 활용하고 있었다고 해요. 이 자료는 특히 책 불법 다운로드 사이트인 리브젠(Library Genesis)을 통해 수집된 것으로 보입니다.
비밀스러운 내부 소통
메일 내용을 보면, 메타의 생성 AI 부사장 아흐마드 알다흘리는 “GPT-4를 목표로 해야 한다”는 메시지를 보냈고, “경쟁에서 승리하기 위해 최전선의 구축 방법을 배워야 한다”고 강조했어요. 리브젠 사용에 대한 논의가 있었고, 특정 기준을 정해 자료 사용이 승인됐다는 내용도 담겨 있었죠.
지적재산권 침해 논란
메타는 코미디언 사라 실버맨과 작가 리처드 카드레이가 제기한 집단소송에 직면하고 있으며, 이는 메타가 불법적으로 저작권이 있는 콘텐츠를 사용했다는 주장을 담고 있어요. 메타는 이러한 자료 사용이 저작권법 아래에서 “공정 이용”에 해당한다고 주장하고 있지만, 이 과정에서 법적 리스크가 따를 수 있다는 점도 우려되고 있습니다.
내부 정책 및 리스크 관리
메일 내용에서는 리브젠에서 수집한 데이터 중 명백하게 저작권이 있는 자료를 제거해야 하며, 외부에 이 데이터의 출처를 밝히지 않는 조건이 붙었다고 해요. 또한, 메타는 데이터 안전성을 고려해 특정 정책 위험을 점검하는 과정에 들어갔다는 언급도 있었죠. 예를 들어, 불법 콘텐츠 사용으로 인해 규제 기관의 반발이 일어날 경우 협상 위치에 악영향을 줄 수 있다고 판단한 것입니다.
데이터 부족 문제의 심화
한편, 메타 및 다른 AI 기업들은 데이터 수집에서 큰 어려움을 겪고 있으며, 이전에 사용했던 자료들은 거의 다 떨어진 상황이에요. 이로 인해 일부 기업들은 아프리카의 계약직 인력을 고용해 무단으로 책을 요약하는 방안에 대해 논의하기도 했다고 합니다. 이런 새로운 데이터 확보 전략이 과연 윤리적일지는 논란이 될 수밖에 없습니다.
결국 메타는 AI 기술의 진전을 위해 어떤 방식으로든 데이터를 확보해야 하는 상황에 처해 있고, 이러한 문제는 앞으로도 계속해서 주목받을 것 같아요. AI의 발전과 저작권 보호라는 두 이슈가 과연 어떻게 조화를 이룰 수 있을지를 지켜보는 일이 중요해 보입니다.