728x90

 

디스코드에 자주 등장하는 '나는 로봇이 아닙니다' 문구의 캡챠(reCAPTCHA)는 도대체 왜 있을까 ? - 그 기능과 가치

 

 

 

안녕하세요 만물창고입니다 !

 

오늘은 우리의 대표 귀차니즘, 캡챠(reCAPTCHA)에 대해 알아보려 합니다.

 

디스코드, 외국 사이트, 네이버, 구글 등에 로그인 혹은 회원가입을 하려하면 정말 자주 보이는 툴이 있죠.

 

그것은 바로 캡챠.

 

사실 저는 이 정보를 접하기 전까지는 그 이름도 알지 못했습니다.

 

그 툴이 어떻게 생겼는지만 알고있었죠.

 

우리에게는 '자동입력 방지문자'로 더욱 잘 알려진 그것이 바로 캡챠인데요.

 

문자 혹은 그림으로 이루어진 이 캡챠는 도대체 왜 존재하고 그 가치는 무엇인지 여러분은 알고 계신가요 ?

 

 

 

이렇게 두 종류의 캡챠를 보셨을겁니다.

 

이 모두 구글사의 기술로 이루어진 캡챠인데요.

 

캡챠(reCAPTCHA)는 C(Completely) A(Automated) P(Public) T(Turning test to tell)

 

C(Computer and) H(Human) A(Apart) 의 약자로 해석하면

 

'컴퓨터와 사람을 구분하는 완전히 자동화된 공공 튜링 테스트' 라는 뜻입니다.

 

이 캡챠는 1997년 slashdot 이라는 정치, 경제와 관련된 토론을 하는 사이트에서 부터 시작이 됐는데요.

 

이 사이트에서 '최고의 컴퓨터 공학 대학원이 어디라고 생각하냐?' 라는 투표가 열리게 되었습니다.

 

이 때 카네기 멜론 대학교(CMU)의 투표 수가 비정상적으로 올라가는 현상이 벌어지게 됩니다.

 

이는 결국 '봇'을 사용한 비정상적인 투표 조작의 현상이라는 것이 밝혀지게 되죠.

 

이를 통해 대중들은 인터넷에서 컴퓨터와 사람을 구별하여 한다는 인식이 쏟아져 나오기 시작했고

 

같은 시기에 야후나 마이크로소프스사의 한메일에서도 비정상적인 유입을 통한 회원가입이 무분별하게 일어나면서

 

그 계정들이 악성 메일을 유포하는 등의 문제들이 발생하기 시작하면서 그 인식은 점점 더 대중화되기 시작했습니다.

 

이를 계기로 2007년 이 캡챠의 선두주자인 미국 카네기 멜런 대학교의 루이스 본 안(Louis von Ahn) 교수가 지금

 

사용하는 캡챠의 시초 버전을 만들어내게 되었습니다.

 

당시 루이스 본 안 교수는 자신이 만든 캡챠의 의의를 이렇게 정의했는데요.

 

 

 

 

"이 캡챠는 미래 AI 산업에 큰 영향을 미칠 것이다. 고도화된 캡챠의 기능을 뚫고

 

더 뛰어난 프로그램의 등장으로 찌그러진 사진과 문자를 인식해내는 툴이 만들어진다면

 

우리는 고대 문헌 등 여러가지 우리가 직접 해내지 않아도 될 여러 일들을 봇이 디지털화 해낼 수 있을 것."

 

 

 

 

이라는 등 캡챠의 여러가지 기능성을 제시하며 캡챠를 탄생시켰습니다.

 

옛 문헌에 담긴 찌그러진 문자 혹은 흐릿한 문자

 

실제로 이러한 고대문헌의 디지털화를 기대하며 리캡챠(reCAPTCHA)가 등장하게 되었는데요.

 

우리가 아는 그 자동입력 방지문자를 입력하는 기본적인 툴입니다.

 

위의 사진에 나오는 문자는 사람만이 읽을 수 있다는 것 아시나요 ?

 

사람은 읽을 수 있지만 컴퓨터는 그 형체가 고착화된 문자가 아니어서

 

즉, 찌그러진 형태의 문자이기 때문에 컴퓨터는 읽을 수는 없었죠.

 

그래서 이렇게 컴퓨터가 읽어내지 못하는 것들을 자동입력 방지 시스템에

 

옛 문헌에 나온 찌그러진 혹은 흐릿한 문자들을 사람들에게 제시하면서

 

묻고 또 물어 그 데이터베이스를 구축해나갔습니다.

 

실제로 이런 일련의 리캡챠가 대중들에게 배포되고나서 컴퓨터가 고대문헌을 번역하는데 있어

 

리캡챠가 도입되기 전에는 성공률이 83.5%의 수준에 달했지만

 

리캡챠의 도입 이후로는 99.1%의 성공률에 달하는 등의 성과를 거두게됩니다.

 

결국 2년만에 240만 부수의 서적을 디지털화하는데 성공하죠.

 

놀랍지 않나요 ?

 

인간들의 데이터를 이용하여 옛 문헌을 디지털화하는 이 아이디어가요.

 

이런 수 많은 가능성을 지닌 기술을 루이스 본 안 교수가 2009년에 구글에 한화로 330억에 팔았는데요.

 

이 때부터 전세계적으로 구글이 캡챠를 적용해 보안과 AI 연구에 활발히 이용하였다고 합니다.

 

또한 이 문자로 된 캡챠 뿐만 아니라 그림으로 된 캡챠도 우리의 실생활에도 참 많이 퍼져있는데요.

 

특히나 게임을 자주 하시는 분들이라면 '디스코드' 라는 보이스채팅에서 로그인 혹은 회원가입을 할 때

 

정말 많이 보셨을 겁니다.

 

'나는 로봇이 아닙니다' 라는 문구 정말 지겹도록 많이 보았던 것 같네요.

 

IP가 다른 곳에서 로그인 할 때 마다 등장하는 '나는 로봇이 아닙니다' 라는 녀석은

 

신호등을 고르래서 골랐더니 틀렸다며 다시 선택하라하는 이 일종의 뻘짓(?)을 시키는 녀석이죠.

 

그럼 도대체 왜 이런 과정을 거치게 하는 것일까요?

 

 

문자 캡챠의 경우에는 문헌을 복원하여 디지털화하는데 사용하였다는 것은 알았는데

 

그럼 그림은 도대체 왜 ?

 

물론 보안 강화라는 명목아래 문자에서 그림으로 바뀐 것도 있습니다.

 

문자 캡챠의 경우 V1 버전으로 그 보안이 생각보다 허술해

 

일부 프로그래머들에 의해서 쉽게 보안이 뚫리는 현상이 있었기 때문에

 

그 버전을 업그레이드하여 나온 V2 버전이기도 한데요.

 

하지만 이 그림 캡챠의 경우에는 구글의 엄청난 아이디어와 지혜가 담겨있습니다.

 

 

구글은 이 캡챠라는 보안프로그램을 사용하여 자사의 AI 능력을 향상시키고 있습니다.

 

예를 들어서 그림을 구분하는 AI를 만들고 있는데 그 데이터가 약 10억개가 필요하다면

 

구글은 캡챠라는 보안프로그램을 민간에 무료로 배포하여 전세계 사람들에게 일종의

 

무료노동(?)을 시키고 있는 것이죠.

 

구글은 이를 통해 자율주행자동차, 구글 맵스에 대한 인식데이터로 사용한다고 하는데요.

 

이런 식으로 스스로도 모르는 새에 인간 고유 지적 능력을 사용하는 기법을 '인간 기반 연산' 이라고 말합니다.

 

앞에서 언급했던 문자 캡챠 또한 이러한 기법을 사용한 것이구요.

 

특히나 구글이 본격적으로 자율주행자동차를 연구하기 시작한 이후로는

 

표지판 구분하기, 신호등 구분하기, 버스, 자전거 등 도로 위의 특정 물체를 구분하는 사진들을

 

많이 보안 요소로 사용하기 시작했는데 이렇게 보안과 AI라는

 

두 마리 토끼를 잡는 아이디어를 낸 구글은 정말 대단한 것 같다는 생각이 듭니다.

 

현재는 이런 캡챠 보안프로그램이 예를 들어 신호등을 고르라고 하였을 때 답을 확정적으로 선택해야하는

 

것이 아닌 인식 결과에 대한 신뢰성을 높이는 차원으로 보안프로그램이 작동하고 있는데

 

이는 구글 AI가 추구하고자하는 방향이 무엇인지 정확하게 알 수 있는 부분이기도 하죠.

 

실례로 버스 이미지를 선택하라는 문구가 뜨면 버스와 애매하게 걸치는 부분 또한 선택하여도

 

큰 문제없이 보안인증을 통과할 수 있는 것은 인식 결과에 대한 신뢰성을 높이는 것에 목적을 둔

 

프로그램이라는 것을 명확히 보여주곤 합니다.

 

 

예를 들어 다음과 같은 그림 캡챠가 클릭을 요구하게 되면 

 

 

다음과 같이 풀과 같은 다른 것들이 포함되더라도 표지판이 있는 타일은 다 선택을 해주시게 되면

 

비교적 쉽게 보안 인증을 통과할 수 있는 것이죠.

 

요즘에는 이렇게 체크를 하고 '확인'을 눌러도 다시 새로운 이미지가 등장해

 

다시 체크를 눌러야 하는 2중 캡챠도 등장하기도 하였으니

 

여유롭게 체크하시는 것이 가장 중요합니다 ^^.

 

추후에는 자율주행자동차의 야간 운행까지 고려한 야간 사진도 나올 가능성이 있다고 하니

 

난이도가 더욱 더 높아지겠네요..

 


(나 로봇 아니라고 !!!)

 

 

그리고 이 캡챠는 보안 또한 꽤나 우수합니다.

 

컨텐츠가 있는 글에 대한 스크래핑(광고 수익 전환 또는 경쟁적 사용을 위한 콘텐츠 도난 방지)를 막고

 

훔친 신용카드를 통해 결제하는 것을 막으며 악성 링크 게시물 등을 막는 보안의 역할도 한다고 하니

 

그 기능이 참 재밌으면서 이 기능이 사용될 목적을 생각하면 대단하다는 생각이 드는 것 같습니다.

 

이처럼 캡챠는 우리에게 정말 귀찮은 존재임과 동시에 인류에 기여하는 범지구 차원의 일을 하고

 

있다고 봐도 무방할 것 같습니다.

 

우리는 그 귀찮음을 무릅쓰고 인류에 함께 과학발전에 작은 기여를 하고 있다 생각하는 것은 어떨까요 ?

 

어떠신가요.

 

이러한 기능을 알고나니 이때까지 겪어온 귀찮음이 조금은 해소가 되는 듯한 기분이 드시나요 ?

 

이렇게 오늘은 우리 일상 깊숙히 들어와 그 기능과 이 기능을 통해 많은 것을 이루어내려 준비하고 있는

 

구글의 '캡챠'에 대해 알아보았습니다.

 

여기서 오늘의 글 마치도록 하겠습니다.

 

여기까지 만물창고였습니다.

 

 

+ Recent posts