500만 개 자료에서 질문 0.1초 만에 처리하는 인공지능 개발

2021.08.05 11:32:54

고려대 강재우 교수팀, 프린스턴대 연구진과 공동연구 성과

헬로티 함수미 기자 |

 

 

고려대학교 컴퓨터학과 강재우 교수팀(이진혁 박사, 성무진 박사과정)과 프린스턴 대학교 Danqi Chen 교수가 공동연구를 통해 500만 개가 넘는 문서에 대한 자연어 질의에 답을 실시간에 찾을 수 있는 인공지능 모델을 개발했다.

 

덴스프레이즈(DensePhrases)라 불리는 이 인공지능 모델은 영어 위키피디아 500만 개 이상의 문서에 대한 사용자의 자연어 질의를 100ms(0.1초) 내외로 처리한다.

 

이 모델은 기존 최고 성능의 모델과 유사한 성능을 유지하면서도 20배가 넘는 속도 향상을 달성했으며 값비싼 GPU의 사용 없이 모델을 구동할 수 있다는 장점을 지닌다.

 

덴스프레이즈는 사용자가 일상어로 작성한 질문에 대한 답을 위키피디아에서 찾는다. 예를 들어, “2016년 올림픽 남자 에페에서 금메달을 딴 사람”에 대한 질문을 주면 실시간으로 Fencing at the 2016 Summer Olympics라는 위키피디아 문서로부터 Park Sang-young이라는 구체적인 정답을 찾아 사용자에게 돌려준다.

 

이번 연구는 프린스턴대에 방문연구 중인 고려대 이진혁 박사 주도하에 성무진 박사과정과 프린스턴대 Danqi Chen 교수가 참여했다.

 

8월 첫째 주에 개최된 인공지능 언어처리분야 최고 권위 학회인 ‘ACL’에서 8월 4일에 발표됐다. 이 연구는 지난 수년간 이진혁 박사가 주도해온 ‘구 기반 질의응답’과 ‘오픈도메인 질의응답’기술을 발전시킨 결과다.

 

이 사전연구들 또한 2019년과 2020년에 각각 ACL에 발표돼 올해로 3년 연속 최고권위 학회인 ACL에서 그 연구 성과를 인정받게 됐다.

 

덴스프레이즈의 학습에는 기계독해 데이터셋과 질의생성 모델을 활용해 생성된 150만여 건의 데이터가 사용됐으며 홈페이지를 통해 직접 체험도 할 수 있다.

 

이 모델은 위키피디아뿐만 아니라 다양한 도메인의 대용량 문서 빅데이터에도 적용할 수 있도록 설계돼 학계와 산업계의 다양한 분야에서 자연어 기반 QA 플랫폼으로 활용 가능하다.

함수미 기자 etech@hellot.net
Copyright ⓒ 첨단 & automationasia.net



상호명(명칭) : ㈜첨단 | 등록번호 : 서울,아54000 | 등록일자 : 2021년 11월 1일 | 제호 : 오토메이션월드 | 발행인 : 이종춘 | 편집인 : 임근난 | 본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2021년 00월00일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호 copyright(c)오토메이션월드 all right reserved