이데일리 권하영 기자 = “AI 챗봇이 왜 이렇게 답답할까.” 콜센터 상담 중 한 번쯤 떠오르는 의문이다. 사람처럼 자연스럽게 대화해야 할 챗봇이 뜻을 제대로 이해하지 못하거나 엉뚱한 대답을 내놓는 경우가 많기 때문이다.
GS네오텍의 송상민 AI 리서치 엔지니어는 이러한 한계를 과학적으로 규명했다. 그는 인공지능이 실제 복잡한 대화 환경에서는 성능이 급격히 떨어진다는 사실을 세계 최고 권위의 자연어처리 학회에서 입증했다.

GS네오텍의 송상민 AI 리서치 엔지니어가 최근 서울 구로구 본사에서 이데일리와 인터뷰를 진행하고 있다. (사진=GS네오텍)
단일 사용자만 고려해온 AI의 한계
송 엔지니어가 1저자로 참여한 논문 ‘단일 사용자 대화를 넘어: LLM의 다중 사용자 대화 상태 추적 성능 평가’는 최근 국제 자연어처리 학회 ‘EMNLP 2025’ 메인 트랙에 정식 채택됐다. 자연어처리학회(ACL)가 주관하는 EMNLP는 가장 영향력 있는 글로벌 AI 학술 행사 중 하나다. 메인 컨퍼런스 논문은 실용성과 학문적 완성도 기준으로 엄격히 심사되며, 매년 높은 경쟁률을 기록해 채택만으로도 의의가 크다.
연구 핵심은 ‘다중 사용자 대화’ 상황에서의 AI 성능을 처음으로 체계적으로 검증한 것이다. 최근 서울 구로구 본사에서 만난 송 엔지니어는 “기존 AI 대화 연구는 사용자와 챗봇이 일대일로 대화하는 상황에만 집중했다”며 “현실에선 친구와 음식점을 고를 때, 가족이 함께 병원을 예약할 때 등 다중 화자 상황이 많은데 이 분야에서 AI 성능을 검증하는 시도는 없었다”고 설명했다.
연구는 AI가 동시에 두 명의 사용자와 대화하는 상황에서, 대화 상태를 추적하는 DST(DST, Dialogue State Tracking) 성능을 검증했다. 두 번째 사용자의 발화는 언어학의 ‘화행 이론(Speech Act Theory)’을 학습한 AI 모델이 생성했다. 화행 이론은 ‘말’도 곧 ‘행동’이라는 관점에서 지시·제안·동의·반박 등 대화 행위를 학문적으로 정의한 것으로, AI 모델이 이를 학습해 자연스러운 다중 대화를 구현하게 한 것이다.
실험 결과, 일대일 대화 환경에선 안정적인 성능을 보이던 AI가 다중 대화 환경에선 성능이 급격히 떨어지는 것이 확인됐다. 송 엔지니어는 “여러 명이 대화할 때 AI가 특정 사용자의 의도를 파악하지 못하고 건너뛰거나, 없던 말을 지어내는 일종의 할루시네이션(거짓 정보 생성)이 생겼다”며 “AI가 다중 대화에선 누구의 의도를 우선해야 하며, 중요 의사결정이 무엇인지 파악하지 못함을 입증했다”고 말했다.
송 엔지니어는 “현행 AI 모델의 한계를 명확히 증명하는 것도 AI 연구에 있어 중요한 부분”이라며 “모델의 한계가 명확해질수록 그 한계를 극복하기 위한 발전 가능성도 커지기 때문에, 최근 AI 연구의 흐름은 LLM(대규모언어모델)의 발전만큼이나 그 한계에 대한 탐구로 확장되는 추세”라고 전했다.
음성·텍스트 융합, 모델 최적화…기술 방향성 제시
이번 연구는 GS네오텍의 AI컨택센터(AICC) 사업 고도화의 밑거름이 될 것으로 예상된다. 현재 GS네오텍은 금융·유통·공공기관 등 약 200여개 고객사의 컨택센터 구축·운영을 지원 중이며, 특히 클라우드 컨택센터 분야에서는 GS네오텍이 점유율이 70%에 이른다. AICC 사업은 회사 전체 매출의 약 20%를 차지할 정도로 중요도가 높다.
송 엔지니어는 “연구가 곧바로 상용 기술로 적용되긴 어렵지만, 이를 토대로 대화 상태 추적, 실시간 음성·텍스트 융합 처리, 모델 성능 최적화 등 기술 방향성을 잡았다”며 “여러 고객이 동시에 문의하는 상황이 생겼을 때, 우리가 이미 준비된 기술을 갖추고 있다면 큰 강점이 될 것”이라고 기대했다.
예컨대 배우자와 함께 은행 상담을 하는 상황이나 지인과 항공편 예약을 상의하는 상황 등 복잡한 다중 고객 상담에서 AI가 혼란에 빠지지 않고 정교한 응대를 하도록 개선점을 찾아낼 수 있는 것이다.
물론 AICC 고도화를 위해 아직은 넘어야 할 산이 많다. 송 엔지니어는 “가장 중요한 게 데이터 구축인데, 음성의 텍스트화나 개인정보 검열 등에 많은 비용이 들어간다”며 “주변 소음이 심하거나 사투리 억양을 알아듣지 못하는 등 AI의 음성 인식률 자체도 한계가 있다”고 분석했다. 따라서 이번 연구를 시작으로 향후 ‘자동 음성 인식(ASR)’ 분야에 연구 역량을 집중해, AICC 고도화에 기여하겠다는 계획이다.
송 엔지니어는 이번 학술 성과를 이끌어낸 동력에 대해 “기술의 사회적 가치를 끊임없이 고민해온 결과”라고 역설했다. 그는 “연구에만 매몰되지 않고 회사에서 개발 실무를 병행하다 보니, AI의 발전과 실제 서비스화 사이에 괴리감이 있다는 것을 체감하게 됐다”며 “무작정 AI 성능을 높이는 게 아니라, 어떻게 해야 도움이 되는 AI를 만들 수 있는지가 중요하다”고 지적했다.
출처 : 이데일리 권하영 기자 kwonhy@edaily.co.kr
이데일리 권하영 기자 = “AI 챗봇이 왜 이렇게 답답할까.” 콜센터 상담 중 한 번쯤 떠오르는 의문이다. 사람처럼 자연스럽게 대화해야 할 챗봇이 뜻을 제대로 이해하지 못하거나 엉뚱한 대답을 내놓는 경우가 많기 때문이다.
GS네오텍의 송상민 AI 리서치 엔지니어는 이러한 한계를 과학적으로 규명했다. 그는 인공지능이 실제 복잡한 대화 환경에서는 성능이 급격히 떨어진다는 사실을 세계 최고 권위의 자연어처리 학회에서 입증했다.
GS네오텍의 송상민 AI 리서치 엔지니어가 최근 서울 구로구 본사에서 이데일리와 인터뷰를 진행하고 있다. (사진=GS네오텍)
단일 사용자만 고려해온 AI의 한계
송 엔지니어가 1저자로 참여한 논문 ‘단일 사용자 대화를 넘어: LLM의 다중 사용자 대화 상태 추적 성능 평가’는 최근 국제 자연어처리 학회 ‘EMNLP 2025’ 메인 트랙에 정식 채택됐다. 자연어처리학회(ACL)가 주관하는 EMNLP는 가장 영향력 있는 글로벌 AI 학술 행사 중 하나다. 메인 컨퍼런스 논문은 실용성과 학문적 완성도 기준으로 엄격히 심사되며, 매년 높은 경쟁률을 기록해 채택만으로도 의의가 크다.
연구 핵심은 ‘다중 사용자 대화’ 상황에서의 AI 성능을 처음으로 체계적으로 검증한 것이다. 최근 서울 구로구 본사에서 만난 송 엔지니어는 “기존 AI 대화 연구는 사용자와 챗봇이 일대일로 대화하는 상황에만 집중했다”며 “현실에선 친구와 음식점을 고를 때, 가족이 함께 병원을 예약할 때 등 다중 화자 상황이 많은데 이 분야에서 AI 성능을 검증하는 시도는 없었다”고 설명했다.
연구는 AI가 동시에 두 명의 사용자와 대화하는 상황에서, 대화 상태를 추적하는 DST(DST, Dialogue State Tracking) 성능을 검증했다. 두 번째 사용자의 발화는 언어학의 ‘화행 이론(Speech Act Theory)’을 학습한 AI 모델이 생성했다. 화행 이론은 ‘말’도 곧 ‘행동’이라는 관점에서 지시·제안·동의·반박 등 대화 행위를 학문적으로 정의한 것으로, AI 모델이 이를 학습해 자연스러운 다중 대화를 구현하게 한 것이다.
실험 결과, 일대일 대화 환경에선 안정적인 성능을 보이던 AI가 다중 대화 환경에선 성능이 급격히 떨어지는 것이 확인됐다. 송 엔지니어는 “여러 명이 대화할 때 AI가 특정 사용자의 의도를 파악하지 못하고 건너뛰거나, 없던 말을 지어내는 일종의 할루시네이션(거짓 정보 생성)이 생겼다”며 “AI가 다중 대화에선 누구의 의도를 우선해야 하며, 중요 의사결정이 무엇인지 파악하지 못함을 입증했다”고 말했다.
송 엔지니어는 “현행 AI 모델의 한계를 명확히 증명하는 것도 AI 연구에 있어 중요한 부분”이라며 “모델의 한계가 명확해질수록 그 한계를 극복하기 위한 발전 가능성도 커지기 때문에, 최근 AI 연구의 흐름은 LLM(대규모언어모델)의 발전만큼이나 그 한계에 대한 탐구로 확장되는 추세”라고 전했다.
음성·텍스트 융합, 모델 최적화…기술 방향성 제시
이번 연구는 GS네오텍의 AI컨택센터(AICC) 사업 고도화의 밑거름이 될 것으로 예상된다. 현재 GS네오텍은 금융·유통·공공기관 등 약 200여개 고객사의 컨택센터 구축·운영을 지원 중이며, 특히 클라우드 컨택센터 분야에서는 GS네오텍이 점유율이 70%에 이른다. AICC 사업은 회사 전체 매출의 약 20%를 차지할 정도로 중요도가 높다.
송 엔지니어는 “연구가 곧바로 상용 기술로 적용되긴 어렵지만, 이를 토대로 대화 상태 추적, 실시간 음성·텍스트 융합 처리, 모델 성능 최적화 등 기술 방향성을 잡았다”며 “여러 고객이 동시에 문의하는 상황이 생겼을 때, 우리가 이미 준비된 기술을 갖추고 있다면 큰 강점이 될 것”이라고 기대했다.
예컨대 배우자와 함께 은행 상담을 하는 상황이나 지인과 항공편 예약을 상의하는 상황 등 복잡한 다중 고객 상담에서 AI가 혼란에 빠지지 않고 정교한 응대를 하도록 개선점을 찾아낼 수 있는 것이다.
물론 AICC 고도화를 위해 아직은 넘어야 할 산이 많다. 송 엔지니어는 “가장 중요한 게 데이터 구축인데, 음성의 텍스트화나 개인정보 검열 등에 많은 비용이 들어간다”며 “주변 소음이 심하거나 사투리 억양을 알아듣지 못하는 등 AI의 음성 인식률 자체도 한계가 있다”고 분석했다. 따라서 이번 연구를 시작으로 향후 ‘자동 음성 인식(ASR)’ 분야에 연구 역량을 집중해, AICC 고도화에 기여하겠다는 계획이다.
송 엔지니어는 이번 학술 성과를 이끌어낸 동력에 대해 “기술의 사회적 가치를 끊임없이 고민해온 결과”라고 역설했다. 그는 “연구에만 매몰되지 않고 회사에서 개발 실무를 병행하다 보니, AI의 발전과 실제 서비스화 사이에 괴리감이 있다는 것을 체감하게 됐다”며 “무작정 AI 성능을 높이는 게 아니라, 어떻게 해야 도움이 되는 AI를 만들 수 있는지가 중요하다”고 지적했다.
출처 : 이데일리 권하영 기자 kwonhy@edaily.co.kr