일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 애도의애도를위하여 #진태원
- 5.18 #광주항쟁 #기억 #역사연구
- 시대의어둠을넘어
- n번방
- 518광주민주화운동 #임을위한행진곡
- 죽음을넘어
- 코로나19 #
- 산업재해 #코로나시국
- 국가란 무엇인가 #광주518 #세월호 #코로나19
- BK21 #4차BK21
- 고려대학교언론학과 #언론학박사논문 #언론인의정체성변화
- 수료연구생제도 #고려대학교대학원신문사 #n번방 #코로나19
- 선우은실
- 임계장 #노동법 #갑질
- 쿰벵 #총선
- 심아진 #도깨비 #미니픽션 #유지안
- 김민조 #기록의 기술 #세월호 #0set Project
- 항구의사랑
- 권여선 #선우은실 #하늘 높이 아름답게 #김승옥문학상수상작품집
- 한상원
- 미니픽션 #한 사람 #심아진 #유지안
- 앙겔루스 노부스의 시선
- 고려대학교대학원신문사
- 마크 피셔 #자본주의 리얼리즘 #염동규 #자본주의
- 공공보건의료 #코로나19
- 알렉산드라 미하일로브로나 콜른타이 #위대한 사랑 #콜른타이의 위대한 사랑
- 보건의료
- 쿰벵
- Today
- Total
고려대학교 대학원신문
한국어-스페인어 기계 번역 평가 데이터 셋 구축과 활용 본문
4면 고대아카데미아
한국어-스페인어 기계 번역 평가 데이터 셋 구축과 활용
서어서문학과 서어학전공 황경진
목차
Part 1 서론
I. 서론
II. 이론적 배경
Part 2 연구 방법
III. 연구 방법
Part 3 기계 번역 평가 데이터 셋 구축
IV 어휘론과 평가 데이터 셋 구축
V 형태·통사론과 본 평가 데이터 셋 구축
VI 화용론·정보구조에서 본 평가 데이터 셋 구축
Part 4 전체 번역 품질 평가 방안
VII 데이터 셋을 활용한 번역 품질 평가 방안
VIII 한국어-스페인어 기계 번역 서비스 품질 평가 결과
IX 스페인어-한국어 기계 번역 서비스 품질 평가 결과
X 기계 번역 모델의 품질 평가 결과
Part 5 기계 번역 데이터 셋 활용 방안
XI 언어학 및 교육에서의 활용
XII 자연어처리에서의 활용
Part 6 결론
XIII 결론
참고문헌
<논문 요약>
본 연구는 한국어와 스페인어 간 양방향 기계 번역 평가 데이터셋을 언어학적 관점에서 구축하고, 그 활용 가능성을 모색하는 데 그 목적이 있다. 연구에서는 어휘론, 형태론, 통사론, 화용론, 정보구조의 다섯 가지 언어학적 기준을 엄격히 적용하여 데이터셋을 구성하였다. 이를 통해 단순한 정량 평가를 넘어, 번역문이 실제 언어 사용과 언어학적 특성을 얼마나 충실히 반영하는지를 면밀히 분석하고자 하였다.
평가 방법으로는 우선 전체 번역 성능을 평가하기 위해 BLEU 점수를 활용하였으며, 문장 단위에서는 문장 유사도, METEOR, BERTScore와 같은 정량 평가 지표를 적용하였다. 아울러, 데이터셋에 제시된 평가 항목에 맞춰 개별 번역문에 대한 정성적 평가도 병행하여 진행하였다. 이러한 다각적 평가 방식을 통해 각 기계 번역 시스템 및 모델의 특성과 한계를 보다 명확하게 도출할 수 있었다.
연구 결과, 한국어-스페인어와 스페인어-한국어 번역에서 ChatGPT가 대체로 가장 우수한 성능을 보인 반면, 구글 번역기는 상대적으로 낮은 성능을 나타냈다. 또한, 한국어-스페인어 번역에서는 DeepL이, 스페인어-한국어 번역에서는 네이버 파파고가 높은 성과를 보이는 등 번역 방향에 따라 성능 차이가 존재함을 확인하였다. 한편, 어휘론 및 형태론 측면에서는 파생어와 합성 신조어 번역이 원활하지 못한 문제, 통사론 측면에서는 이동 및 섬 현상으로 인한 어순 변화와 그로 인해 전달되어야 할 뉘앙스의 미흡한 표현이 주요 문제점으로 드러났다. 더불어 한국어의 복수 표지 ‘들’이나 스페인어의 소유 여격 구문 등 각 언어의 특수한 요소들이 번역 과정에서 제대로 반영되지 않은 사례도 관찰되었다. 기계 번역 모델 중 하나인 Helsinki NLP 모델 역시 평가 대상인 상용 번역 서비스들보다 낮은 성능을 보였으며, 특히 일상적으로 많이 사용되는 ‘핸드폰’과 같은 어휘의 번역 오류는 모델 훈련 코퍼스의 한계를 시사한다.
이와 같은 결과는 두 가지 중요한 시사점을 제공한다. 첫째, BLEU, 문장 유사도, METEOR, BERTScore 등 기존의 정량 평가 메트릭들이 실제 번역문의 정성 평가 결과와 완벽히 일치하지 않음을 보여준다. 이는 곧 이들 평가 지표가 언어의 실사용과 언어학적 요소를 충분히 반영하지 못하고 있음을 의미하며, 보다 정밀하고 다면적인 평가 방법론 개발의 필요성을 강조한다. 둘째, 각 기계 번역 서비스 및 모델이 지닌 강점과 약점을 구체적으로 분석함으로써, 향후 번역 모델 개선 및 새로운 시스템 개발을 위한 구체적인 방향성을 제시할 수 있다는 점이다.
또한, 본 연구에서 구축한 데이터셋은 기계 번역 평가를 넘어서 다양한 학문적 및 실용적 응용 가능성을 지닌다. 언어학 및 교육 분야에서는 두 언어 간의 구조적, 문화적 차이와 유사성의 교차 언어 분석을 통해 심도 있게 이해할 수 있는 자원으로 활용될 수 있다. 이로 인해 언어 교육자와 학습자에게는 한국어와 스페인어의 언어학적 특성을 파악하고, 이를 토대로 효과적인 작문 및 독해 교육 프로그램을 개발하는 데 기여할 수 있다. 더불어 번역학 영역에서는 번역 과정에서 나타나는 다양한 언어학적 양상을 분석하여 실질적인 사례 연구 자료 및 교육 자료로 활용할 수 있다.
나아가, 자연어처리(NLP) 분야에서는 본 데이터셋이 한국어-스페인어라는 저자원 언어쌍의 대역어 사전 구축, 기존 평가 메트릭의 한계를 극복한 새로운 평가 방법론 개발, 그리고 한국어-스페인어 및 스페인어-한국어 번역 모델의 개선 및 신규 모델 개발에 기여할 수 있는 초석으로 활용될 가능성이 크다. 종합하면, 본 연구는 언어학적 기준에 근거한 기계 번역 평가 데이터셋의 구축과 다각적 평가 방법을 통해 기존 번역 시스템의 문제점을 명확히 도출하고, 이를 바탕으로 향후 번역 기술의 개선 및 다양한 응용 분야에서의 활용 가능성을 제시하였다. 이러한 연구 결과는 기계 번역뿐만 아니라 언어 교육, 번역학, 그리고 자연어처리 기술 발전 전반에 걸쳐 의미 있는 기여를 할 것으로 기대된다.
<저자 인터뷰>
(1) 해당 전공을 선택하시게 된 계기가 궁금합니다.
학부시절 서어학 강의를 들으며 단순히 외우며 배우던 문법 규칙을 언어학적으로 공부하니 이해가 너무 잘 되는 점이 흥미로웠고, 일상에서 무심코 사용하는 언어를 분석하는 것에 대한 흥미를 느꼈습니다. 단순히 이렇게 서어학에 대한 학문적인 열망으로 대학원에 진학했습니다.
대학원에서 우연히 딥러닝과 파이썬을 공부하게 되었고 이를 스페인어 언어학과 결합하여 연구하고 싶었습니다. 특히 저는 기계가 언어를 처리하는 방식에 매료되었고 이를 통해 무심코 사용했던 챗봇이나 구글 번역기의 원리를 이해하게 되었으며, 자연어처리 모델들이 실생활에 적용되는 모습을 보며 그 연구를 통해 사회의 발전에 기여하고 싶었습니다.
(2) 논문 주제를 선정하시게 된 이유와, 논문을 통해 독자들에게 꼭 전달하고자 했던 내용에 대한 설명을 부탁드립니다.
인공지능의 최종적인 목표는 사람과 같이 사고하고 소통하는 것이라고 생각합니다. 그런데 아직 인공지능은 우리가 사용하는 언어의 미묘한 뉘앙스나 특성들을 완벽히 구현하지 못하고 있습니다. 이러한 점은 번역에서 특히 두드러지게 나타납니다. 스페인어와 한국어의 미묘한 뉘앙스와 차이를 이해하고 번역하는 인간의 번역과 달리 기계 번역은 그 한계가 뚜렷하죠. 따라서 저는 언어학자로서 이러한 문제의식을 가지고 언어학적인 관점에서 기계번역 모델을 구현하고 평가하는 방식에 대한 연구를 하게 되었으며, 그를 기반으로 한 박사논문 주제를 선정하게 되었습니다. 논문을 쓰면서 누군가가 한국어와 스페인어 기계 번역 모델을 개발한다면, 혹은 누군가가 사용하는 인공지능의 번역기가 믿을 만한지 알고 싶다면 어떤 식으로 번역이 이뤄져야 하는지에 대한 가이드를 주고 싶었습니다. 그리고 더 나아가 인공지능이 한국어와 스페인어를 인간처럼 번역하기 위해선 어떤 기준으로 어떻게 번역이 이뤄져야 하는지에 대한 방향을 제시하고 싶었습니다.
(3) 논문을 쓰는 과정에서 어려움이 있었다면 어떤 것들인가요?
흔히 ‘혼혈’인 아이들이 어디에도 속하지 않는 것 같다는 정체성의 혼란을 겪는다고 하죠. 스페인어 언어학과 자연어처리라는 융합적인 성격의 연구를 하다 보니, 학문적인 정체성의 혼란을 많이 겪었던 것 같습니다. 언어학과 컴퓨터 공학의 연구와 논문의 스타일은 너무 달랐고, 둘 중 한 분야만 전공하신 분께 조언을 구할 때 반대 분야에 대한 내용을 자세히 설명을 해드려야 하는 점이 어려웠습니다. 따라서 저는 더더욱 지도교수님뿐만 아니라 많은 교수님과 전문가들을 만나 조언을 구했습니다. 이렇게 너무나도 다른 두 분야를 연구하고 논문을 써야 했기 때문에 항상 경계선을 줄타기하며 연구하는 느낌이 들었고, 그 중심을 지키며 연구를 풀어가는 것이 가장 어려웠던 것 같습니다.
(4) 논문 쓰기를 앞둔 후배들에게 조언 한마디를 부탁드립니다.
논문을 쓰는 과정이 짧지 않기 때문에 막막하게 느껴질 때가 많습니다. 그리고 이 논문을 어느 정도까지 깊이 써야 하고, 그 내용을 어디까지 포함해야하는지에 대해 길을 잃을 때가 많습니다. 그때마다 지도교수님이신 이재학 교수님께서 저에게 해주신 조언을 떠올렸어요. “박사 논문을 쓴다는 것은 첫째로 네가 이러한 연구를 하고 있다고 세상에 알리는 것이고, 둘째로 네가 스스로 지도교수의 도움 없이 연구를 풀어나가고 논문을 쓸 수 있다는 것을 증명하는 것이다”라는 말씀이었죠. 박사논문이 엄청 무겁고 대단한 게 아니라 단순히 내가 하는 연구에 대해 알린다는 생각으로 쓴 것이 부담을 덜어내는 데 도움이 되었습니다. 그리고 시행착오로 좌절할 때마다 스스로 연구하여 논문을 작성하는 연습을 한다는 생각이 마음을 다잡는 데 도움이 되었습니다. 논문을 쓰는 여러분들도 박사논문이 갖는 의미를 생각하며 논문을 쓰신다면 어려움을 겪을 때마다 풀어나가고 마음을 추스르는 데 큰 도움이 될 것 같습니다.
■인터뷰·정리 : 김민준 기자 kmj0806@korea.ac.kr
'4면 > 고대 아카데미아' 카테고리의 다른 글
고용상 복합차별에 관한 연구 (0) | 2025.04.07 |
---|---|
도스토옙스키의 『악령』연구 : 서사윤리를 중심으로 (3) | 2024.12.27 |
박정희 정권기 인구분산정책의 추진과 성격 (4) | 2024.11.07 |
한국전쟁 이후 비전향장기수 사상전향체제 분석 (0) | 2024.10.15 |
전시체제기 일본 내 조선인 탄광 노동자의 노동 통제 실태와 임금 수탈 (0) | 2024.09.10 |