첫 화면 메뉴 바로가기 본문 내용 바로가기

한국저작권위원회

인기검색어
폰트, 음악, PPT, 일러스트
전체 메뉴
닫기

저작권 산업기술 동향

저작권 산업기술동향 상세보기
제목 [뉴스레터] 6월 4주 : 1. 최근의 표절논란과 유사도 검색 시스템
담당부서 저작권기술팀 이민선 등록일 2015-06-29

1. 최근의 표절논란과 유사도 검색 시스템

 

□ 배경

○ 인터넷의 발달과 콘텐츠 공유기술의 발달로 인해 사회 각 분야에서 표절문제는 중요한 사회 문제가 되어가고 있다.

○ 2005년 황우석 교수 논문 표절 사태 이후 국내 많은 대학들은 논문 표절 검색 시스템을 도입했으며, 도입한 표절 검색 시스템의 핵심기술은 유사도 검색 시스템 기술이다. 유사도 검색 시스템은 웹 상의 데이터나 특정 데이터 셋과 비교하고자 하는 대상의 유사도를 비교 평가해 주는 시스템이다.

○ 국내 기업으로는 카피킬러 (https://www.copykiller.co.kr/) 라는 기업이 대표적인 유사도 측정 시스템 제공기업이며, 카피 킬러에서는 인터넷 정보와의 비교, 특정 문서와의 비교, 표절률 등을 찾아주는 기능을 제공하고 있다.

   

 

□ 주요 내용

○ 지난 6월 20일 JTBC는 소설가 신경숙씨의 소설 표절 문제를 다루는 뉴스를 보도하면서 논문 표절 검색 시스템을 활용하여 검사한 결과 알려진 부분보다 많은 20군데 이상의 표절 의심 부분이 발견되었다고 보도했다.

► 이는 기존에 보도되었던 평론가들이 지적한 표절 의심 부분보다 상당히 많은 부분이 더 표절이 의심된다는 결과를 보여주며, 시스템을 통한 표절 검사가 사람이 직접하는 표절 검사보다 정밀한 표절 검색을 제공할 수 있음을 보여주는 예가 된다.

○ 6월 4일에는 OSM (http://www.onlinesocialmedia.net/)에서 무료로 웹 상에서 활용이 가능한 유사도 검색 시스템을 소개하는 기사가 보도되었다. OSM에서 대표적으로 소개하고 있는 사이트는 아래와 같다.

► Grammarly (https://www.grammarly.com/plagiarism): 웹을 통해 활용할 수 있는 유사도 검사 시스템으로 8백만 웹 사이트 내의 콘텐츠와 비교 분석을 제공하며, 특정 파일을 업로드하여 유사도를 측정할 수 도 있다.

► Duplichecker (http://www.duplichecker.com/): 400만명 이상의 학생들에게 활용되는 웹 기반의 유사도 체크 시스템으로 1,000 단어의 문장에 대한 표절 여부를 판별해 준다.

► PlagiarismChecker.com (http://www.plagiarismchecker.com/): 선생님들이 활용하기 좋은 사이트로 학생들의 레포트가 인터넷으로부터 복사 한 부분을 찾아주는 역할을 한다. 32단어를 기준으로 그 이상이 유사하면 유 사도 필터에 검색이 된다.

○ 중앙일보에서는 6월 18일에 유사도 검색 시스템을 다른 형태로 이용하는 기사를 보도했는데, 기술신용보증기금에서 기술 공급자와 수요자간 매칭 시스템 (KTMS)에서 활용한 사례를 보도했다.

► 기술 공급자는 자신의 기술에 대한 내용을 기술하고, 기술 수요자들은 자신이 필요로 하는 기술을 기술한 후 ‘교집합’을 유사도 검색을 통해서 찾아내는 방식의 시스템 이다.

○ OSM과 중앙일보의 유사도 검색 시스템에서 활용된 기술은 문장과 단어 기반의 유사도 검색 시스템이다. 유사도 검색 시스템 기술 중 유사도 검색율이 가장 높은 기술이기는 하지만, 문장과 단어 중심의 표절 밖에 잡아 낼 수 없다는 한계를 지니고 있다.

   

 

□ 평가

○ 표절을 판별하기 위한 유사도 검색 기술은 다양하게 발전하고 있는데 이를 요약하면 아래와 같다.

► 핑거프린팅 기반 기술: 문장을 바이너리 데이터나 메타데이터 형태로 표현한 후 특정한 패턴을 찾아내고 그 패턴과 유사한 패턴을 찾아내는 방식의 유사도 검색 시스템이다. 문장이나 단어의 표절은 물론 좀 더 교묘한 유사한 문장의 활용 등의 표절 등을 잡아 낼 수 있다.

► 문자열 매칭 기술: 직접적인 문자와 문장을 비교하여 유사도를 평가하는 방법으로 유사한 문서를 검색하는데 가장 높은 효과를 보이는 방법이다.

► 단어들의 집합 활용기술: 미리 정의된 단어의 유사성 데이터베이스를 활용하여 유사한 단어가 활용되었는지 아닌지를 판별하여 표절여부를 판별하는 시스템이다. 핑거프린팅기반 기술과 유사한 정도의 표절 효과를 보인다.

► 참고문헌 분석기반 기술: 논문이나 학술 문서에 적합한 분석 기술로 참고문헌을 중심으로 유사도를 찾아가는 방식이다. 다른 기술들과는 다르게, 범위가 좁은 대신에 아이디어나, 번역을 통한 표절 등을 잡아 낼 수 있는 특징을 가진다.

► 통계 기반의 저작권자 추론 기술 (Stylometry): 어떠한 글을 작성하는 저자들의 글 쓰는 스타일을 수치화하여, 이 수치화된 데이터와 비교 문서 간의 유사도를 측정하는 시스템으로 아직 일반화 되지는 않은 시스템이다. 현재까지는 낮은 유사도 측정 결과를 보여주고 있는 기법이다.

○ 현재는 표절을 막기 위한 기술보다는 저작물에 대한 표절을 검출하는 기술 중심으로 유사도 검색 기술이 발전하고 있다. 이는 표절이라는 행위 자체가 도덕적 책임감에 기반하여 일어나는 행위임을 감안하여 동기보다는 결과를 중요시한 기술 발전이 이루어지고 있다고 생각된다.

○ 최신 표절관련 유사도 검출 시스템 기술이 저작물의 단어나 문장에 대한 표절뿐만 아니라 최종적으로는 저작자의 아이디어의 도용까지 검출하는 방향으로 발전이 진행되고 있음을 감안하면, 앞으로 표절을 검출하기 위한 시스템의 활용도는 점점 더 높아질 것으로 예상된다.

○ 또한 웹과 네트워크를 통한 데이터의 공유가 활발해 질수록 더욱 많은 표절 문제들이 발생할 것으로 예상된다.

   

 

□ 용어정의

○ 메타 데이터: 특정 데이터를 표현하기 위해 활용되는 데이터이다. 예를 들면, 한글 파일 (HWP) 파일에서 텍스트 외의 표, 그림 위치, 글자체 등을 표현하는 메타데이터와 텍스트 데이터가 결합되어 HWP 파일이 구성되는 것이다.

   

 

□ 참고자료

http://www.onlinesocialmedia.net/20150604/best-tool-to-check-plagiarism-online

https://en.wikipedia.org/wiki/Plagiarism_detection

http://joongang.joins.com/article/076/18050076.html?ctg=1603

http://news.jtbc.joins.com/article/article.aspx?news_id=NB10934053&pDate=20150620