[이슈] 한국특허정보원, 특허분야 자연어 처리에 최적화된 언어모델 신규 AI 언어모델 ‘KorPatELECTRA’ 확대 보급

특허뉴스 이성용 기자 | 기사입력 2022/08/29 [09:01]

[이슈] 한국특허정보원, 특허분야 자연어 처리에 최적화된 언어모델 신규 AI 언어모델 ‘KorPatELECTRA’ 확대 보급

특허뉴스 이성용 기자 | 입력 : 2022/08/29 [09:01]

 

▲ ELECTRA의 학습방식(Replaced Token Detection)(출처=한국특허정보원)  © 특허뉴스

 

한국특허정보원(원장 강경호, 이하 정보원’)은 지식재산(IP) 분야에 특화된 고성능 인공지능 언어모델인 KorPatELECTRA를 확대 보급하겠다고 29일 밝혔다.

 

정보원은 지난해 AI 언어 모델 KorPatBERT를 공개한 바 있다. 올해 새롭게 보급하는 KorPatELECTRAGoogle에서 기존 언어모델 BERT 보다 학습 효율과 성능을 향상시키기 위해 개발한 최신 언어모델 ELECTRA를 기반으로 구축한 언어모델이다. KorPatELECTRA는 특허분야 한국어 자연어처리에 적합하도록 국내 특허문헌 약 466만건에 포함된 54천만 문장을 학습하여 구축했다.

 

기존 언어모델과의 성능 비교 결과 KorPatELECTRA는 개체명 인식과 기계독해 분야에서 뛰어난 성능을 보였으며, 이를 통해 지능형 IP정보서비스 구축 시 언어모델 선택의 폭을 넓혀 줄 수 있을 것으로 기대된다.

 

▲ 특허 분야별 성능평가 결과 / 개체명인식 및 기계독해는 F1-Score, 분류는 정확도(ACC)로 평가한 결과(자료출처=한국특허정보원)  © 특허뉴스

 

신규 언어모델의 상세한 구축 과정과 학술적 성과는 추가적인 연구로 확장될 수 있도록 논문발표를 통해 내용을 공유하였고, 연구의 우수성을 인정받아 관련 저널에 게재 되었다.

 

KorPatELECTRA 개요

 

KorPatELECTRA는 Google ELECTRA Base 모델의 아키텍쳐를 기반으로대량의 한국어 특허문헌 코퍼스를 사전 학습한 언어모델이다.

Google ELECTRA Base 모델은 BERT와 같은 일반적인 언어모델 사전학습 방식에서 학습 성능과 효율성을 향상시키기 위해 학습 방식을 개선한 모델이다.

 

▲ ELECTRA의 학습방식(Replaced Token Detection)(자료출처=한국특허정보원)  © 특허뉴스

 


KorPatELECTRA는 특허문헌 466만건(54천만 문장)을 활용해 사전 학습한 한국어 언어모델로요약특허청구 범위발명의 내용배경기술 등 일정한 형식과 틀로 구성된 전문화된 특허문헌을 더욱 잘 이해하도록 정보원 기술역량 기반의 특허분야 자연어 처리에 최적화된 언어모델이다특히특허분야 자연어 처리 영역에서 범용목적 모델 대비 더 효과적이며기존 KorPatBERT와 비교 시 서로 차별된 영역에서 높은 성능을 보여주어 특허 자동분류유사특허검색특허상담 기계독해, IP트랜드 분석 등 다양한 AI기술 기반 특허활용 태스크에 선택 적용이 가능하다.

 

 

▲ KorPatBERT Vs KorPatELECTRA 비교(자료출처=한국특허정보원)  © 특허뉴스



 

기존 KorPatBERT 사용 협약체결 기관·기업(35)을 대상으로 실시한 설문조사 결과를 바탕으로 보급절차를 간소화하였으며, 글로벌 오픈소스 공유 플랫폼인 깃허브(https://github.com/kipi-ai)를 통해 공개하여 관심 있는 기관·기업, 연구자 누구나 KorPatELECTRA를 이용할 수 있다. 또한 91일부터 개최되는 국제특허정보박람회(PATINEX)에서 신규 언어모델과 IP분야 디지털 혁신사례 및 활용 전략 등을 공개할 예정이다.

 

▲ 자료출처=한국특허정보원  © 특허뉴스

 

한편, 정보원은 AI 언어모델 개발에 그치지 않고, 이를 활용한 고품질의 특허분류 추천, 유사특허검색 시스템을 구현하였으며, 현재는 특정 언어에 구애받지 않고 시스템을 활용할 수 있도록 다국어 처리 기술에 대한 실증을 진행 중이다.

 

강경호 원장은 한국특허정보원의 특수법인 출범(8. 4)과 정부 디지털플랫폼정부정책에 발맞춰 IP분야 지능정보화 혁신을 위한 AI 모델 보급 및 기술이전을 지속적으로 추진하고, ·관이 함께 성장하는 혁신 생태계를 조성하여 지식재산 기반 기술강국으로 발돋움 하는데 중추적인 역할을 수행해 나갈 예정이다고 밝혔다.

 

KorPatELECTRA는 한국화학연구원, KISTI 국가슈퍼컴퓨팅센터, NIPA에서 연구비와 컴퓨팅 자원을 지원 받아 수행된 연구이다

이 기사 좋아요
  • 도배방지 이미지

한국특허정보원,특허분야,자연어,언어모델,신규AI,KorPatELECTRA,Google, 관련기사목록
광고