통계개발원, 연구보고서 발간

통계청 통계개발원(SRI)인공지능(AI) 기반 통계 분류 자동화사업의 발판을 마련했다고 지난 3일 밝혔다.

통계개발원은 김혜란 사무관·임경민 주무관의 인공기능 기반 산업분류 자동화 연구결과를 실은 데이터 리서치 브리프 6를 이날 발간했다.

통계청은 통계를 작성할 때 조사 대상자의 텍스트 응답을 토대로 사업체가 속한 산업을 한국표준산업분류에 따라 분류하는데, 이때 산업·직업 자동코딩 시스템을 활용하고 있다.

자동코딩 시스템으로 연계되지 않는 자료는 별도 인력이 내용을 검토해 산업 분류를 결정하는 구조다.

하지만 확인 대상 자료 증가에 따른 업무 과부하, 담당 인력 간 숙련도 차이 등이 한계로 지적돼왔다.

통계개발원은 머신러닝 자연어 처리 기술을 활용해 기존 시스템의 사례사전(논리규칙)을 이용한 분류를 색인정보 임베딩과 지도학습 분류 모델로 대체하고, 색인어 사전 이용 분류는 사전학습 언어모델과 텍스트 추론 기반 분류항목 검색으로 대체하는 연구를 수행했다.

통계청 일부 조사자료에 이런 방법론을 적용한 결과, 대분류 수준에서는 95.9%, 중분류 93.8%, 소분류 91.4%, 세분류 88.9%의 정확도로 산업분류 부호를 예측할 수 있었다고 연구진은 밝혔다. 이는 AI 기반 산업 분류의 자동화 혁신 가능성을 제시하는 연구 결과라고 통계청은 평가했다.

저작권자 © 중소기업뉴스 무단전재 및 재배포 금지