1. 제안 배경
AI 산업의 핵심은 양질의 데이터 확보와 활용에 있으며, 정부 및 공공기관이 보유한 방대한 문서 데이터는 AI 산업 발전의 소중한 자원입니다. 그러나 현재 정부 및 공공기관에서 주로 사용하는 HWP 문서 포맷은 AI 학습 및 활용에 적합하지 않습니다. AI 발전에 국가적 역량을 집중해야 하는 현 시점에서 공공문서 포맷 전환을 검토할 필요가 있습니다.
2. 문제점
- HWP는 전용 소프트웨어 외에서는 접근이 어려워 AI나 데이터 처리 시스템이 문서 내용을 자동으로 추출하고 학습하는 데 제한이 있습니다. 이는 결과적으로 한국어 공공문서에 대한 학습데이터 감소로 이어집니다.
- 학습 가능한 데이터 부족은 국내 AI 산업 발전에 부정적인 영향을 줍니다. 특히 공공문서 학습데이터 감소는 공공영역에서의 AI 혁신을 현저히 저하시킬 가능성이 있습니다.
- 또한 민간에서 AI를 활용한 공공영역에 대한 감시역량도 떨어지게 됩니다.
3. 제안 내용
- 모든 공공문서, 정책문서, 보고서의 배포 및 공개 시 기본 포맷을 PDF로 통일합니다. 가능하다면 TXT나 CSV파일 등 컴퓨터가 읽기 쉬운 문서 포맷을 병행하도록 합니다.
- 입력이 필요한 문서 서식은 입력서식이 추가된 PDF를 활용하거나, HWP, Word 포맷을 추가적으로 제공하도록 합니다.
- 기존 HWP 기반 내부 문서도 순차적으로 표준화된 형식으로 변환해 공개 대상을 확대합니다.
- 구조화가 가능한 결재문서, 법안 등은 AI 활용을 고려하여 JSON 등 구조화된 포맷을 병행 제공하도록 합니다.
4. 기대 효과
- AI 산업계의 공공데이터 활용이 비약적 증대됩니다.
- 자연어처리, 문서요약, 번역, 검색 등 고부가가치 AI 서비스 개발을 가속화합니다.
- 정부가 보유한 공공정보가 죽은 데이터에서 살아있는 자산으로 전환됩니다.
- 산업·학계의 R&D 활동에 기초 데이터를 안정적으로 공급함으로써 경쟁력을 강화시킵니다.
댓글 -
정렬기준
0/300