ㅁ 추진배경

  • 글로벌 정책동향 분석 업무는 미국, EU, 중국, 일본 등 주요국의 과학기술 분야 정책 및 기술자료를 모니터링/선별, 분석하여 동향자료 제공
  • 기존 추진 방법은 다음과 같은 한계점을 가지고 있어, 자료수집/선별/요약 등 업무 프로세스 효율화를 위해 AI 도구를 활용
  • 개별 자료원(웹사이트) 방문을 통해 자료를 수집해, 실시간 및 적시 수집에 어려움
  • 수집된 자료는 담당자의 주관적 판단에 따라 후속 분석 여부가 결정, 객관적 기준 적용은 미흡
  • 여러 개의 자료에 대한 요약 및 개괄적 정보 파악에 장시간 소요

ㅁ 추진방법

  • 데이터 자동수집(웹크롤러), 키워드/시멘틱 검색, 주제 및 트렌드 탐색(임베디드 토픽모델링), 토픽요약 및 시각화 기능 구현
  • 정책동향은 미/일/중/EU/국제기구 등의 자료원을 대상으로 하나, 이번 시스템 구축에서는 시범적으로 미국 대상 총 80여개 자료원 중 66개 자료원에 대한 자료수집 추진
자동 수집 주제 탐색 의사결정지원 자료 요약
webcrawling and newAPI Embedded topic modeling presenting main sources of topic Summary of contents using GPT

ㅁ 활용사례

  • (자동수집) 웹크롤러를 통해 Nov 20-Dec 04, 2023 기간동안 미국 66개 사이트(정부기관 36개, 연구기관 29개, 의회 1개)에서 392개의 정책자료 데이터 수집
  • (주제탐색) 임베디드 토픽모델링을 통해 수집된 자료에서 5개의 토픽을 분류
  • 공급망 확보, 국내외 사건 대통령 담화, 안보에 관한 정책, 지리적/군사적 협력 등 토픽 도출

<자료 수집 및 토픽모델링화면>

  • (주요자료 선정) (토픽1) ‘공급망 확보’ 주제 클러스터의 관련된 정책자료 중 백악관에서 발행한 ‘공급망 회복위원회 신설 및 공급망 강화’ 정책*을 주요 분석 자료로 선정 (의사결정지원)
  • * FACT SHEET: President Biden Announces New Actions to Strengthen America’s Supply Chains, Lower Costs for Families, and Secure Key Sectors

<토픽 요약 및 주요자료 제시>

<토픽 추이 및 주요자료원 및 토픽 비중>

  • (핵심내용 요약) 미국 백악관의 ‘FACT SHEET: President Biden Announces New Actions to Strengthen America’s Supply Chains, Lower Costs for Families, and Secure Key Sectors‘자료 PDF 파일을 원내 h2oGPT에 업로드하고 해당 자료를 선택후 투자, 조치 등 주요내용에 대해 요약

<h2o GPT의 원자료 PDF 요약>

ㅇ 요약내용을 참고해 글로벌정책·기술동향의 주요동향:과학기술 분야를 작성

<글로벌정책기술동향 243호 중 일부 발췌>

ㅁ 향후개선 사항

  • 시범구축의 용이성을 위해 크롤링이 용이한 사이트를 중심으로 구축, 또한 사용된 GPT 3.5 turbo의 성능을 고려해, 영문사이트를 대상으로 했으며, 토픽 요약시 긴 자료는 요약이 불가함
  • 향후 GPT 4.0 turbo 활용을 통해 PDF 접근성 향상, 긴 문서 요약, 중국어/일본어 사이트 등으로 범위를 확대할 필요

One Thought on “WebCrawling, ETM, GPT를 활용한 글로벌 정책동향 분석 업무 효율화 사례”

  • KISTEP 이 그동안 개발한 서비스들을 상호연결할 때 어떤 부가가치를 보여줄 수 있는지 잘 설명해 줬네요.
    앞으로 더 많은 사례들이 만들어지길 기대합니다.
    고맙습니다.

Leave a Reply