flimofoil

데이터 마이닝(Data mining) 본문

타 산업

데이터 마이닝(Data mining)

굥도 2021. 1. 7. 15:38

데이터 마이닝이란, 간단히

많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 말한다.


수많은 축적된 데이터들로 관련되어진 자료가 실제 업무 현장의 다양한 특성을 반영하고 있기 때문에 그 속에는 관련된 기업들이 미처 발견하지 못한 귀중한 정보와 기업의 발전에 도움이 될 만한 정보가 숨어 있다.

데이터 마이닝을 통해 우리가 원하는 정보를 어떠한 방법으로 해석하고 분석할 수 있느냐가 중요한 연구과제.

데이터 마이닝 절차

데이터 마이닝의 일반적인 절차

데이터 -(선정)-> 목표 데이터 -> 사전처리 -> 변형 -(데이터 마이닝)-> 패턴 -(해석 및 평가-> 지식

 

ㅇ 데이터 마이닝 기법

    - 군집 분석(Cluster Analysis)

      어떤 개체나 대상들을 밀접한 상사성 또는 거리에 의하여 유사한 특성을 지닌 개체들을 몇 개의 소 군집으로 집단화

      분명한 분류기준이 없거나 알려져 있지 않은 상태에서 활용 가능)

 

    - 신경망(Neural Network)

      인간 두뇌의 신경세포를 모방한 개념으로 마디(node)와 고리(link)로 구성된 망 구조를 모형화하고 의사결정나무와

      마찬가지로 과거에 수집된 데이터로부터 반복적인 학습과정을 거쳐 데이터에 내재되어 있는 패턴을 찾아내는 모델

      적용할 수 있는 문제의 영역이 의사 결정나무나 통계기법들에 비해 넓다.

      장점으로는, 연구의 대상이 되는 모형에 대한 어떠한 가설과 변수에 대한 정의도 필요하지 않다.

      단점으로는, 이러한 솔루션이 왜 유효한지에 대한 어떠한 통찰력도 제공하지 못함.

 

    - 의사결정나무(Decision Tree)

      데이터마이닝의 분류작업에 주로 사용되는 기법으로 데이터의 레코드들을 분석하여 이들 사이에 존재하는 패턴과

      부류별 특성을 속성의 조합으로 나타내는 분류모형을 나무의 형태로 만드는 것.

      장점으로는, 분류나 예측의 근거를 알려주기 때문에 이해하기가 쉽다.

                      데이터 선정이 용이하다.

                      연속형 명목형 모두 가능하다.

                      어떠한 속성들이 각각의 분류값에 결정적인 영향을 주는가를 쉽게 파악할 수 있다.

      단점으로는, 연속형 데이터의 처리 능력이 신경망이나 통계기법에 비해 떨어지며 결과적으로 예측력도 감소.

 

ㅇ 관련분야

    - KDD(Knowledge Discovery in Databases)

      지식을 추출하는 전 과정, 탐사 단계

    - 기계학습(Machine learning)

      인공지능의 한 분야로 자동적인 학습기법 설계 및 구현분야

    - 패턴인식(Pattern recognition)

      데이터베이스에서 패턴을 찾아내는 다양한 기법 제공 분야

    - 뉴로컴퓨팅(Neurocomputing

'타 산업' 카테고리의 다른 글

ESS(Energy Storage System, 에너지저장장치)  (0) 2021.01.10
태양광 발전  (0) 2021.01.09
라이다(Lidar)  (0) 2021.01.02
Comments