데이터 베이스

[DB 기초] 데이터처리 시스템

gurum 2021. 1. 8. 00:42

 

 

 

 


정보와 데이터


 

 

 

 

데이터(data)란 현실세계(real world)로 부터 단순한 관찰이나 측정을 통해서 수집된 사실(fact)이나 값(value)를 뜻한다.

이 데이터는 숫자로 표현되는 수치는 물론, 어떤 문자들로 표현되는 string, text, image, graphics도 포함된다.

 

정보(information)란 어떤 상황에대한 적절한 결정을 할수 있게하는 지식(knowledge)으로

데이터의 유효한 해석(interpretation)이나 데이터 상호간의 관계(relationship)을 말하는것이다.

 

+ 단순히 수집만 해 놓은 데이터는 사실상 무용한것이나 다름 없다.

 

 

 

 

정보는 데이터를 처리해서 얻어진 결과.

 

데이터 → 처리기(processor) → 정보

 

 

 

 

비유하자면, 카카오 열매를 딴것이 데이터(data), 카카오열매를 가공해 만든 초콜릿이 정보(information), 가공한 과정을 데이터 처리(processor)라고 할수 있다.

 

 

정보는 어떤 의사결정 과정에 반영되어 유용한 결과를 가져올 수 있을때 그 가지가 인정된다.

이를 위해서는 정확성(accuracy)현재성(currency)를 가지고 있어야한다.

 

정보의 기반이 되는 데이터는 정확하고 현재의 것이어야하며, 필요시에는 컴퓨터를 통해 언제라도 이용할수 있도록,

수집(collected), 조직(organized), 저장(stored)되어 있어야한다.

 

 

 

 

정보 시스템

 

조직체의 활동에 필요한 데이터를 수집, 조작, 저장 해두었다가 필요할때 처리하여 의사결정에 유효한 정보를 생성해 분배하는 수단을 뜻한다. 필요할때마다 유효한 정보를 생성해 분배하는 것.

 

 

 

현실세계 → 데이터 → 데이터 처리 → 정보 ↔ 의사결정

저장 데이터

 

 

 

 

하나의 전문적인 목적보다 여러가지 복합적이고 광범위한 의사 결정을 위해 통합적인 기능을 수행하는 정보시스템을

의사결정 지원 시스템(DSS)라고 한다.  대량의 데이터를 처리, 분석해 사용자의 의사결정을 지원한다.

 

이 시스템이 효율적으로 운영되기 위해 다양한 소스의 데이터를 별도로 추출해 관리하는것을

데이터 웨어 하우스(data warehouse)하고 한다.

 

네이버 지식백과 

 

데이터 웨어하우스의 규모가 대형화되고 복잡하게 될때, 관련된 데이터를 찾아내고 필요한 정보 또는 지식을 생성하는 과정을 데이터 마이닝(data mining)이라 한다. 데이터베이스 내, 대용량 데이터 속에서 유용한 정보를 발견하는 과정.

 

 

 

 

 

 

 

 

 


데이터처리 시스템


 

 

 

정보시스템의 핵심으로 컴퓨터가 직접 연관되어 있으며, 데이터 처리를 행하는 시스템의 총칭이다.

데이터의 처리형태, 데이터가 조직되고 접근되는 방법에 따라 일괄처리, 온라인 처리, 분산 처리 시스템으로 구분할 수 있다.  

 

 

 

 

 

일괄처리 시스템 (batch processing)

 

응용 특성상 데이터를 수집해 분류하고 정렬시킨 후, 일괄처리하는 데이터 처리 방법을 말한다.

즉, 유사한 *트랜잭션을 한데 모아 일정 시간에 한꺼번에 처리함으로써 사용자의 요구를 만족시키고, 시스템을 효율성을 높이는데 목적을 두고 있다.  이 방식은 처리 요건이 일괄적인 성격을 띠고 있는 업무처리 방식에 적합하다. 

여러가지 트랜잭션을 한데 모아 일괄적 처리를 하기 때문에 각 트랜잭션 당 처리 비용이 적게 들게되며,

시스템에서는 시간당 처리되는 작업 수가 많아 성능이 높아 진다. 

 

*트랜잭션 - 논리적 작업 단위, 하나의 단위로 처리 되어야하는 분리 될수 연산 그룹을 뜻한다.

 

 

 

그러나, 사용자 측면에서는 데이터가 즉시 처리되지 않아 대기해야한다는 단점, 일괄처리를 위해 여러가지 사전 준비

작업을 거쳐야 한다는 단점이 있다. 일괄처리를 위해선 먼저 원시 데이터(raw data)를 한 곳에 수집해 분류 한 후, 컴퓨터가 판독할 수 있도록 기록을 정리해 file에 수록한다.

 

 

 

원시 데이터 수집 → 분류, 정리 → 컴퓨터 → 보고서

                                       ↕

                                    화일

 

 

 

 

 

 

온라인 처리 시스템 (on-line processing system)

 

일괄처리 방식과 달리 사전 준비 없이 곧바로 데이터를 처리하는 방식을 뜻한다.

데이터는 생성되는 출처로부터 곧바로 컴퓨터에 전송되고, 전송된 데이터는 컴퓨터가 즉시 처리해 그 결과를 바로 보내주는 시스템이다. 처리 결과를 기다렸다가 바로 다음 의사결정에 반영할수 있기 때문에 온라인 실시간 처리 라고도 한다.

 

일괄처리 과정에서 데이터의 입력이 전송을 통해 직접 이루어진다면 온라인 처리라고 할수 있다. 다만, 입력되는 즉시 처리가 아닌 일정시간 일괄처리 되기 때문에 단순히 온라인 일괄 처리 시스템 이라고 한다. 

 

온라인 처리 시스템은 데이터 처리를 위한 대기시간이 없기 때문에 사용자 측면에서 아주 편리하다.

사용자 측면에서는 사용자 중심 처리 방식이라 하기도 한다. 온라인 처리 시스템은 데이터 오류도 입력시에 즉시 발견, 교정이 가능해 데이터 처리의 회전 주기를 단축 시킨다. 또한, 질의와 검색은 물론 갱신도 수행 가능하기 때문에 편리하게 데이터의 현재성을 유지해 효과적인 결과를 제공한다.

 

그러나, 이 시스템은 많은 원격 터미널들과 계속적으로 통신을 유지해야하고 이를 위한 통신 제어기가 필요하기 때문에  그 구조가 복잡해진다. 짧은 응답시간 제공을 위해서는 시스템이 계속 가동 상태여야 해 작업당 처리 비용이 높게 되는 원인이 되기도 한다. 또한, 가동상태에서는 프로그램 테스트나 보수 유지가 어렵다는 단점도 있다. 

 

 

 

 

 

 

 

분산처리 시스템 (distributed processing system)

 

지리적(물리적)으로 분산되어 있는 처리기와 데이터 베이스를 네트워크로 연결시켜 사용자는 마치 (논리적으로) 하나의 시스템을 사용하는 것처럼 데이터를 처리해주는 시스템이다. 분산처리기, 통신 네트워크, 분산 데이터 베이스로 구성

되어 있다.

 

분산처리기는 지리적으로 분산 설치되어 있는 복수의 컴퓨터, 지역 처리기(local processor)를 말한다. 그 지역에서 생성 저장되어 있는 데이터를 처리하는 지역 컴퓨터로서 하나의 독립된 데이터 처리 시스템의 중추역할을 한다.

 

통신네트워크는 지역적으로 분산되어 독립적으로 운영될수 있는 처리기들을 연결시켜, 자원을 공유하게 함으로써 논리적으로 하나의 시스템 같이 운영되도록하는 네트워크를 의미한다.

+ 통신 네트워크로 연결되어 있지 않고 분산된 시스템은 비중앙 집중 시스템이라 한다.

 

분산데이터 베이스는 데이터가 지리적으로 분산 저장되어 있는 형태의 데이터 베이스를 의미한다.

( 사용자 입장에서는 네트워크 내 모든 데이터는 논리적으로 하나의 데이터베이스로 취급되어 어떤 노드로 부터도 접근 가능해야한다.)

 

하나의 트랜잭션은 지역 처리기에 의해 완전히 처리되거나 일부만 처리될수 있다. 데이터를 처리해주거나 전송해주는 컴퓨터 처리기를 서버(server)라고 하며, 데이터의 처리나 전송을 요청하는 컴퓨터 처리기를 클라이언트(client)라 한다.

데이터 베이스가 지역적으로 분산 관리되고 있는 분산 시스템에서는 데이터의 처리 요구에 따라 클라이언트가되기도 하고 서버가 되기도 한다. 따라서, 클라이언트/서버 시스템으로 표현하기도 한다.

 

※ 분산처리 시스템이라고해서 각 시스템(노드)는 완전한 별개, 독립, 분할 통제가 아닌 한 구성원으로서 범 시스템적인     규정에 따라 통제를 받는다.