2025. 7. 25. 19:14
반응형
빅데이터는 정말 다양한 형태와 주기로 생성되는 데이터를 의미합니다. 그중 정형 데이터(Structured Data)와 비정형 데이터(Unstructured Data)는 데이터를 구조에 따라 분류한 것입니다. 쉽게 예를 들어 설명해 드릴게요.
1. 정형 데이터 (Structured Data)
정형 데이터는 이름 그대로 정해진 형식과 구조를 가진 데이터를 말합니다. 보통 표(테이블) 형태로 깔끔하게 정리될 수 있으며, 각 항목(열)의 의미가 명확하게 정의되어 있습니다. 마치 엑셀 스프레드시트나 관계형 데이터베이스에 저장된 데이터처럼요.
예시:
- 고객 정보 데이터베이스:

- 이처럼 '고객 ID', '이름', '전화번호' 등 각 열의 의미가 명확하고, 각 행이 하나의 고객에 대한 정보를 담고 있어 규칙적으로 데이터를 관리하고 분석하기 쉽습니다.
- 쇼핑몰 주문 내역: 주문 번호, 상품명, 수량, 가격, 주문일자 등이 명확하게 구분되어 있는 데이터.
- 재무제표: 회사명, 매출액, 영업이익, 당기순이익 등이 정해진 양식에 맞춰 기록된 데이터.
- 센서 데이터 (특정 포맷): 온도, 습도, 압력 등 정해진 주기로 특정 단위로 측정되어 기록되는 데이터.
특징:
- 구조화: 미리 정의된 스키마(데이터의 구조)를 따릅니다.
- 관리 용이: 관계형 데이터베이스(RDBMS)에 저장하기 용이하며, SQL(Structured Query Language) 등을 이용해 쉽게 검색하고 분석할 수 있습니다.
- 분석 효율: 정해진 규칙이 있어 통계 분석이나 비즈니스 인텔리전스(BI) 등 정량적인 분석에 유리합니다.
2. 비정형 데이터 (Unstructured Data)
비정형 데이터는 정해진 형식이나 구조가 없는 데이터를 말합니다. 단순히 표 형태로 정리하기 어렵고, 데이터의 내용이나 크기가 매우 다양할 수 있습니다. 대부분의 빅데이터가 비정형 데이터에 해당하며, 컴퓨터가 바로 이해하기 어렵기 때문에 분석하기 위한 별도의 처리 과정이 필요합니다.
예시:
- 소셜 미디어 게시글:
- "오늘 점심은 파스타! 🍝 너무 맛있었어요 #먹스타그램 #점심 #일상"
- "와, 이번 영화 진짜 대박! 스토리 최고👍 #영화추천 #강력추천" 이 글들은 정해진 칸에 넣기 어렵고, 이모티콘, 해시태그 등 다양한 내용이 혼재되어 있습니다. 어떤 단어가 들어가고 길이가 얼마나 될지 예측하기 어렵죠.
- 이미지 파일 (사진): 풍경 사진, 인물 사진, 상품 사진 등 사진 자체는 어떤 규칙적인 구조를 갖지 않습니다. 사진 안에 무엇이 있는지 파악하려면 이미지 분석 기술이 필요합니다.
- 음성 파일 (녹음, 통화 내용): 사람의 목소리가 담긴 파일은 정해진 틀이 없습니다. 음성을 텍스트로 변환하거나 감정을 분석하는 등의 복잡한 처리가 필요합니다.
- 동영상 파일: 유튜브 영상, CCTV 영상 등은 시간의 흐름에 따라 영상과 음성이 결합된 형태이며, 그 내용이 매우 다양합니다.
- 이메일 본문: 이메일 제목이나 발신자, 수신자는 정형 데이터일 수 있지만, 이메일의 실제 내용은 자유로운 텍스트이기 때문에 비정형 데이터에 해당합니다.
- 웹 페이지 내용: 뉴스 기사, 블로그 게시물, 상품 리뷰 등 웹사이트에 있는 대부분의 텍스트 콘텐츠.
특징:
- 구조 없음: 미리 정의된 스키마가 없습니다.
- 다양한 형태: 텍스트, 이미지, 오디오, 비디오 등 매우 다양한 형태로 존재합니다.
- 분석 난이도: 그대로는 검색이나 분석이 어렵고, 자연어 처리(NLP), 이미지/음성 인식, 머신러닝 등 고급 분석 기술이 필요합니다.
- 높은 비중: 현재 생성되는 데이터의 대부분을 차지합니다.
결론적으로, 정형 데이터는 깔끔하게 정리된 표 형태의 데이터라고 생각하시면 되고, 비정형 데이터는 정리되지 않은 사진, 영상, 글 같은 데이터라고 이해하시면 쉽습니다. 빅데이터 시대에는 이 두 가지 데이터를 모두 효과적으로 수집하고 분석하는 것이 중요합니다.

왼쪽은 스프레드시트처럼 깔끔하게 정리된 정형 데이터를, 오른쪽은 이미지, 오디오, 비디오, 텍스트 문서 등이 혼재된 비정형 데이터를 보여줍니다.
반응형
'AI 관련 모음' 카테고리의 다른 글
| 디지털트윈에서 3D 레이저 스캔의 일정 주기에 대한 내용 정리 (1) | 2025.07.26 |
|---|---|
| 프로피버스(PROFIBUS)는 공장 자동화 분야에서 사용되는 디지털 통신 네트워크 프로토콜 중 하나입니다. (0) | 2025.07.26 |
| 디지털트윈에서 3D 레이저 스캔, 정지 스캔, 동작 중 스캔 관련 내용 (4) | 2025.07.25 |
| 디지털트윈에서 재조생산 기계가 동작 스캔할 때, 3D 레이저 스캐너장비로 하는것과 스캔 주기 일정에 대해 정리 (6) | 2025.07.25 |
| 디지터트윈이란 무엇인지 간단히 정의하고, 실시간 동작의 원리 정리 (7) | 2025.07.25 |
콘텐츠 내 자동삽입광고
