이 글의 정보들은
데이터베이스 개론
과면접을 위한 CS 전공지식 노트
교재를 공부하면서 정리한 내용을 토대로 작성하였습니다.
key
는 테이블 간의 관계를 조금 더 명확하게 하고, 관계 데이터 모델에서 중요한 제약조건을 정의한다.
또한 튜플을 처리하는 데 중요한 역할을 하므로 키의 개념을 정확히 이해할 필요가 있다.
관계 데이터 모델에서는 키를 다음과 같이 슈퍼키
, 후보키
, 기본키
, 대체키
, 외래키
의 다섯 가지로 분류할 수 있다.
슈퍼키
는 유일성의 특성을 만족하는 속성 또는 속성들의 집합이다. 유일성
은 키가 갖추어야 하는 기본 특성으로, 키 값이 같은 튜플은 존재할 수 없다.예를 들어 [그림 5-2]의 고객 릴레이션에서 고객아이디
속성은 모든 고객 튜플마다 값이 다르고 이를 통해 다른 튜플과 유일하게 구별할 수 있으므로 슈퍼키가 될 수 있다.
그러나 다른 속성(나이, 등급, 직업, 적립금)은 값이 같은 고객이 있을 수 있으므로 유일성을 만족시키지 못해 슈퍼키가 될 수 없다.
고객 아이디
속성만으로도 모든 튜플을 구별할 수 있기 때문에 고객 아이디를 포함하는 속성 집합은 모두 슈퍼키가 될 수 있다.
후보키
는 유일성과 최소성을 만족하는 속성 또는 속성들의 집합이다. 최소성
은 꼭 필요한 최소한의 속성들로만 키를 구성하는 특성이다. 그러므로 하나의 속성으로 구성된 키는 당연히 최소성을 만족한다.
슈퍼키 중에서 최소성을 만족하는 것이 후보키가 된다. [그림 5-2]의 고객아이디
속성은 단독으로 고객 튜플을 유일하게 구별할 수 있으므로 후보키가 될 수 있다.
후보키를 만족하기 위해서는 새로운 튜플이 삽입되거나 기존 튜플의 속성 값이 바뀌어도 유지되어야 한다.
여러 후보키 중에서 기본적으로 사용할 키를 반드시 선택해야 하는데 이것이 기본키
다.
후보키가 1개일 경우에는 해당 후보키가 기본키로 선택하고, 후보키가 여러개일 경우에는 데이터베이스 사용 환경을 고려해서 적합한 것을 기본키로 선택하면 된다.
선택한 기본키는 [그림 5-6]과 같이 속성 이름에 밑줄을 그어 표헌한다.
기본키를 선택할 때 고려하면 도움이 되는 기준 몇 가지를 정리했다.
널 값을 가질 수 있는 속성이 포함된 후보키는 기본키로 부적합하다.
값이 자주 변경될 수 있는 속성이 포함된 후보키는 기본키로 부적합하다.
단순한 후보키를 기본키로 선택한다.
기본키 선정 과정
은 대학에서 학생회장을 선발하는 과정과 유사하다. 대학에 다니는 학생들(슈퍼키) 중에서 학생회장이 될 만한 자격을 갖춘 후보 학생(후보키)을 추천한 다음, 지지를 가장 많이 받은 한 명의 학생(기본키)을 학생회장으로 임명하는 과정으로 이해하면 된다.대채키
는 기본키로 선택되지 못한 후보키들이다.[그림 5-8]은 하나의 릴레이션에서 볼 수 있는 슈퍼키, 후보키, 기본키, 대체키의 관계를 그림으로 표현한 것이다.
이 외에도 다른 릴레이션과 관계에서 고려할 수 있는 외래키가 있다.
외래키
는 어떤 릴레이션에 소속된 속성 또는 속성 집합이 다른 릴레이션의 기본키가 되는 키다.
다시 말해 다른 릴레이션의 기본키를 그대로 참조하는 속성의 집합이 외래키다.
외래키가 다른 테이블의 대체키를 참조하는 것도 가능하다.
기본키로 선택받지 못했지만 유일성과 최소성을 만족하는 대체키를 참조하더라도 **관련 있는 튜플을 구분할 수 있기 때문**이다.
[그림 5-9]에서 고객 릴레이션은 속성이 6개이고, 고객 아이디
속성이 기본키다. 주문 릴레이션은 속성이 6개이고, 주문번호
속성이 기본키다.
여기서 주문 릴레이션의 주문고객 속성이 고객 릴레이션의 기본키인 고객 아이디
속성을 참조하면 주문고객
속성을 외래키라고 한다.
코딩테스트 연습 > 깊이/너비 우선 탐색(DFS/BFS)
class Solution {
int [] numbers;
int target;
int answer;
void dfs(int index, int sum) {
//1. 탈출 조건
if(index == numbers.length) {
if(sum == target) answer++;
return;
}
//2. 수행 동작
dfs(index + 1, sum + numbers[index]);
dfs(index + 1, sum - numbers[index]);
}
public int solution(int[] numbers, int target) {
answer = 0;
this.numbers = numbers;
this.target = target;
dfs(0, 0);
return answer;
}
}
수행 동작 : 인덱스 값은 현재 인덱스에 하나를 더하거나 뺀 값으로 넘겨주면 된다. => index + 1 또는 index - 1
왜냐하면 경우의 수가 2가지(+ 또는 -)이기 때문이다.
sum 에는 numbers[index]를 더하거나 빼주면 된다. (즉 여테까지 만들어진 누적합에 현재 index 번째 숫자를 더해서 다음 dfs 함수를 call 해주는 의미)
탈출 조건 : 재귀함수는 영원하게 불러주기 때문에, 탈출 조건은 현재 재귀함수가 call된 인덱스(depth 길이)가 numbers.length만큼 되면 빠져나오기로 한다.
이 글의 정보들은
데이터베이스 개론
과면접을 위한 CS 전공지식 노트
교재를 공부하면서 정리한 내용을 토대로 작성하였습니다.
RDB
는 키(key)와 값(value)들의 간단한 관계를 테이블화 시킨 매우 간단한 원칙의 전산정보 데이터베이스이다.
관계 데이터베이스 모델의 주요 이점은 직관적인 데이터 표현 방법을 제공하고 관련 데이터 포인트에 쉽게 접근할 수 있다는 점이다.
관계 데이터베이스를 사용하면 데이터를 관리하고 저장할 때 다음과 같은 여러 가지 장점이 있다.
RDB
의 장점
[1] 정형화된 데이터를 저장하기 때문에 데이터의 형태와 크기를 미리 정하고 테이블 단위로 구분하여 데이터를 저장할 수 있다.
[2] 트랜잭션을 통해 ACID (원자성, 일관성, 격리성, 지속성)를 보증하여 안정적인 데이터 관리가 가능하다.
[3] 조인을 포함해 복잡한 조건을 포함하는 데이터 검색이 가능하다. (복잡한 질의 처리 가능)
[4] 데이터베이스 정규화 : 관계 데이터베이스는 데이터 중복성을 줄이고 데이터 무결성을 개선하는 정규화
라는 설계 기법을 사용한다.
RDBMS
란 행과 열을 가지는 표 형식 데이터를 저장하는 형태의 데이터베이스를 가리키며 SQL
이라는 언어를 써서 조작한다.
RDBMS 종류에는 MySQL
, PostgreSQL
, Oracle
, Microsoft SQL Server
, MariaDB
등이 있다.
DBMS
는 다음과 같다.관계 데이터베이스의 경우 표준 SQL은 지키기는 하지만, 각각의 제품에 특화시킨 SQL
을 사용한다.
MySQL
은 대부분의 OS(운영체제)와 호환되며 현재 2위로 많이 사용하는 데이터베이스 관리 시스템이며 메타, 트위터 등 많은 기업에서 MySQL를 사용하고 있다.
C, C++로 만들어졌으며 MyISAM 인덱스 압축 기술, B-tree 기반의 인덱스, Thread 기반의 메모리 할당 시스템, 매우 빠른 조인, 최대 64개의 인덱스를 제공한다.
대용량 데이터베이스를 위해 설계되어 있고 롤백, 커밋, 이중 암호 지원 보안등의 기능을 제공하며 많은 서비스에서 사용한다.
MySQL의 스토리지 엔진 아키텍쳐는 다음과 같다.
데이터베이스의 심장과도 같은 역할을 하는 곳이 바로 스토리지 엔진
인데, 모듈식 아키텍쳐로 쉽게 스토리지 엔진을 바꿀 수 있으며, 데이터 웨어하우징, 트랜잭션 처리, 고가용성 처리에 강점을 두고 있다.
스토리지 엔진 위에는 커넥터 API
및 서비스 계층
을 통해 MySQL 데이터베이스와 쉽게 상호 작용할 수 있다.
또한, MySQL은 쿼리 캐시를 지원해서 입력된 쿼리 문에 대한 전체 결과 집합을 저장하기 때문에 사용자가 작성한 쿼리가 캐시에 있는 쿼리와 동일하면 서버는 단순히 구문 분석, 최적화 및 실행을 건너뛰고 캐시의 출력만 표시한다.
하지만 MySQL에는 단점들이 있다.
복잡한 쿼리를 사용할 때에는 성능 저하를 일으킨다.
트랜잭션 지원이 완벽하지 않다.
사용자정의 함수의 사용이 쉽지 않고 유연하지 않는다.
PostgreSQL
역시 개발자들이 선호하는 데이터베이스 기술로 널리 인정받고 있다.(세계 4위)PostgreSQL 은 수년간 압도적인 성장 속도를 보여주며 3위와의 격차를 좁혀나가고 있다.
PostgreSQL의 특장점은 다음과 같다.
[1] 라이선스에 대한 비용 문제가 전혀 없다. - BSD 라이선스이며, 라이선스의 가장 큰 특징은 소스를 변경하고 그 소스를 숨긴 채 재배포 해도 법적으로 문제가 없다는 점이다.
[2] 오래된 오픈소스의 안정성 - 매우 가볍게 돌아가는 데이터베이스지만, 대용량 데이터의 처리에도 큰 문제점이 발견되지 않았고, 표준SQL 잘 따르고있다.
[3] 여전히 발전중인 데이터베이스 - PostgreSQL은 생각보다 빠른 속도로 업데이트를 지속하고 있다.
[4] 장점이자 단점인 독창적인 자료형 및 문법 - 장애 시 참고자료로 국내자료에서 쉽게 찾아볼 수 없다. ostgreSQL의 최근 버젼들이 오류메시지를 한글화해서 보여주면서, 한글 오류를 해외 레퍼런스에서 검색하는데 있어 많은 어려움을 겪기도 했다.
import java.util.*;
class Solution {
public int solution(String str1, String str2) {
//[1]
ArrayList<String> list1 = new ArrayList<>();
ArrayList<String> list2 = new ArrayList<>();
ArrayList<String> intersection = new ArrayList<>();
ArrayList<String> union = new ArrayList<>();
double jaccard = 0;
//[2]
str1 = str1.toLowerCase();
str2 = str2.toLowerCase();
//[3]
for(int i = 0; i < str1.length()-1; i++) {
char first = str1.charAt(i);
char second = str1.charAt(i + 1);
if((first >= 'a' && first <= 'z') && (second >= 'a' && second <= 'z')) {
list1.add(first + "" + second);
}
}
for(int i = 0; i < str2.length()-1; i++) {
char first = str2.charAt(i);
char second = str2.charAt(i + 1);
if((first >= 'a' && first <= 'z') && (second >= 'a' && second <= 'z')) {
list2.add(first + "" + second);
}
}
for(String s : list1) {
if(list2.remove(s)) {
intersection.add(s);
}
union.add(s);
}
for(String s : list2) {
union.add(s);
}
//[4]
if(union.size() == 0) {
jaccard = 1;
} else {
jaccard = (double)intersection.size() / (double)union.size();
}
//[5]
return (int)(jaccard * 65536);
}
}
문제 설명 요약 : 자카드 유사도를 구하는 문제인데, 자카드 유사도의 값은 교집합 / 합집합
이다.
대소문자를 구분하지 않는다.
공집합일 경우에는 값을 1
로 정의한다.
기타 공백 or 숫자 or 특수 문자가 들어있는 경우는 그 글자 쌍을 버린다.
풀이 순서
[1] 두 집합을 연결리스트로 생성한다. 그리고 교집합과 합집합을 담는 연결리스트를 생성한다.
[2] 두 문자열을 전부 소문자로 변환한다.
[3] 기타 공백 or 숫자 or 특수 문자가 들어있는 경우는 그 글자 쌍을 버린다.
list2.remove(s)
: 해당 값이 있으면 제거하고 true을 반환하거나 해당 값이 없으면 false를 반환한다.[4] 공집합일 경우에는 1
로 정의한다.
[5] 자카드 유사도를 구한다.(소수점이 나오도록 double형으로 변환하여 계산한다)
2018 KAKAO BLIND RECRUITMENT 1차 5번 문제였다. (난이도 : 중)
문제 설명이 길다고 해서 겁먹지 말고, 집중해서 읽으면 쉽게 풀 수 있는 문제였다.
조건이 많으면, 풀이 순서를 정리한 뒤에 하나씩 풀어나가는 연습을 꼭 하자.
메모리: 76.2 MB, 시간: 0.38 ms - Answer Code1(2022.02.10)
메모리: 75.2 MB, 시간: 0.69 ms - Answer Code2(2022.02.10)
import java.util.ArrayList;
import java.util.Comparator;
import java.util.Arrays;
class Solution {
public ArrayList<Integer> solution(String s) {
ArrayList<Integer> answer = new ArrayList<>();
s = s.substring(2, s.length());
s = s.substring(0, s.length() -2).replace("},{", "-");
String str[] = s.split("-");
Arrays.sort(str, new Comparator<String>() {
public int compare(String s1, String s2) {
return s1.length() - s2.length(); // return Integer.compare(o1.length(), o2.length());
}
});
for(String x : str) {
String [] temp = x.split(",");
for(int i = 0; i < temp.length; i++) {
int n = Integer.parseInt(temp[i]);
if(!answer.contains(n)) {
answer.add(n);
}
}
}
return answer;
}
}
튜플을 만들 ArrayList 객체를 선언하고, 가장 앞에 있는 {{
부분과 가장 뒤에 있는 }}
부분을 제거한다. => substring() 메서드를 사용하여 제거한다.
{,}
형태의 문자열을 -
으로 바꾼다. => replace("},{", "-")'
위에서 바꾼 문자열 -
을 기준으로 구분해준다. => .split("-");
원소들의 길이를 기준으로 정렬한 뒤 가장 짧은 원소부터 고려하며 튜플을 채워나간다.
예) "{{2},{2,1},{2,1,3},{2,1,3,4}}"
인 경우 가장 짧은 원소인 {2}
부터 시작해서 채워나간다.
java.util.Arrays
유틸리티 클래스를 사용하여 Arrays.sort()
메서드를 통해 오름차순 정렬을 해준다.
원하는 정렬 조건을 만들기 위해서는 import java.util.Comparator
클래스내 compare()
메서드를 사용한다.
반복문을 이용하여 ,
을 기준으로 구분(split(",")
)하여 새로운 문자열 배열을 만든다.
그리고 안에 반복문을 이용하여 각 문자열 값을 정수로 바꾼다. => Integer.parseInt();
튜플에 들어있는 값이 아니라면 추가한다. => .contains()
, .add()