import java.util.*;
class Solution {
public int solution(String str1, String str2) {
//[1]
ArrayList<String> list1 = new ArrayList<>();
ArrayList<String> list2 = new ArrayList<>();
ArrayList<String> intersection = new ArrayList<>();
ArrayList<String> union = new ArrayList<>();
double jaccard = 0;
//[2]
str1 = str1.toLowerCase();
str2 = str2.toLowerCase();
//[3]
for(int i = 0; i < str1.length()-1; i++) {
char first = str1.charAt(i);
char second = str1.charAt(i + 1);
if((first >= 'a' && first <= 'z') && (second >= 'a' && second <= 'z')) {
list1.add(first + "" + second);
}
}
for(int i = 0; i < str2.length()-1; i++) {
char first = str2.charAt(i);
char second = str2.charAt(i + 1);
if((first >= 'a' && first <= 'z') && (second >= 'a' && second <= 'z')) {
list2.add(first + "" + second);
}
}
for(String s : list1) {
if(list2.remove(s)) {
intersection.add(s);
}
union.add(s);
}
for(String s : list2) {
union.add(s);
}
//[4]
if(union.size() == 0) {
jaccard = 1;
} else {
jaccard = (double)intersection.size() / (double)union.size();
}
//[5]
return (int)(jaccard * 65536);
}
}
문제 설명 요약 : 자카드 유사도를 구하는 문제인데, 자카드 유사도의 값은 교집합 / 합집합
이다.
대소문자를 구분하지 않는다.
공집합일 경우에는 값을 1
로 정의한다.
기타 공백 or 숫자 or 특수 문자가 들어있는 경우는 그 글자 쌍을 버린다.
풀이 순서
[1] 두 집합을 연결리스트로 생성한다. 그리고 교집합과 합집합을 담는 연결리스트를 생성한다.
[2] 두 문자열을 전부 소문자로 변환한다.
[3] 기타 공백 or 숫자 or 특수 문자가 들어있는 경우는 그 글자 쌍을 버린다.
list2.remove(s)
: 해당 값이 있으면 제거하고 true을 반환하거나 해당 값이 없으면 false를 반환한다.[4] 공집합일 경우에는 1
로 정의한다.
[5] 자카드 유사도를 구한다.(소수점이 나오도록 double형으로 변환하여 계산한다)
2018 KAKAO BLIND RECRUITMENT 1차 5번 문제였다. (난이도 : 중)
문제 설명이 길다고 해서 겁먹지 말고, 집중해서 읽으면 쉽게 풀 수 있는 문제였다.
조건이 많으면, 풀이 순서를 정리한 뒤에 하나씩 풀어나가는 연습을 꼭 하자.
메모리: 76.2 MB, 시간: 0.38 ms - Answer Code1(2022.02.10)
메모리: 75.2 MB, 시간: 0.69 ms - Answer Code2(2022.02.10)
import java.util.ArrayList;
import java.util.Comparator;
import java.util.Arrays;
class Solution {
public ArrayList<Integer> solution(String s) {
ArrayList<Integer> answer = new ArrayList<>();
s = s.substring(2, s.length());
s = s.substring(0, s.length() -2).replace("},{", "-");
String str[] = s.split("-");
Arrays.sort(str, new Comparator<String>() {
public int compare(String s1, String s2) {
return s1.length() - s2.length(); // return Integer.compare(o1.length(), o2.length());
}
});
for(String x : str) {
String [] temp = x.split(",");
for(int i = 0; i < temp.length; i++) {
int n = Integer.parseInt(temp[i]);
if(!answer.contains(n)) {
answer.add(n);
}
}
}
return answer;
}
}
튜플을 만들 ArrayList 객체를 선언하고, 가장 앞에 있는 {{
부분과 가장 뒤에 있는 }}
부분을 제거한다. => substring() 메서드를 사용하여 제거한다.
{,}
형태의 문자열을 -
으로 바꾼다. => replace("},{", "-")'
위에서 바꾼 문자열 -
을 기준으로 구분해준다. => .split("-");
원소들의 길이를 기준으로 정렬한 뒤 가장 짧은 원소부터 고려하며 튜플을 채워나간다.
예) "{{2},{2,1},{2,1,3},{2,1,3,4}}"
인 경우 가장 짧은 원소인 {2}
부터 시작해서 채워나간다.
java.util.Arrays
유틸리티 클래스를 사용하여 Arrays.sort()
메서드를 통해 오름차순 정렬을 해준다.
원하는 정렬 조건을 만들기 위해서는 import java.util.Comparator
클래스내 compare()
메서드를 사용한다.
반복문을 이용하여 ,
을 기준으로 구분(split(",")
)하여 새로운 문자열 배열을 만든다.
그리고 안에 반복문을 이용하여 각 문자열 값을 정수로 바꾼다. => Integer.parseInt();
튜플에 들어있는 값이 아니라면 추가한다. => .contains()
, .add()
전송 계층은 인터넷 기반의 송신자와 수신자를 연결하는 통신 서비스를 제공하며
[1]연결 지향 데이터 스트림 지원, [2]신뢰성, [3]흐름 제어를 제공할 수 있으며
애플리케이션과 인터넷 계층 사이의 데이터가 전달될 때 중계 역할을 한다.
대표적으로 TCP와 UDP가 있다.
TCP
(Transmission Control Protocol)는 데이터의 전송을 보장하는 프로토콜이다.(신뢰성이 있는 프로토콜)
TCP는 패킷 사이의 순서를 보장하고 신뢰성을 보장하기 때문에 연결 지향 프로토콜로 수신여부를 확인하기 때문에 신뢰성은 높지만 속도가 느리다는 단점이 있다.
대부분 1대1 통신이며, 가상 회선 패킷 교환방식을 사용한다.
예) HTTP, Email, File transfer
UDP
(User Datagram Protocol)는 데이터의 전송을 보장하지 않는 프로토콜이다.
UDP는 패킷 사이의 순서를 보장하지 않고 수신 여부를 확인하지 않으며 단순히 데이터만 주는 데이터 패킷 교환 방식
을 사용한다.
1대1 통신 또는 1대 N 통신 또는 N:N 통신이 있다.
예) DNS, Broadcasting
정지-대기(Stop-and-wait) 기법
슬라이딩 윈도우 (Sliding Window) 기법
전송 측이 프레임을 전송한 다음, 각 데이터 프레임에 대한 ACK
를 기다린다.
ACK
프레임이 도착하면 다음 프레임을 전송하는 기법이다.
수신측에서 설정한 윈도우 크기만큼 송신측에서 확인 응답(ACK) 없이 패킷을 전송할 수 있어서 데이터 흐름을 동적으로 조절하는 기법이다.
ACK 프레임이 도착하면, 전송측 윈도우는 ACK 프레임 수에 따라 오른쪽 경계가 이동하여 윈도우 크기가 늘어난다.
상황 : 팬시가 주디에게 데이터를 전달하는 상황
팬시 : 안녕! 주디, 내가 전달할 데이터가 있으니 우리 연결좀 하자.
주디 : 알겠어! 지금 나도 준비가 되었으니 언제든 시작해도 좋아!
팬시 : 내 요청을 들어줘서 고마워~
이런 TCP 연결 성립 과정을 Three-way handshaking
이라고 한다.
SYN - SYN + ACK - ACK
처음 시작 SEQ번호는 랜덤하게 생성된다. 그 이유는 연결을 맺을 때 사용하는 포트(Port)는 유한 범위 내에서 사용하고 시간이 지남에 따라 재사용된다.
따라서 두 통신 호스트가 과거에 사용된 포트 번호 쌍을 사용하는 가능성이 존재한다. 서버측에서는 패킷의 SYN을 보고 패킷을 구분하게 되는데 난수가 아닌 순차적인 숫자가 전송된다면 이전의 연결로부터 오는 패킷으로 인식할 수 있다.
이런 문제의 발생 가능성을 낮추기 위해 SEQ번호를 랜덤으로 설정한다.
ACK의 값을 전송된 바이트 크기만큼 증가시키는 이유는 패킷의 전송유무 뿐만 아니라, 데이터 손실유무까지 확인하기 때문이다.
[1] ACK = 1200 + 100 byte + 1
[2] ACK = 1301 + 100 byte + 1
ACK 번호 = SEQ 번호 + 전송된 바이트 수 + 1
SEQ 전송 시 타이머가 작동되며 SEQ에 대한 ACK가 전송되지 않을 경우 데이터를 재전송한다.
상황 : 팬시가 주디에게 연결을 끊고자 하는 경우
팬시 : 주디! 지금 연결을 끊고자 하는데 지금 괜찮을까요?
주디 : 아! 그러세요? 잠시만요~
주디 : 네 저도 준비가 끝났습니다. 그럼 연결을 끊으시죠!
팬시 : 네! 그동안 즐거웠습니다.
이러한 TCP 연결 해제 과정을 Four-way handshaking
이라고 한다.
FIN – ACK – FIN - ACK
TCP의 연결 성립 과정과 연결 해제 과정의 단계수가 차이 나는 이유는 클라이언트가 데이터 전송을 마쳤다고 해도 서버는 아직 보낼 데이터가 남아있을 수 있기 때문에 일단 FIN에 대한 ACK만 보내고, 데이터를 모두 전송한 후 자신(서버)도 FIN 메시지를 보내기 때문이다.
그래서 마지막 4번째인 클라이언트(팬시)에서 TIME_WAIT 상태가 된다. 서버(주디)로부터 해지 준비가 되었다는 ACK를 보낸후 서버에서 CLOSE 상태가 된 이후에 클라이언트(팬시)는 어느 정도의 시간을 대기한 후에 연결을 닫고 모든 자원의 연결이 종료된다.
TIME_WAIT
이란 소켓이 바로 소멸되지 않고 일정 시간 유지하는 상태이다.
Four-way handshaking
과정을 거쳐서 연결을 종료하는 이유는 패킷이 지연되거나 일반적인 종료로 인한 데이터 손실을 막기 위함이다.
이 글의 정보들은 주로
컴퓨터 네트워킹 : 하향식 접근(7판)
교재를 공부하면서 정리한 내용입니다.
예를 들어 devfancy.github.io
일때 devfancy
가 호스트 네임, github.io
이 도메인 네임이다.
호스트 네임과 도메인 네임을 합치면 FQDN
(Fully Qualified Domain Name)이 된다.
즉, DNS 서버의 이름 = host name + domain name 이다.
비유하자면 호스트는 내선번호이고, 도메인은 회사/집의 전화번호이다.
사람은 www.apple.com
과 같은 호스트 이름을 통해 온라인으로 정보에 접근한다.
웹브라우저는 인터넷프로토콜(IP) 주소를 통해 상호작용한다.
사람은 좀 더 기억하기 쉬운 호스트 이름 식별자를 좋아하지만, 라우터는 고정 길이의 계층구조를 가진 IP 주소를 좋아한다. 이러한 선호 차이를 절충하기 위해 호스트 이름을 IP 주소로 변환해주는 디렉터리 서비스가 DNS(domain name system)의 주요 임무다.
DNS
는 브라우저가 인터넷 자원을 로드할 수 있도록 호스트 이름과 IP 주소를 매핑해주는 서버로서, 호스트 이름과 IP 주소를 저장하고 있는 분산 데이터베이스다.
예) www.naver.com
의 IP 주소가 222.111.222.111로 되어있는데 사용자가 보기 쉽게 호스트 이름으로 매핑해준다.
쉽게 말하면 웹 사이트를 위한 주소록이라고 생각하면 된다.
DNS 는 애플리케이션 계층
에 속한다. (예플리케이션 계층 - FTP, HTTP, SSH, SMTP, DNS)
애플리케이션 계층
은 웹 서비스, 이메일 등 서비스를 실질적으로 사람들에게 제공하는 층이다.
그 중 DNS는 TCP/IP 환경에서 IP 주소로 시스템을 구분한다.
단일 DNS 서버에 있는 중앙 집중 데이터베이스는 서버의 고장, 트래픽양, 먼 거리의 중앙 집중 데이터베이스, 유지관리 등의 문제쟘을 이유로 확장성이 전혀 없다.
이러한 확장성 문제를 다루기 위해 DNS는 많은 서버를 이용하여 계층 형태로 분산시킨다.
루트 DNS 서버
: 1000개 이상의 루트 서버 인스턴스가 전세계에 흩어져 있다. 루트 네임 서버는 TLD 서버의 IP 주소들을 제공한다.
최상위 레벨 도메인(TLD) 서버
: com, org, net, edu, gov 같은 상위 레벨 도메인과 kr, ur, fr, ca, jp 같은 모든 국가의 상위 레벨 도메인에 대한 TLD 서버가 있다. TLD 서버는 책임 DNS 서버에 대한 IP 주소를 제공한다.
책임 DNS 서버
: 인터넷에 접근하기 쉬운 호스트를 가진 모든 기관은 호스트 이름을 IP 주소로 매핑하는 공개적인 DNS 레코드를 제공해야 한다. 대부분의 대학과 큰 기업들은 자신의 기본 책임 DNS 서버와 보조 책임 DNS 서버를 유지하고 구현한다.
DNS 서버
(DNS recursor)가 호스팅하고 있는 서버의 IP 주소를 찾기 위해 DNS query를 날린다.DNS 서버들을 검색해서 해당 사이트의 IP 주소를 찾는데에 있다.
IP 주소를 찾을 때까지 DNS 서버에서 다른 DNS 서버를 오가며 에러가 날 때까지 반복적으로 검색한다.
www.google.com
주소를 검색할 때,
[1] DNS 서버가 루트 DNS 서버에 요청한다.
[2] .com 도메인 TLD 서버로 리다이랙트 한다.
[3] google.com 책임 DNS 서버로 리다이랙트 한다.
[4] 최종적으로 DNS 기록에서 www.google.com
에 매칭되는 IP 주소를 찾는다.
[5] 찾은 IP 주소를 DNS 서버로 보낸다.
DNS query 종류에는 Recursive Query, Iterative Query가 있다.
그림 2.19의 예는 재귀적 질의와 반복적 질의를 사용한다. cse.nyu.edu
로부터 dns.nyu.edu
로 보내는 질의는 자신을 대신하여 필요한 매핑을 얻도록 dns.nyu.edu
에게 요구하므로 재귀적 질의이다.
그러나 다른 세 가지 질의는 모든 응답이 dns.nyu.edu
에 직접 보내지므로 반복적 질의다.
이론상, DNS 질의는 반복적이고 재귀적일 수 있다.
그림 2.20의 예에서 모든 질의가 재귀적인 DNS 질의 사슬을 따른다.
일반 질의는 전형적으로 그림 2.19의 형식을 따른다.
요청하는 호스트로부터 로컬 DNS 서버까지의 질의는 Recursive Query
(재귀적인 질의)이고, 나머지는 Iterative Query
(반복적인 질의)이다.
요청한 호스트에게 매핑 결과를 전달하기 위해 실제로 많은 DNS query 메세지가 필요하다.
그러한 DNS query 전송을 줄이기 위해 DNS 캐싱
방법을 사용한다.
실제 DNS는 지연 성능 향상과 네트워크의 DNS 메세지 수를 줄이기 위해 캐싱
을 사용한다.
DNS 캐싱의 아이디어는 질의 사슬에서 DNS 서버가 DNS 응답을 받았을 때(호스트 이름을 IP 주소로 매핑하기) 그것은 로컬 메모리에 응답에 대한 정보를 저장할 수 있다.
호스트 이름과 IP 주소 쌍이 DNS 서버에 저장되면 처음 브라우저가 캐싱된 DNS를 확인하고 캐싱된 기록이 없을 때 DNS 질의로 넘어간다.
호스트 이름과 IP 주소 사이 매핑과 호스트는 영구적이지 않기 때문에 특정 기간마다 저장된 정보를 제거한다.