Skip to content

Commit eed14d6

Browse files
committed
update: contents2; 이상탐지
1 parent a169a7a commit eed14d6

File tree

2 files changed

+174
-0
lines changed

2 files changed

+174
-0
lines changed
Lines changed: 174 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,174 @@
1+
---
2+
layout: post
3+
title: "[컨텐츠 연재] #02 가짜에서 진짜 찾"
4+
author: 김소연
5+
categories: [ 컨텐츠 ]
6+
image: assets/images/pseudo-contents/ab_intro.png
7+
---
8+
9+
안녕하세요!! 오랜만에 뵙겠습니다! 가짜연구소 커뮤니티 빌더 김소연입니다.
10+
오늘은 우리 가짜연구소가 진짜연구소가 된 만우절 행사와 행사를 기획한 빌더분에 대한 이야기를 전해드리려 합니다! ㋡⎠
11+
이번 행사 이름은 `가짜에서 진짜 찾기` 였는데요. 행사 제목과 딥러닝 사이의 연결고리에 대한 감이 좀.. 어떻게.. 오시나요?
12+
13+
![ab_curri](https://user-images.githubusercontent.com/40655873/167170895-d9291675-fd2e-40ff-ac30-4c936f6f2d87.png)
14+
15+
2022년 4월 1일 만우절 밤 9시에 가짜연구소에서는 `가짜에서 진짜 찾기`라는 행사를 진행했었습니다. 이름에서도 살짝 엿볼수 있듯 행사는
16+
`Anomaly Detection` 관련된 행사였습니다..! 게임회사의 데이터 분석팀에서 근무하고 있는 신진수 빌더님이
17+
게임 현업에서 바라보는 이상탐지에 대한 간단한 세미나를 포함해 관심있는 분들과 네트워킹까지를 포함한 아주 흥미로운 행사였습니다!
18+
저도 한 때 `out-of-distribution` 이라는 키워드가 너무 흥미로워 보여서 찍어먹기로 논문 몇 개만 읽어보고 말았는데요.
19+
아쉽게도 행사에는 참여하지 못했지만, 이때다 싶어서 얼~른..! 진수님한테 행사와 이상탐지에 대해 이것저것 물어봤습니다 :)
20+
21+
그럼 이제 1년에 1번 진짜가 된 가짜연구소 `가짜에서 진짜 찾기`로 두번째 컨텐츠를 시작하도록 할게요!
22+
23+
### Contents
24+
* [Anomaly Detection이 뭐죠?](#Anomaly-Detection이-뭐죠)
25+
* [가짜에서 진짜찾기 세미나 행사](#가짜에서-진짜찾기-세미나-행사)
26+
* [행사를 기획한 진수님의 인터뷰](#행사를-기획한-진수님의-인터뷰)
27+
28+
---
29+
30+
# Anomaly Detection이 뭐죠
31+
32+
행사 소개에 앞서 Anomaly detection에 대해 처음이신 분이 계실 듯해서 학문적 정의에 대해 먼저 찾아봤어요.
33+
첫번째 2020년 서베이 논문[1]에서는 아래와 같이 정의하는데요.
34+
> Anomaly detection, a.k.a. outlier detection or novelty detection, is referred to as the process of
35+
detecting data instances that significantly deviate from the majority of data instances
36+
37+
2021년 서베이 논문[2]에서도 비슷한 뉘앙스로 정의를 하지만, 정의에 쓰이는 용어의 강도와 느낌의 정도에 따라 달라질 수 있는 애매모호함을 강조하는 느낌을 줍니다.
38+
> Interests in anomaly detection go back to 1969, which defines anomaly/outlier as **samples that appear to
39+
deviate markedly from other members of the sample in which it occurs**, explicitly assuming the existence of an
40+
underlying shared pattern that a large fraction of training samples follow
41+
42+
사실 anomaly detection이 아니더라도 비슷비슷하게 out-of-distribution, novelty detection으로도 들어보셨을 것 같은데요.
43+
결론적으로 쉽게 설명하자면 anomaly detection은 어떤 집단에서 눈에 띄게 다른 행동을 하는 객체를 탐지하는 것입니다.
44+
45+
---
46+
47+
# 가짜에서 진짜찾기 행사
48+
49+
이렇듯 비정상적인 **객체**를 찾는다는 컨셉을 생각했을 때, 제가 떠올렸던 분야는 반도체, 부품 등을 제작하며 발생하는 불량품을 탐지하는 제조업 쪽에 한정되었던 것 같아요.
50+
그래서 이번 행사를 통해 알게된 게임 산업에서의 이상탐지 중요도가 굉장히 새로웠는데요. 무려 만우절, 무려 금요일, 무려 밤 9시라는 시간에도 불구하고 약 17명 정도가
51+
참석해 재미있게 세미나와 네트워킹까지 잘 진행되었다고 합니다.
52+
53+
제가 구태여 설명하기보다 [세미나 링크 자료](https://s3.us-west-2.amazonaws.com/secure.notion-static.com/5c3ecb29-418f-4309-ae00-c09d125fe307/%EA%B0%80%EC%A7%9C%EC%97%B0%EA%B5%AC%EC%86%8C_%EB%A7%8C%EC%9A%B0%EC%A0%88_%EC%98%A4%ED%94%88_%EC%84%B8%EB%AF%B8%EB%82%98_v1.0.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=AKIAT73L2G45EIPT3X45%2F20220506%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20220506T134711Z&X-Amz-Expires=86400&X-Amz-Signature=0db2e2fa6f06a747ed568a86e9bdf3a8bf1ded36cde69fe3bf6573650a8c6bf8&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22%25EA%25B0%2580%25EC%25A7%259C%25EC%2597%25B0%25EA%25B5%25AC%25EC%2586%258C%2520%25EB%25A7%258C%25EC%259A%25B0%25EC%25A0%2588%2520%25EC%2598%25A4%25ED%2594%2588%2520%25EC%2584%25B8%25EB%25AF%25B8%25EB%2582%2598%2520v1.0.pdf%22&x-id=GetObject)
54+
를 확인해보시길 추천드립니다!
55+
56+
![ab_ex](https://user-images.githubusercontent.com/40655873/167171357-1abc2033-bfe9-4b52-b0a8-be0cafafa759.png)
57+
58+
---
59+
60+
# 행사를 기획한 진수님의 인터뷰
61+
62+
위 자료를 눌러보시면 알겠지만, 자료의 직관성이나 센스가 남다르다는 것이 느껴질텐데요. 그럼 이런 행사를 기획한 진수님은 어떤 분이실까요?
63+
64+
### 안녕하세요, 진수님! 진수님은 어떤 분이신가요!
65+
66+
안녕하세요, 가짜연구소 아카데믹/커뮤니티 빌더 [신진수](https://www.linkedin.com/in/jinsoo-shin-436060162/) 입니다. 저는 현재 게임회사의 데이터분석팀에서 근무를 하고 있고,
67+
최근에는 던전앤파이터 모바일 이라는 게임을 분석 및 연구를 진행하고 있어요.
68+
가짜연구소는 기존에도 알고 있었고, 다양한 행사/이벤트 기획을 해보고 싶어 빌더 신청 기간마다 매번 페이스북하고 카톡에 링크를 저장을 해놨는데요.
69+
막상 지원하려고 할 때는 매번 기간이 지나있더라구요ㅜㅜ.
70+
이번에는 놓치지 않고 신청에 !성공! 해서 빌더로서 비슷한 주제에 관심있는 사람들끼리 연결고리가 되어주는(?) 역할과 여러 활동을 하고 있네요*(히히)*
71+
72+
저는 가짜연구소에서 `Casual 하게 Causality` 라는 스터디를 진행하고 있어요.
73+
저에게는 **제품 개선의 효과를 측정하고 현상에 대한 원인을 분석하는 것이 매우 중요한 일**인데요.
74+
회사에는 실험적인 플랫폼이 없어서, 가능하다면 적용 해보고, 만들어보려고 해요. 그래서 이번에는 제대로 공부를 해보고자 스터디를 진행하고 있습니다.
75+
저보다 뛰어나신 스터디원분들 덕분에 많이 배워가고 있어요*(히히2)*
76+
77+
### 만우절에 이상탐지 행사를 기획하게 된 배경이 궁금해요. 또 causality가 아닌 이상탐지와는 어떤 관계가 있으신건가요?
78+
79+
첫 번째로는, 게임에서는 일반적으로 만우절을 맞아 크고 작은 이벤트를 진행해요. 예를 들어, 만우절 관련 패키지를 팔거나, 연예인과 콜라보, 인게임 이벤트 등등이요.
80+
그래서 가짜연구소에서도 만우절을 맞아 조금 캐주얼하고 기억에 남는 이벤트를 만들어보고 싶어 기획하게 되었습니다.
81+
두 번째는, 만우절에 우리가 하는 행동은 평소와 약간 다르다고 느꼈어요`(적어도 학생때는요ㅋㅋㅋ)`. 아닌가요?
82+
뭔가 **평소와는 다르다(이상하다)라는 점이 이상한 패턴/행동을 탐지하는 이상탐지와 비슷하다고 느껴서 이상탐지로 정했습니다!**
83+
84+
이상탐지와의 연결 고리라고하면 작년말부터 현재 매 주 일요일마다 지인들과 이상탐지 논문 세미나를 진행하고 있어요.
85+
논문 세미나를 진행하다 보니, 현재 제가 담당하는 게임에서는 어떻게 적용해볼지, 적용했을 때 어떠한 기대효과가 있을지 자연스럽게 고민하고 연구하는 중입니다.
86+
물론, 논문을 읽는다고 이상한 현상을 바로 잡아낼 수 있는 건 아니지만, 꾸준히 연구 하다보면 장기적으로는 도움이 되지 않을까요*(히히3)*
87+
88+
매주 논문 세미나를 하면서 느끼는 거지만, 다양한 관점으로 문제를 접근 할 수 있어서 재미있다고 느껴요.
89+
만약 유저의 행동 관점에서 이상한 부분을 탐지한다고 했을 때, NLP/Vision/Graph 등의 다양한 분야의 관점에서 문제를 접근할 수 있는데요.
90+
가설에 대한 다양한 접근에 대해 고민해볼 때, **고통스럽지만 재미있다고** 생각해요.(*히히4)*
91+
일을 하다보면 매번 새로운 패턴을 관측하게 되곤하는데요. 이 부분도 새롭고 재미있다고 느껴져요.
92+
`설마 그러겠어?!` 하는 부분이 매주 나오다보니.. 지루할 틈이 없는 것 같네요^^;
93+
94+
### 오호, 진수님이 생각하시는 이상탐지는 어떤 것인가요? out of distribution 과의 차이는 어떤 것이라 생각하세요?
95+
96+
저에게 이상탐지는 **다름을 정교하게 정의하는 종합 분야** 라고 생각해요. 다시 말해서, 아래와 같이 정리될 것 같아요.
97+
1) 사람마다 ‘이상하다’라는 기준이 다를 수도 있는데요. 그러한 기준을 객관적으로 정의하고 연구하는 분야
98+
2) 이상 탐지를 연구할 때, 한 가지 분야에서 나오는 개념만 적용하는 게 아니라, 다양한 학문에서 나온 아이디어를 활용하는 분야
99+
100+
저는 이상탐지(Anomaly, Outlier Detection)가 OOD를 포괄하는 용어로 생각하고 있는데요.
101+
Training 분포의 관점에서, Out-of-distribution은 학습 분포를 따르지 않는 이상한 친구일 수 있으니까요(*히히5)*
102+
103+
104+
### 다양한 접근 만큼이나 이상탐지를 파악하기 위한 단계도 꽤 복잡한 것 같아요. 만들어주신 자료를 보면 이상탐지 단계를 5가지로 나눠주셨는데 어떤 부분이 가장 시간이 많이 드나요 ? 동시에 어떤 부분이 제일 중요한 것 같으세요?
105+
106+
![ab_5](https://user-images.githubusercontent.com/40655873/167171490-56a1dc3f-cf44-4166-8bd7-a7aa1ed2e825.png)
107+
108+
개인적으로 **시간이 많이 들지만 중요한 부분은 EDA**라고 생각을 해요. 좀더 엄밀하게는 EDA에서 나온 분석 결과를 가지고 ‘모델링까지 필요해서 주기적으로 탐지할 필요성이 있어요’라고 이야기를 해야겠네요.
109+
저 과정에서 탐사 분석을 통해 설득하는 과정에 시간이 많이 드는 것 같아요.
110+
또 제일 중요하다고 생각되는 부분은 **이상현상 파악**입니다. 관성에 의해 종종, `뭐 그럴수도 있지`라고 넘어가는 경우가 있는데요. 그런 유혹을 뿌리쳐야 하는 중요한 단계거든요.
111+
112+
### 저는 게임에서 이상탐지가 중요할거란 생각을 미처 못했던 것 같아요. 실제로 게임 분야에서 이상탐지가 중요한가요? 중요하다면 왜 중요하죠?
113+
114+
저도 게임에서 이상탐지를 아주 많이 알지는 못합니다만, 만약 게임 내 발생한 이상한 행동 또는 누군가의 악의적인 행동으로 정상적으로 플레이하는 유저분들이 피해를 보게 된다면,
115+
유저의 게임 경험 측면에서 매우 큰 문제라고 할 수 있겠죠. 그만큼 유저가 느끼는 게임 내 경험을 최적화 시켜주기 위해서는 중요한 분야라고 생각합니다!
116+
특히 사람이 게임하지 않고 기계가 하는 경우가 있는데, 또 반대로 사람이 기계처럼 하는 경우도 있어서 그 기준을 정하기가 참..어렵네요(허허)
117+
118+
### 그런 어려운 기준을 정할 수 있는 접근 방법으로 행동, profile에 대해 세미나에서 설명해주신 것 같아요. 두 방법을 비롯해 어떤 식으로 가설을 세우는지 간단하게만 설명해주실 수 있나요?
119+
120+
저는 게임에서 유저가 이상하다고 느끼면, 크게 2가지 관점(가설)에서 합리적인 의심을 해요.
121+
1) 행동 : 특정 유저가 인게임에서 이상하게 반복되는 행동을 하거나 선량한 유저와 다르게 행동할 때
122+
2) Profile : 유저의 옷차림 (장비/아바타) 상태와 유저의 정보가 조금 특이해보일 때
123+
124+
물론 해당 방법 이외에도 제가 설정한 가설에 따라서 이상함을 정의 내리기도 하죠.
125+
유저의 캐릭터명으로 설명을 드려볼게요. 이상한 유저와 기존 유저의 캐릭터명이 다름을 보이기 위해서는 ‘다름의 기준’이 필요한데요.
126+
해당 방법은 제가 설정한 가설을 기준으로 선정하곤 해요. 예를 들면 아래와 같아요.
127+
- 가설 : 이상한 유저들은 캐릭터명에 대한 알파벳들이 불규칙적으로 나타날 것 같아!
128+
- 유사도 기준 : 그러면, 불규칙적인 정보를 나타내는 Entropy 라는 기준을 정해보자!
129+
- 결과 : 선량한 유저와 이상한 유저 캐릭터명의 분포를 비교(KLD)해볼 수도 있습니다.
130+
131+
### 이런 이야기들 나눈 이번 행사 엄청 유익했을 것 같은데 분위기는 어땠나요? 재밌었던 이야기는 없었나요?
132+
133+
한 17분 정도가 참석해주신 것 같아요. 금요일 저녁 시간인데 생각보다 많이 참석해주셔서 감사할 따름입니다*(히히6)*.
134+
1교시 끝나고 2교시에 참여하신 분들에게 피드백을 받았는데 세미나가 쉽고 재미있었다고 해주신 분들이 많아서 기획한 저로서도 **매우 기뻤습니다.**
135+
아쉬운건 `오프라인으로 했으면 조금 더 참여하신 분들의 반응이나 행사 분위기를 더 잘 느낄 수 있지 않았을까`라는 아쉬움이 있네요.
136+
137+
아, 2교시에 만우절 관련해서 몇몇분이 공통된 에피소드를 해주셨어요. 이번 만우절에 Stackoverflow에 검색을 해보려고 했더니, 이상하게 평소처럼 검색이 안되고 렉걸린 것 처럼 나온다고 말씀을 주셨는데요.
138+
알고 보니 만우절 이벤트라고 하더라구요..?! 재미있는 이야기는 아니지만, 저희 회사 공지에 4.1에 회사 창립기념일이라고 쉬는날이라고 공지가 올라왔는데요.
139+
처음에는 만우절 장난이거니하고 넘겼는데, ~진짜더라구요….~
140+
141+
### 진수님. 진수님의 포스터나 자료 만드는 완성도나 센스도 남다른데요! 이런 세미나& 이벤트 기획 경험이 있으신건지 궁금해요!
142+
143+
졸업 이후에는 거의 주말마다, 세미나/스터디를 하고 있어서 자료 준비나 PPT 활용에 도움이 많이 되었던 것 같아요. 이벤트 기획은 이번이 처음입니다..!!
144+
145+
### 그럼 저희~ 내년 만우절 행사도 기대해도 되는건가요? 😇 또는 가까운 시일 내에 새롭게 기획하는 이벤트 일정도 있으신가요?
146+
147+
내년에는 올해보다 업그레이드된 23년 만우절 행사를 열심히 기획해보겠습니다. 23년 만우절 행사 끝나고 저를 다시 인터뷰 해주시면 매우 감사하겠습니다ㅋㅋㅋ
148+
22년이 가기 전에 올해 여러가지 행사를 기획중인데요, **제가 진행하는 Causal Inference 관련 또는 조금 캐쥬얼한 온/오프라인 행사를 아이디에이션** 해보고 있어요.
149+
6월 안으로 여러분들과 함께 할 수 있는 이벤트를 열어보도록 하겠습니다. 많은 기대 & 참여 부탁드립니다!
150+
151+
---
152+
153+
# 글을 마무리하며
154+
155+
저도 최근에 공부나 프로젝트를 하면서 `` 그리고 `어떻게` 라는 질문을 스스로 많이 던져보려고 하고 있고, 어떤 현상을 `이상하다, 과하다`라고 판단해야할까란 고민을 하고 있는데요.
156+
진수님이 하시는 일을 들어보면 현상에 대한 다각적 파악, 현상을 구분할 수 있는 가설 세우기, 그에 대한 근거 세우기, 검증하기, 개선하기 이 모든 것을 하고 있는 것 같아서
157+
새삼 대..단.. 하다는 생각을 아주아주 많이 하게 된 인터뷰였던 것 같아요. 또, 게임 회사에서도 이렇게 재미있는 주제로 일해볼 수 있구나!도 느낄 수 있었구요.
158+
물론 이상탐지를 비롯해 하시는 일에 대해 애정과 재미를 갖고 있는 진수님의 바이브가 글에서도 물씬 느껴진 이유도 있겠습니다 :)
159+
앞으로는 어떤 가설을 세우면서 일하실지, 또 다가오는 새로운 이벤트는 어떤 것일지 궁금해지는데요. 그 다음 행사도 잘 전달드려보도록 하겠습니다!
160+
161+
아참, 이번주 토요일(2022.05.14) 오후에는 가짜연구소 최초 오프라인 모임이 예정되어 있어요. 세미나, 튜토리얼이 예정되어 있진 않지만 이렇게 재미나게 자기 이야기를 해주는 분들과
162+
함께 할 수 있는 자리인만큼 많은 관심 가져주면 감사하겠습니다 :)
163+
자세한 사항은 [해당 링크](https://event-us.kr/pseudolab/event/44195) 를 확인해주세요! 그럼 20000!
164+
165+
---
166+
### References
167+
[1] Pang, Guansong, et al. "Deep learning for anomaly detection: A review." ACM Computing Surveys (CSUR) 54.2 (2021): 1-38
168+
169+
[2] Salehi, Mohammadreza, et al. "A Unified Survey on Anomaly, Novelty, Open-Set, and Out-of-Distribution Detection: Solutions and Future Challenges." arXiv preprint arXiv:2110.14051 (2021).
170+
171+
---
172+
가짜연구소 페이지 : https://pseudo-lab.com/
173+
가짜연구소 discord: https://discord.gg/HeHbFAvmSZ
174+
94.1 KB
Loading

0 commit comments

Comments
 (0)