📔
Tobigs
  • Who we are
  • Machine Learning
    • 데이터 전처리와 시각화
    • KNN을 통한 Parameter Tuning
    • Navie Bayes 방법론
    • 앙상블
    • 회귀분석
      • 선형 회귀분석 구현(Sklearn,Numpy) (1)
      • 선형 회귀분석 구현(Sklearn,Numpy) (2)
    • 로지스틱 회귀분석
      • Gradient Decent를 이용한 로지스틱 회귀 구현 (1)
      • Gradient Decent를 이용한 로지스틱 회귀 구현 (2)
    • 클러스터링 (군집분석)
      • 클러스터링 실습 (1) (EDA,Sklearn)
      • 클러스터링 실습 (2)(EDA,Sklearn)
      • 클러스터링 연구 (DigDeep)
    • 의사결정나무 (Decision Tree) 구현
      • Python을 이용한 Decision Tree (1)
      • Python을 이용한 Decision Tree (2)
      • Python을 이용한 Decision Tree (3)
      • Python을 이용한 Decision Tree (4)
    • 서포트 벡터 머신(SVM) 방법론
      • Python을 이용한 SVM (1)
      • Python을 이용한 SVM (2)
    • 차원 축소
      • Python을 이용한 차원 축소 실습 (1)
      • Python을 이용한 차원 축소 실습 (2)
    • 머신러닝 실습
      • Python을 이용한 실전 머신러닝 (1)
      • Python을 이용한 실전 머신러닝 (2)
  • Deep Learning
    • 신경망 기초
      • Neural Net Basic (1)
      • Neural Net Basic (2)
    • 신경망 심화
      • Advanced Neural Net (1)
      • Advanced Neural Net (2)
      • Advanced Neural Net (3)
    • 자연어 처리(NLP)
      • Natural Language Processing Basic
    • 이미지 처리(Computer Vision)
      • CNN Alexnet
      • (ResNet)Deep Residual Learning for Image Recognition 논문 리뷰
      • (GAN)Generative Adversarial Nets 논문 리뷰
    • 강화학습 (Reinforcement Learning)
      • Reinforcement Learning(1)
      • Reinforcement Learning(2)
  • Etc
    • Class와 객체지향프로그래밍(Python)
      • Python을 이용한 객체 지향 프로그래밍 (1)
      • Python을 이용한 객체 지향 프로그래밍 (2)
    • Crawling
Powered by GitBook
On this page
  • 과제 내용
  • 우수과제 선정이유
  • 1. 주제
  • 주제 도출과정
  • 2. 강화학습 적용
  • 2.1 주제
  • 2.2 Environment : 쇼핑몰 상품 리스트 화면
  • 2.3 State
  • 2.4 Action : 상품 클릭
  • 2.5 Reward
  • 3 적용 효과

Was this helpful?

  1. Deep Learning
  2. 강화학습 (Reinforcement Learning)

Reinforcement Learning(2)

13기 허정민

과제 내용

강화학습 설계해보기!

실생활에서 강화학습으로 해결 할만한 주제를 생각해보고, environment, state, reward, action을 정의해 주세요.

우수과제 선정이유

실제 자신의 domain과 연결시켜 왜 이런 주제를 선정했는지, 그리고 state reward 등을 각각 왜 이렇게 설정했는지 논리를 구체적으로 잘 설명해 주셨습니다.

1. 주제

주제 도출과정

나의 관심 분야

  • Domain

    • E-commerce

    • Digital Marketing

    • Omni Channel 분석

    • Social Network Services

  • 인터넷을 통한 인구 활동 증가

  • 온라인 쇼핑 증가로 인한 오프라인 매장 수요 감소

  • 코로나로 인한 쿠팡 등 온라인 쇼핑몰의 수요 급증

  • 온라인 쇼핑몰에서 사람들은 어떠한 행동패턴을 보일까?

    • 어떠한 행동패턴을 조사해야할까?

    • 행동패턴을 조사하는 방법은?

2. 강화학습 적용

실제 강화학습이 어떻게 적용될 수 있을까?

2.1 주제

  • 쇼핑몰에서 어떤 컨텐츠/어떤 상품을 상위에 보여줄수있을까?

  • 특정 카테고리내에서 어떤 상품을 상위에 노출시킬까?

  • 소비자에게 어떤 광고를 보여줄수있을까?

  • 소비자에게 어떤 상품을 추천상품으로 보여줄 수 있을가?

결국 알고싶은 것은 어떠한 행동패턴을 보인 사용자의 정보가 어떠한지 와 각 특정 행동패턴의 사용자에게 어떤 상품을 추천할것인지/먼저 보여줄 것인지 입니다.

2.2 Environment : 쇼핑몰 상품 리스트 화면

  • Environment: 쇼핑몰 상품 리스트 화면

    1. 쇼핑몰안에서도 다양한 리스트업 카테고리가 존재한다.

      1. 카테고리별 상품 페이지

      2. 할인 판매/ 추천상품 페이지

      3. 브랜드별 상품 페이지

2.3 State

  • 상품 리스트 분야

    • 상품리스트의 개수 : 한페이지에 상품이 몇개의 상품이 올라와 있는지, 일반적으로 상품은 한 페이지에서 최대 개수만큼 올라와 있으며 페이지로 나누기 때문에 페이지의 개수도 적용가능

    • 광고상품의 개수: 상품페이지 안에서도 광고 상품을 올릴 수 있는데 한 페이지안에 광고 상품의 개수

  • 시간 분야

    • 상품 페이지의 특정위치(n Page)에서 머문시간(대기시간) : 소비자가 몇페이지에 머물고 있는지, 가장 오래 머문 페이지는 어딘지(1페이지 제외)

    • 특정위치에서 사람들의 평균 대기시간 : 한페이지 안에서도 스크롤의 위치에 따라 상,중,하로 나누어 각 위치별로 평균 머무는 시간

    • 특정위치에서 가장 오래 머문시간 : 단순 대기상황이 아니라면, 상품에 대한 고민을 하고 있는 시간으로 파악해 볼 수 있음

  • 회원 정보 분야

    • 회원의 나이, 회원의 직업, 회원의 성별, 광고 클릭비율, 즐겨찾기여부, 장바구니 상품개수

    • 접속위치, 접속시간

2.4 Action : 상품 클릭

  • Action : 특정 리스트에서 소비자가 상품페이지로 클릭하는 경우

2.5 Reward

Reward에 대한 개념이 부족하여 최대한 다양한 방식으로 Reward를 고민해 보았습니다.

  • Reward 1 : 전체 상품리스트의 길이/클릭한 상품의 순서

    • 상위에 있는 상품리스트를 클릭할 수록 분모가 작아지기 때문에 보상이 커진다.

  • Rward 2 : 전체페이지의 길이/상품을 클릭한 페이지

    • Reward 1의 경우에는 상품 리스트가 엄청나게 길경우 점수가 너무 크기 때문에 페이지 단위로 Reward를 조절할 수 있음

  • Reward 3 : (평균적으로 리스트에서 상품을 클릭하는데 걸리는 시간) - (특정 소비자가 리스트에서 상품을 클릭하는데 걸리는 시간)

    • 평균보다 빠르게 Action(클릭)을 할경우 +점수를 받고 더욱 오래걸릴경우 -점수를 받게 된다.

    • 상품을 클릭하는 것은 구매의도에 대한 확실한 정보를 얻기보다는 관심정도(빠르게 클릭할수록 호기심이 생기는/끌리는 상품일 것이다)를 보는 것이 때문

(Reward 설정이 가장 어려운 것 같습니다...)

3 적용 효과

(상상...)

  • 경기도 수원에 거주하고 있는 20대의 대학생 여성이 쇼핑몰의 식품 카테고리에서 특정 체류시간이 길고, 클릭율이 높다. ⇒ 식품료에 대한 소비를 오프라인보다 온라인에서 할 가능성이 높은 회원으로 분류

  • 서울에 거주하고 있는 30대의 직장인 남성이 쇼핑몰의 전자기기 카테고리에서 체류시간이 길고 장바구니에는 평균적으로 10개 이상의 상품을 보관한다 ⇒ 전자기기에 관심이 많은 소비자, 장바구니의 평균 가격대가 높은 것으로 보아 고가의 상품을 복합적으로 고려하여 구매하는 회원으로 분류 → 전자기기 관련 할인 쿠폰 발송 고려

PreviousReinforcement Learning(1)NextClass와 객체지향프로그래밍(Python)

Last updated 5 years ago

Was this helpful?