Reinforcement Learning(2)

13기 허정민

과제 내용

강화학습 설계해보기!

실생활에서 강화학습으로 해결 할만한 주제를 생각해보고, environment, state, reward, action을 정의해 주세요.

우수과제 선정이유

실제 자신의 domain과 연결시켜 왜 이런 주제를 선정했는지, 그리고 state reward 등을 각각 왜 이렇게 설정했는지 논리를 구체적으로 잘 설명해 주셨습니다.

1. 주제

주제 도출과정

나의 관심 분야

  • Domain

    • E-commerce

    • Digital Marketing

    • Omni Channel 분석

    • Social Network Services

  • 인터넷을 통한 인구 활동 증가

  • 온라인 쇼핑 증가로 인한 오프라인 매장 수요 감소

  • 코로나로 인한 쿠팡 등 온라인 쇼핑몰의 수요 급증

  • 온라인 쇼핑몰에서 사람들은 어떠한 행동패턴을 보일까?

    • 어떠한 행동패턴을 조사해야할까?

    • 행동패턴을 조사하는 방법은?

2. 강화학습 적용

실제 강화학습이 어떻게 적용될 수 있을까?

2.1 주제

  • 쇼핑몰에서 어떤 컨텐츠/어떤 상품을 상위에 보여줄수있을까?

  • 특정 카테고리내에서 어떤 상품을 상위에 노출시킬까?

  • 소비자에게 어떤 광고를 보여줄수있을까?

  • 소비자에게 어떤 상품을 추천상품으로 보여줄 수 있을가?

결국 알고싶은 것은 어떠한 행동패턴을 보인 사용자의 정보가 어떠한지각 특정 행동패턴의 사용자에게 어떤 상품을 추천할것인지/먼저 보여줄 것인지 입니다.

2.2 Environment : 쇼핑몰 상품 리스트 화면

  • Environment: 쇼핑몰 상품 리스트 화면

    1. 쇼핑몰안에서도 다양한 리스트업 카테고리가 존재한다.

      1. 카테고리별 상품 페이지

      2. 할인 판매/ 추천상품 페이지

      3. 브랜드별 상품 페이지

2.3 State

  • 상품 리스트 분야

    • 상품리스트의 개수 : 한페이지에 상품이 몇개의 상품이 올라와 있는지, 일반적으로 상품은 한 페이지에서 최대 개수만큼 올라와 있으며 페이지로 나누기 때문에 페이지의 개수도 적용가능

    • 광고상품의 개수: 상품페이지 안에서도 광고 상품을 올릴 수 있는데 한 페이지안에 광고 상품의 개수

  • 시간 분야

    • 상품 페이지의 특정위치(n Page)에서 머문시간(대기시간) : 소비자가 몇페이지에 머물고 있는지, 가장 오래 머문 페이지는 어딘지(1페이지 제외)

    • 특정위치에서 사람들의 평균 대기시간 : 한페이지 안에서도 스크롤의 위치에 따라 상,중,하로 나누어 각 위치별로 평균 머무는 시간

    • 특정위치에서 가장 오래 머문시간 : 단순 대기상황이 아니라면, 상품에 대한 고민을 하고 있는 시간으로 파악해 볼 수 있음

  • 회원 정보 분야

    • 회원의 나이, 회원의 직업, 회원의 성별, 광고 클릭비율, 즐겨찾기여부, 장바구니 상품개수

    • 접속위치, 접속시간

2.4 Action : 상품 클릭

  • Action : 특정 리스트에서 소비자가 상품페이지로 클릭하는 경우

2.5 Reward

Reward에 대한 개념이 부족하여 최대한 다양한 방식으로 Reward를 고민해 보았습니다.

  • Reward 1 : 전체 상품리스트의 길이/클릭한 상품의 순서

    • 상위에 있는 상품리스트를 클릭할 수록 분모가 작아지기 때문에 보상이 커진다.

  • Rward 2 : 전체페이지의 길이/상품을 클릭한 페이지

    • Reward 1의 경우에는 상품 리스트가 엄청나게 길경우 점수가 너무 크기 때문에 페이지 단위로 Reward를 조절할 수 있음

  • Reward 3 : (평균적으로 리스트에서 상품을 클릭하는데 걸리는 시간) - (특정 소비자가 리스트에서 상품을 클릭하는데 걸리는 시간)

    • 평균보다 빠르게 Action(클릭)을 할경우 +점수를 받고 더욱 오래걸릴경우 -점수를 받게 된다.

    • 상품을 클릭하는 것은 구매의도에 대한 확실한 정보를 얻기보다는 관심정도(빠르게 클릭할수록 호기심이 생기는/끌리는 상품일 것이다)를 보는 것이 때문

(Reward 설정이 가장 어려운 것 같습니다...)

3 적용 효과

(상상...)

  • 경기도 수원에 거주하고 있는 20대의 대학생 여성이 쇼핑몰의 식품 카테고리에서 특정 체류시간이 길고, 클릭율이 높다. ⇒ 식품료에 대한 소비를 오프라인보다 온라인에서 할 가능성이 높은 회원으로 분류

  • 서울에 거주하고 있는 30대의 직장인 남성이 쇼핑몰의 전자기기 카테고리에서 체류시간이 길고 장바구니에는 평균적으로 10개 이상의 상품을 보관한다 ⇒ 전자기기에 관심이 많은 소비자, 장바구니의 평균 가격대가 높은 것으로 보아 고가의 상품을 복합적으로 고려하여 구매하는 회원으로 분류 → 전자기기 관련 할인 쿠폰 발송 고려

Last updated