ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2020.07.20 진행단계
    진행단계 2020. 7. 20. 22:25

    1. 업종코드 dictionary & Embedding

     - 758개의 업종코드(소분류기준)

     - 알파벳 순으로 정렬한 뒤 대분류, 중분류에 대한 Score Matrix를 생성.

     - SVD를 활용하여 X=USVt형태로 만들고 U행렬 각 행의 0번째 1번째 값을 벡터로 사용.

     - 계산한 벡터로 Cosine 유사도를 측정한 결과 대분류만 같아도 유사도가 1(같음)이 나오는 오류 발생.

     - 0번째 벡터가 같고 1번째 벡터가 다르나 1번째 벡터의 값이 0번째 벡터에 비해 너무 작은 값이어서 영향을 못주는 것으로 추정.

     - 벡터의 크기를 14~16으로 설정할 시 중분류까지 같은 경우 1.0 대분류만 같을경우 약 0.67의 유사도를 보임.

     - 13이하일시 중분류 1.0, 대분류 약 0.97의 유사도를 보임.

     - 17이상일시 중분류 1.0, 대분류의 경우 -(마이너스)의 값을 보임.

     - 의도와는 다르나 14~16에서 제일 작은 14로 결정.

     - dictionary상 가까워도 분류가 다르면 유사도는 낮게 나오는 것을 확인.

     

    '진행단계' 카테고리의 다른 글

    2020.08.06 진행단계  (0) 2020.08.06
    2020.07.27 진행단계  (0) 2020.07.27
    2020.07.15 진행단계  (13) 2020.07.15
Designed by Tistory.