'진행단계' 카테고리의 글 목록

2020.08.06 진행단계

진행단계 2020. 8. 6. 12:56

1. 언어 모델 프로토 타입 제작 - Keras를 활용하여 프로토 타입의 언어 모델을 제작하였다. - Corpus에서 문자 sequence와 임베딩한 업종을 받아 언어모델을 학습 - 문자 시퀀스는 LSTM모델로, 업종은 일반 인공신경망 모델로 학습. - 1 epoch당 약 9분30초걸림(colab 기준) 2. 웹서버 제작 중 - 언어 모델의 프로토타입을 올릴 예정 - 아직까지 언어모델에 버그가 있어 좀 더 걸릴 예정.

2020.07.27 진행단계

진행단계 2020. 7. 27. 20:54

1. 음절 단위 임베딩 - 2275개의 음절을 count vector기법을 활용하여 벡터화하고 SVD변환을 통해 벡터의 차원을 줄인다. - 벡터의 차원이 작으면 음절 간의 유사도가 상당히 높게 나온다. - 어차피 음절 간의 유사도를 사용하지는 않을 예정이지만 유사도가 높게 나오는 쌍이 꽤 있다는 점이 걸린다... - 추후 cross-validation model selection을 통해 최적의 차원을 구해야할 것 같다.

2020.07.20 진행단계

진행단계 2020. 7. 20. 22:25

1. 업종코드 dictionary & Embedding - 758개의 업종코드(소분류기준) - 알파벳 순으로 정렬한 뒤 대분류, 중분류에 대한 Score Matrix를 생성. - SVD를 활용하여 X=USVt형태로 만들고 U행렬 각 행의 0번째 1번째 값을 벡터로 사용. - 계산한 벡터로 Cosine 유사도를 측정한 결과 대분류만 같아도 유사도가 1(같음)이 나오는 오류 발생. - 0번째 벡터가 같고 1번째 벡터가 다르나 1번째 벡터의 값이 0번째 벡터에 비해 너무 작은 값이어서 영향을 못주는 것으로 추정. - 벡터의 크기를 14~16으로 설정할 시 중분류까지 같은 경우 1.0 대분류만 같을경우 약 0.67의 유사도를 보임. - 13이하일시 중분류 1.0, 대분류 약 0.97의 유사도를 보임. - 17이..

2020.07.15 진행단계

진행단계 2020. 7. 15. 19:04

1. 중복 데이터 제거 - 상호의 대부분이 지점명을 포함하고 있음. - 지점명을 상호명에서 뺀 후 겹치는 상호명을 제거 - 지점명이 따로 데이터화 안되어 있는 경우 분류하지 못하는 문제 발생 2. 상호명에 쓰인 글자 카탈로그화 - 2275개의 글자, 유니코드 순으로 정렬(아마도) - 각종 특수기호(띄어쓰기 포함), 외국어(영어, 일본어, 한자) 포함 - 자주 쓰이지 않는 글자(예: 랖, 뷴, 딪 등등)의 경우 sigmoid함수를 통해 확률을 극단적으로 낮추고 자주 쓰이는 글자의 경우 확률을 보다 높히고 글자들 간의 확률 밀도를 좁게 만들 예정 3. 상호 데이터 db화 - 상호데이터를 sql 데이터베이스에 저장

ABOUT ME

Markov Chain을 활용한 상호 생성 시스템 Markov Chain을 활용한 상호 생성 시스템

티스토리툴바