Bag-of-Words
λ¨μ΄ κ°λ°© λͺ¨λΈ(Bag-of-Words Model)μ μμ°μ΄ μ²λ¦¬(NLP)μμ λ리 μ°μ΄λ κ°λ¨νκ³ μ§κ΄μ μΈ λ‘μ§μ λλ€. κΈμ¨ μλ£λ₯Ό μ«μνμΌλ‘ λννκΈ° μν΄ μ°μ λλ€. μ΄λ λ¬Έλ§₯ λΆλ₯, λΆμ, μ 보 νμμ μμ£Ό μ°μ΄λ μμ μ λλ€.
λ¨μ΄ κ°λ°© λͺ¨λΈμ λ¬Έλ², μμ, λ¬Έλ§₯μ 무μνκ³ λ¨μ΄μ κ°λ°©μΌλ‘μ¨ κΈμ¨λ₯Ό λνν©λλ€.
κ° λ¬Έμλ λΉλμλ λ¨μ΄ μΉ΄μ΄νΈμ 벑ν°λ‘ λ³νλ©λλ€.
ꡬνμ΄ κ°λ¨νκ³ μ½μ΅λλ€. κ·Έλ¦¬κ³ μκ±°λ μ€κ° ν¬κΈ°μ λ°μ΄ν°μ μ 무리 μμ΄ μ μλν©λλ€.
λ¬Έλ² λΆλ₯λ μλ―Έ λΆμμ ν¨κ³Όμ μ λλ€.
ꡬνμ΄ κ°λ¨νκ³ μ½μ΅λλ€. κ·Έλ¦¬κ³ μκ±°λ μ€κ° ν¬κΈ°μ λ°μ΄ν°μ μ 무리 μμ΄ μ μλν©λλ€.
How Does the Bag-of-Words Model Works
ν ν°ν(tokenization)λ ν κΈμλ₯Ό λ¨μ΄μ ννλ‘ λΆλ¦¬νλ κ²μ λ§ν©λλ€.
λ¨μ΄μ₯ μμ±(vocabulary/dictionary creation)λ λͺ¨λ κ°λ³μ λ¨μ΄λ₯Ό λ§ λμΉλ‘ λ§λλ μ¬μ μ λ§λλλ€.
벑ν°ν(vectorization)λ λ¨μ΄μ₯μ μλ κ° λ¨μ΄μ ν΄λΉ νλ μ°¨μμ μλ§μ κ°μ μ€λλ€.
μ΄λ, μ‘΄μ¬μ κ΄ν΄μ κ°μ μ£Όλ κ²μ μ‘΄μ¬ λ²‘ν°ν(presence vectorization), λ¨μ΄μ λΉλμμ λ§μ μΉ΄μ΄νΈ κ°μ μ£Όλ κ²μ λ¨μ΄ λΉλμ(wordβs frequency)μ λλ€.
μ κ° μ§μ μμ±ν ꡬν μ½λλ₯Ό νμΈνμΈμ!
Last updated