word2vec原理

r0825 2019-05-24 原文

word2vec是将词转化为向量的一个强大的工具，它是google在2013年推出的，其特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系。

word2vec一般分为CBOW与Skip-Gram两种模型，下面会分别对两种模型进行具体的介绍。

本文参考的内容会在文章的下方列出。

一. CBOW

CBOW模型是根据中心词周围的n个词来预测中心词。

CBOW的模型结构图如下：

模型由输入层、隐藏层和输出层组成。

模型最终要求出的其实是输入层和隐藏层之间的权重矩阵，下面会详细说明模型的具体步骤：

这里假设上下文的单词个数为N,单词向量空间dim为M，也就是词典的大小

输入时上下文的one-hot向量
输入层和隐藏层之间的权重为W（M*N，N为自己设定的个数）对权重初始化，所得的向量进行相加求平均操作，size为1*N
隐藏层和输出层的权重为W‘（N*M），2得到的结果乗W‘，得到1*M的向量
得到的向量与true label的one-hot做比较，误差越小越好

流程举例：

现在有一句话：I drink coffee everyday

要预测coffee这个词的词向量，我们选取的窗口大小为2，也就是根据“I”，“drink”，“everyday”来预测预测一个单词，并且希望最终的结果是“coffee”

二. Skip-Gram

Skip-Gram模型是根据当前词预测上下文。

Skip-Gram的模型结构如下图所示：

该结构和CBOW模型相反，但是同样都是输入层隐藏层和输出层。

输入层：单词的one-hot向量

隐藏层：对隐藏层权重矩阵的学习，首先初始化权重矩阵，权重矩阵通过梯度下降法来更新。

输出层：实际上是一个概率分布（即一堆浮点数的组合，而不是一个one-hot向量）

总结

以上内容对CBOW和Skip-Grap两个模型的原理进行了介绍，之后会从word2vec的两种改进方法进行讲述，一种是基于Hierarchical Softmax的，另一种是基于Negative Sampling的。

参考内容：

https://www.zhihu.com/question/44832436

https://www.jianshu.com/p/d6a0aec6e9a1

https://www.cnblogs.com/pinard/p/7160330.html

本文链接：https://www.cnblogs.com/r0825/p/10920274.html

word2vec原理的更多相关文章

数据挖掘——统计学分析（一：数据的整理与图示表示）

数据预处理 1、数据审核：检查数据中是否有错误原始数据->完整性：所调查的对象是否有遗漏。 […]...

为什么85%的大数据项目总是失败？

企业在推行大数据项目时往往把项目规模和范围做得很大，但是事实却是，很多大数据项目通常都会失败。2016年，Ga […]...

使用TensorFlow实现DNN

使用TensorFlow实现DNN 这一节使用TF实现一个多层神经网络模型来对MNIST数据集进行分类，这里我 […]...

【开源】C#.NET股票历史数据采集，【附18年历史数据和源代码】

如果用知乎,可以关注专栏:.NET开源项目和PowerBI社区重点重点：我没有买股票，没有买股票，股市是个坑 […]...

找出共同好友 – 数据挖掘 – Scala版

找出共同好友 – 数据挖掘 – Scala版大家好，关于“找出共同好友”的算法，网上 […]...

入门大数据行业！必备的十大基础

入门大数据行业！必备的十大基础 2019-05-19 15:09 by 懂天明, … 阅读, &# […]...

手把手教你使用Python抓取QQ音乐数据（第一弹）

【一、项目目标】获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。由浅入深，层层递进 […]...

用Python做词云可视化带你分析海贼王、火影和死神三大经典动漫

对于动漫爱好者来说，海贼王、火影、死神三大动漫神作你肯定肯定不陌生了。小编身边很多的同事仍然深爱着这些经典神作 […]...

随机推荐

好代码是管出来的——.Net Core集成测试与数据驱动测试

　　软件的单元测试关注是的软件最小可执行单元是否能够正常执行，但是软件是由一个个最小执行单元组成的集合体，单元 […]...

poj Raising Modulo Numbers 快速幂模板（取膜）

Raising Modulo Numbers Time Limit: 1000MS Memory Limi […]...

AspNetCore源码解析_1_CORS中间件

CORS, 跨域， JSONP 概述什么是跨域在前后端分离开发方式中，跨域是我们经常会遇到的问题。所谓的跨 […]...

[编译] 3、在Linux下搭建51单片机的开发烧写环境（makefile版）

星期二, 10. 七月 2018 01:01上午 – beautifulzzzz 一、SDCC（S […]...

iOS 企业账号申请证书和打包ipa

准备： 299美元的企业账号。 1、登陆苹果开发者中心: https://developer […]...

机器学习技法之支持向量回归（SVR）

核逻辑回归（Kernel Logistic Regression） SVM 和 Regularization […]...

PS中缩放工具的细微缩放不可以使用的解决方法

我的PS中的细微缩放是灰色的，就像是这样的：那么怎么办呢？解决方法如下： 1.点击PS菜单栏中的“编辑”– […]...

ide phpStorm 配置PHP路径并本地执行PHP脚本

1.打开设置(File – Settings) 2. 3. 4.到需要执行脚本的文件处，右击 &# […]...