使用github--stanfordnlp--glove训练自己的数据词向量

dhName 2020-02-23 原文

1.准备语料

准备好自己的语料，保存为txt，每行一个句子或一段话，注意要分好词。将分好词的语料保存为×××.txt

2.准备源码

下载地址：https://github.com/stanfordnlp/GloVe，解压后将语料×××.txt添加到GloVe-master文件夹下

3.修改训练语料地址

打开demo.sh文件，由于默认是下载TXT8作为语料，故将这段代码删除，并修改CORPUS=×××.txt，最终文件内容如下：

其他应该都可以自行修改。

4.执行

打开终端，进入GloVe-master文件后：

(1)make

(2)demo.sh

5.修改词向量文件

训练后会得到vetors.txt，打开后在第一行加上vacob_size vector_size，这样才能用word2vec的load函数加载成功

第一个数指明一共有多少个向量，第二个数指明每个向量有多少维

6.加载使用巽寮的词向量

1 from gensim.models import Word2Vec  
2   
3 model = Word2Vec.load_word2vec_format(‘vectors.txt’, binary=False)

接下来的使用就和word2vec一样

随机推荐

HashMap源码分析

HashMap源码分析目录目录 1. 概述 2. 存储结构 2-1. 什么是hash冲突? 2-2. 如何 […]...

django之初建项目

一、项目预览　　1.在创建项目之前，必须先进入虚拟环境，因为我们的包安装在我们的虚拟环境中，不在我们的中环境 […]...

如何安装新版Android Studio 3.0 – CSDN博客http://blog.csdn […]...

MapGuide 资源

blogs： 1）http://blog.csdn.net/MapGuide_Inside 2）http:// […]...

linux服务器—安装swat

安装swat swat是一个图形化的samba管理软件，可以帮助不熟悉的人去灵活的配置samba服 […]...

tar解压

tar在linux上是常用的打包、压缩、加压缩工具，他的参数很多，折里仅仅列举常用的压缩与解压缩参数参数： […]...

ActiveMQ笔记：源码分析

本文对ActiveMQ的启动过程，以及BrokerService，TransportConnector和Net […]...

一次依赖注入不慎引发的一连串事故起因和现象偶尔会看到线上服务启动的时候第一波流量进来之后，迟迟没有任何的 […]...

使用github--stanfordnlp--glove训练自己的数据词向量的更多相关文章