【大数据实战】将普通文本文件导入ElasticSearch

BH8ANK 2019-03-08 原文

以《刑法》文本.txt为例。

一、格式化数据

1，首先，ElasticSearch只能接收格式化的数据，所以，我们需要将文本文件转换为格式化的数据—json。

下图为未处理的文本文件。

2，这里，使用python文件操作，将文本格式化为ElasticSearch可识别的json格式。

#python 3.6
#!/usr/bin/env python
 
# -*- coding:utf-8 -*-
__author__ = 'BH8ANK'
'''
最终将输出格式改为
{"index":{"_index":"xingfa","_id":1}}
{"text_entry":"犯罪的行为或者结果有一项发生在中华人民共和国领域内的，就认为是在中华人民共和国领域内犯罪。"}
'''
 
 
'''读取文件
'''
a = open(r"D:\xingfa.txt", "r",encoding='utf-8')
out = a.read()
#print(out)
TypeList = out.split('\n')
#print(TypeList)
lenth = len(TypeList)
print(lenth)
number = 1
ju_1 = '{"index":{"_index":"xingfa","_id":'
ju_2 = '{"text_entry":"'
 
# print(ju_1)
for x in TypeList:
    res_1 = ju_1 + str(number) + '}}'+'\n'
    print(res_1)
    a = open(r"D:\out.json", "a", encoding='UTF-8')
    a.write(res_1)
    res_2 = ju_2 + x + '"}'+'\n'
    print(res_2)
    a = open(r"D:\out.json", "a", encoding='UTF-8')
    a.write(res_2)
    a.close()
    number+=1

3，执行后，输出的json内容为：

二、将数据导入ElasticSearch

1，我们要为即将导入的数据，建立映射。此操作可以在kibana或命令行完成。

PUT /xingfa
{
 "mappings": {
  "doc": {
       "properties": {
          "text_entry":{"type":"keyword"}
       }  
  }
 }
}

2，登录虚拟机，将之前生成的out.json文件，导入到对应ElasticSearch集群中。

我们的ES组网情况如上图。

操作如下：

命令如下：

curl -H 'Content-Type: application/x-ndjson' -XPOST '10.0.0.19:9200/xingfa/doc/_bulk?pretty' --data-binary @out.json

等待命令执行完成后，即可登录kibana去查询对应的数据了。

使用查询语句：

GET /xingfa/_search/
{
  "query": { "match_all": {} },
  "size":"9999"                         //此处设置为9999，主要原因是，不加参数的话，默认搜索结果仅显示部分，一般是5.
}

也可以直接在虚拟机命令行里，查询这个索引，确认数据是否已经完成上传。

使用查询语句：

curl -XGET "http://10.0.0.19:9200/xingfa/_search/" -H 'Content-Type: application/json' -d'
{
  "query": {
    "match_all": {}
  },
  "size": "9999"
}'

至此，完成数据导入。

版权声明：本文为BH8ANK原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/BH8ANK/p/10496756.html

【大数据实战】将普通文本文件导入ElasticSearch的更多相关文章

HDFS 07 – HDFS 性能调优之合并小文件
HDFS 集群的性能瓶颈中，常常会听到“小文件太多”类似的描述。为什么太多的小文件会影响 HDFS 的性能呢 […]...
QQ音乐：React v16 新特性实践
欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~ 本文由QQ音乐技术团队发表于云+社区专栏自从去年 […]...
IT视频课程集(包含各类Oracle、DB2、Linux、Mysql、Nosql、Hadoop、BI、云计算、编程开发、网络、大数据、虚拟化 – 冰云
IT视频课程集(包含各类Oracle、DB2、Linux、Mysql、Nosql、Hadoop、BI、云计算、 […]...
ElasticSearch 分词器
本节介绍 ElasticSearch 如何进行分词以及分词器相关内容。公号：码农充电站pro主页：https […]...
ElasticSearch- 单节点 unassigned_shards 故障排查
故障现象在部署ELK的单机环境，当连接Kibana时候提示下面错误，即使重启整个服务也是提示Kibana s […]...
cloudera manager server迁移
一、迁移背景　　服务器出了问题，导致整个cm server界面呈现出不可用的状态，也就是获取不到各个大数据组 […]...
ElasticSearch-命令行客户端操作
1.引言实际开发中，主要有三种方式可以作为elasticsearch服务的客户端：第一种，elastics […]...
ELK实践（二）：收集Nginx日志
Nginx访问日志这里补充下Nginx访问日志使用的说明。一般在nginx.conf主配置文件里需要定义一种 […]...

随机推荐

swizzle method 和消息转发机制的实际使用
我的工程结构，如图 1-0 　　　　　　　　图 1-0 在看具体实现以前，先捋以下实现思路。 […]...
（二）版本控制管理器之CVS（上）
在前一篇《（一）版本控制管理器之发展史》的介绍中，有提到古典时期的CVS，那什么是CVS？CVS特点是什么 […]...
DB2 数据库的安装配置及监控
一.DB2简介 IBM公司研制的一种关系型数据库系统。DB2主要应用于大型应用系统，具有较好的可伸缩性，可支持 […]...
字符串匹配的KMP算法详解及C#实现 – Joey_zy0210
字符串匹配的KMP算法详解及C#实现字符串匹配是计算机的基本任务之一。　　举例来说，有一个字符串̶ […]...
集合迭代器Iterator
迭代器模式：就是提供一种方法对一个容器对象中的各个元素进行访问，而又不暴露该对象容器的内部细节。什么是迭代器 […]...
EF Core中怎么实现自动更新实体的属性值到数据库
我们在开发系统的时候，经常会遇到这种需求数据库表中的行被更新时需要自动更新某些列，比如下面的Person表有一 […]...
JAVA_基础反射创建运行时类的对象
通过反射去创建对应的运行时类的对象 newInstance()：调用此方法，创建对应的运行时类的对象。内部调用 […]...
Windows Unity ARKit发布到IOS相关设置及错误解决
Windows Unity ARKit发布到IOS相关设置及错误解决 Windows 版Unity安装：考虑 […]...

展开目录

目录导航