本文介绍solr的基本数据操作,基于solr 8.2。solr支持多种数据格式,包括XML,JSON,CSV等,并提供多种脚本和工具来操作数据。本文讲解curl请求和JSON数据格式的处理方式。

本文使用单solr服务来演示数据操作,创建名为 my_core 的solr core, 文档schema如下:

  1. <schema name="my" version="1.0">
  2. <uniqueKey>id</uniqueKey>
  3. <fieldType name="string" class="solr.StrField" sortMissingLast="true"/>
  4. <field name="id" type="string" multiValued="false" indexed="true" required="true" stored="true"/>
  5. <field name="author" type="string" multiValued="false" indexed="true" required="true" stored="true"/>
  6. <field name="title" type="string" indexed="true" required="true" stored="true" multiValued="false"/>
  7. <field name="tags" type="string" multiValued="true" indexed="true" stored="true"/>
  8. </schema>


  1. curl -X POST -H 'Content-Type: application/json' 'http://localhost:8983/solr/my_core/update/json/docs?commit=true' --data-binary '
  2. {
  3. "id": "0132350882",
  4. "author": "Robert C. Martin",
  5. "title": "Clean Code: A Handbook of Agile Software Craftsmanship",
  6. "tags": [
  7. "Computer Programming Languages",
  8. "Software Testing",
  9. "Software Design & Engineering"
  10. ]
  11. }'


  1. -X POST : 设置HTTP请求类型为POST,后续所有操作都为POST请求
  2. -H 'Content-Type: application/json' : 设置请求格式为JSON
  3. http://localhost:8983/solr/my_core/update/json/docs?commit=true: 请求地址URL和查询参数。其中 http://localhost:8983 为solr服务的地址和端口, my_core 为文档插入的core名称,可以根据自己的实际情况调整。 comment=true 参数表示此操作要进行同步提交。如果不设置此参数, solr则会根据 solrconfig.xml 文件 UpdateHandler 配置荐中的 autoCommit 配置延迟提交修改。
  4. --data-binary :此参数指定操作所需的JSON数据,这里是新插入的文档。



  1. curl -X POST -H 'Content-Type: application/json' 'http://localhost:8983/solr/my_core/update/json/docs' --data-binary '
  2. {
  3. "id": "0132350882",
  4. "title": "Clean Code: A Handbook of Agile Software Craftsmanship"
  5. }'

因为请求的JSON数据缺少了必需的字段 author ,solr会返回以下的错误信息:

  1. {
  2. "responseHeader":{
  3. "status":400,
  4. "QTime":6},
  5. "error":{
  6. "metadata":[
  7. "error-class","org.apache.solr.common.SolrException",
  8. "root-error-class","org.apache.solr.common.SolrException"],
  9. "msg":"[doc=0132350882] missing required field: author",
  10. "code":400}}

此时,可以根据信息中的 msg 字段以及solr的日志来排查问题所在。后续其他操作的错误信息也会遵循类似的行为。


  1. curl -X POST -H 'Content-Type: application/json' 'http://localhost:8983/solr/my_core/update/json/docs?commit=true' --data-binary '
  2. [
  3. {
  4. "id": "0132350882",
  5. "author": "Robert C. Martin",
  6. "title": "Clean Code: A Handbook of Agile Software Craftsmanship",
  7. "tags": [
  8. "Computer Programming Languages",
  9. "Software Testing",
  10. "Software Design & Engineering"
  11. ]
  12. },
  13. {
  14. "id": "0201633612",
  15. "author": "Erich Gamma",
  16. "title": "Design Patterns: Elements of Reusable Object-Oriented Software",
  17. "tags": [
  18. "Object-Oriented Design",
  19. "Software Reuse",
  20. "Object-Oriented Software Design"
  21. ]
  22. }
  23. ]'

修改文档的一种方式是使用solr的JSON命令接口来覆写现有的文档。比如在按照前文中的例子插入文档 0132350882 后,执行:

  1. curl -X POST -H 'Content-Type: application/json' 'http://localhost:8983/solr/my_core/update?commit=true' --data-binary '
  2. {
  3. "add": {
  4. "doc": {
  5. "id": "0132350882",
  6. "author": "Robert C. Martin",
  7. "title": "Clean Code"
  8. }
  9. }
  10. }'


  1. 请求路径变为 /solr/my_core/update ,而不是 /solr/my_core/update/json/docs
  2. 请求体中的JSON需要 add 节点来表示操作类型。 add 节点下的 doc 子节点是需要修改的文档。add 下还可以添加其他节点,来指定操作的其他参数,比如 overwrite 。这里不再展开。

solr会根据schema中配置的主键来查询已有的文档记录,这里是 id,并用 doc 节点的内容覆写已有文档,所以 doc 节点需要给出完成的文档内容,没有出现在 doc 节点中的属性会从文档中删除。在这此例中,执行完操作后,文档 0132350882title 属性会被修改,而 tags 属性则会被删除。

注意到此JSON命令中的类型是 add 而不是 update , 因而当 doc 的主键没有对应记录存在时, solr会将 doc 内容作为一条新记录插入:

  1. curl -X POST -H 'Content-Type: application/json' 'http://localhost:8983/solr/my_core/update?commit=true' --data-binary '
  2. {
  3. "add": {
  4. "doc": {
  5. "id": "0134685997",
  6. "author": "Joshua Bloch",
  7. "title": "Effective Java"
  8. }
  9. }
  10. }'

当这条操作执行完后,会新增一条文档 0134685997

进一步的,当此JSON命令中如果存在多个 add 节点,则可以同时对多条文档记录进行覆写操作。

solr还提供另外一种修改文档的方式,原子修改(atomic update)。这种方式可以修改文档中指定的字段,而不需要提供完整的文档对象。

使用原子更新,solr core的配置需要满足以下条件

  1. schema中包含 _version_字段
  2. solrconfig.xml 配置文件中包含 updateLog 配置项

这里,我们将 schema.xml 文件调整为:

  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!-- Solr managed schema - automatically generated - DO NOT EDIT -->
  3. <schema name="my" version="1.0">
  4. <uniqueKey>id</uniqueKey>
  5. <fieldType name="string" class="solr.StrField" sortMissingLast="true"/>
  6. <fieldType name="long" class="solr.LongPointField" omitNorms="true"/>
  7. <field name="_version_" type="long" indexed="true" stored="true" multiValued="false"/>
  8. <field name="author" type="string" multiValued="false" indexed="true" required="true" stored="true"/>
  9. <field name="title" type="string" indexed="true" required="true" stored="true" multiValued="false"/>
  10. <field name="id" type="string" multiValued="false" indexed="true" required="true" stored="true"/>
  11. <field name="tags" type="string" multiValued="true" indexed="true" stored="true"/>
  12. </schema>

solrconfig.xml 文件中添加 updateHandlerupdateLog 配置项:

  1. <config>
  2. <luceneMatchVersion>8.2.0</luceneMatchVersion>
  3. <updateHandler>
  4. <updateLog>
  5. <str name="dir">${solr.ulog.dir:}</str>
  6. </updateLog>
  7. </updateHandler>
  8. </config>


  1. curl -X POST -H 'Content-Type: application/json' 'http://localhost:8983/solr/my_core/update?commit=true' --data-binary '
  2. [
  3. {
  4. "id": "0132350882",
  5. "title": { "set": "Clean Code" },
  6. "tags": {
  7. "add": "Computer Science",
  8. "remove": "Software Testing"
  9. }
  10. }
  11. ]'

注意,无论是要修改一个还是多个文档,JSON数据的根节点都必须是一个数组,否则solr会当作覆写操作来解析。 id 用来定位要修改的文档。 title节点中的 set 表示将title字段修改为指定值。 tags 节点有两个操作, addremove ,分别表示将 Computer Science 元素添加到 tags 数组中,将 Software Testing 元素从 tags 数组中删除。此例中addremove 对应的值是单个元素,它们也可以接受数组值,用来表示同时插入或者删除多个值。


  1. curl -X POST -H 'Content-Type: application/json' 'http://localhost:8983/solr/my_core/update?commit=true' --data-binary '
  2. {
  3. "delete": { "id": "0132350882" }
  4. }'


如果需要根据查询条件删除所有的匹配文档,通过 query 来指定匹配条件。比如要删除所有 tags 中含有 Computer Programming Languages 的文档:

  1. curl -X POST -H 'Content-Type: application/json' 'http://localhost:8983/solr/my_core/update?commit=true' --data-binary '
  2. {
  3. "delete": { "query": "tags:\"Computer Programming Languages\"" }
  4. }'


  1. curl -X POST -H 'Content-Type: application/json' 'http://localhost:8983/solr/my_core/update?commit=true' --data-binary '
  2. {
  3. "delete": { "query": "*:*" }
  4. }'



  1. curl 'http://localhost:8983/solr/my_core/replication?command=backup'



  1. curl 'http://localhost:8983/solr/my_core/replication?command=details'


solr在收到创建快照请求后,会在core的数据目录下创建一个名为 snapshot.<yyyyMMddHHmmssSSS> 目录,用来保存快照数据。比如在 /var/solr/data/my_core/data 目录下会有类似 snapshot.20191203092949307 这样快照目录。



  1. curl 'http://localhost:8983/solr/my_core/replication?command=restore'


  1. curl 'http://localhost:8983/solr/my_core/replication?command=restorestatus'

solr在收到数据恢复请求之后,会在core的数据目录下查找命名格式为 snapshot.<yyyyMMddHHmmssSSS> 的目录,然后使用目录名后缀的时间最大的快照来进行数据恢复。

此文中只简单介绍了solr数据的基本操作,这些操作还有很多其他的参数和用法,而且还有很多其他的操作。这些操作可以参考solr的官方文档。文中的例子是基于solr 8.2版本的,最新版本的solr的操作会有不同,下面列出的都是solr 8.2的文档。

