2025年2月5日 – 孟繁永

过年期间deepseek吵得很热闹，不过就我看到的信息，更像是一次冲喜，毕竟要过除夕了。我不太相信惊喜，二十年前在武汉的某博士沙龙上我突发灵感得到的结论，一切惊喜都可视作异常。回京后，做了下简单的测试，拿一个简单地问题去问这几个模型，这个问题还不算很苛刻，只是想看看训练时的语料审查有多么严重。

按结果的省略程度排序依次是：

deepseek
qwen
mistral

拿出版行业来说，尽管审查也是一个很重的任务，但这个任务是由编辑来承担的，大模型没有权力直接来操刀，否则很容易造成失真，编辑就没法干活了。即使有deepseek无审查版也不行，因为那个无审查只是推理时无审查，并不能解决训练阶段的语料审查。

所以，这个可以当作出版行业大模型的一个选择条件，如果是2C我没有什么意见，安全第一，但是从编辑专业角度而言，必须选择一个中立的大模型来作为基础模型。这几个里面，没有哪个合适的，勉强选择的话只有mistral可以考虑，但这家伙中立的过分了，其实作为专业模型，我们不需要大模型给出态度和立场。

所以，行业模型还要从更基础的模型来做。

年前把公司网站的服务器换到了caddy上，今天想写一篇博客，发现证书过期了，之前用了certbot但是配置自动任务还是比较麻烦的，尤其是用了docker。索性一起换掉。

docker-compose.yml中的配置如下：

  caddy:
    image: registry.cn-beijing.aliyuncs.com/futuremeng/caddy:1.1
    container_name: caddy
    restart: unless-stopped
    environment:
      - TZ=Asia/Shanghai
    volumes:
      - ./services/caddy/config:/config
      - ${DATA_DIR}/caddy:/data
      - ${SOURCE_DIR}:/www/:rw
      - ${LOGS_DIR}/caddy:/var/log/caddy
    ports:
      - "80:80"
      - "443:443"
    networks:
      - default

其中的env变量请自行脑补。

caddyfile：

https://WordPress.com {
        root * /www/WordPress
        php_fastcgi php80:9000 {
                trusted_proxies private_ranges
        }
        file_server
        encode gzip
        @disallowed {
                path /xmlrpc.php
                path *.sql
                path /wp-content/uploads/*.php
        }
        rewrite @disallowed '/index.php'
}

详情可见：

https://github.com/futuremeng/dnmp

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

日期: 2025 年 2 月 5 日

出版行业如何选择大模型

用Caddy部署wordpress