出版行业如何选择大模型

过年期间deepseek吵得很热闹,不过就我看到的信息,更像是一次冲喜,毕竟要过除夕了。我不太相信惊喜,二十年前在武汉的某博士沙龙上我突发灵感得到的结论,一切惊喜都可视作异常。回京后,做了下简单的测试,拿一个简单地问题去问这几个模型,这个问题还不算很苛刻,只是想看看训练时的语料审查有多么严重。

按结果的省略程度排序依次是:

  1. deepseek
  2. qwen
  3. mistral

拿出版行业来说,尽管审查也是一个很重的任务,但这个任务是由编辑来承担的,大模型没有权力直接来操刀,否则很容易造成失真,编辑就没法干活了。即使有deepseek无审查版也不行,因为那个无审查只是推理时无审查,并不能解决训练阶段的语料审查。

所以,这个可以当作出版行业大模型的一个选择条件,如果是2C我没有什么意见,安全第一,但是从编辑专业角度而言,必须选择一个中立的大模型来作为基础模型。这几个里面,没有哪个合适的,勉强选择的话只有mistral可以考虑,但这家伙中立的过分了,其实作为专业模型,我们不需要大模型给出态度和立场。

所以,行业模型还要从更基础的模型来做。

用Caddy部署wordpress

年前把公司网站的服务器换到了caddy上,今天想写一篇博客,发现证书过期了,之前用了certbot但是配置自动任务还是比较麻烦的,尤其是用了docker。索性一起换掉。

docker-compose.yml中的配置如下:

  caddy:
    image: registry.cn-beijing.aliyuncs.com/futuremeng/caddy:1.1
    container_name: caddy
    restart: unless-stopped
    environment:
      - TZ=Asia/Shanghai
    volumes:
      - ./services/caddy/config:/config
      - ${DATA_DIR}/caddy:/data
      - ${SOURCE_DIR}:/www/:rw
      - ${LOGS_DIR}/caddy:/var/log/caddy
    ports:
      - "80:80"
      - "443:443"
    networks:
      - default

其中的env变量请自行脑补。

caddyfile:

https://WordPress.com {
        root * /www/WordPress
        php_fastcgi php80:9000 {
                trusted_proxies private_ranges
        }
        file_server
        encode gzip
        @disallowed {
                path /xmlrpc.php
                path *.sql
                path /wp-content/uploads/*.php
        }
        rewrite @disallowed '/index.php'
}

详情可见:

https://github.com/futuremeng/dnmp