日期: 2025 年 2 月 5 日

  • 出版行业如何选择大模型

    过年期间deepseek吵得很热闹,不过就我看到的信息,更像是一次冲喜,毕竟要过除夕了。我不太相信惊喜,二十年前在武汉的某博士沙龙上我突发灵感得到的结论,一切惊喜都可视作异常。回京后,做了下简单的测试,拿一个简单地问题去问这几个模型,这个问题还不算很苛刻,只是想看看训练时的语料审查有多么严重。

    按结果的省略程度排序依次是:

    1. deepseek
    2. qwen
    3. mistral

    拿出版行业来说,尽管审查也是一个很重的任务,但这个任务是由编辑来承担的,大模型没有权力直接来操刀,否则很容易造成失真,编辑就没法干活了。即使有deepseek无审查版也不行,因为那个无审查只是推理时无审查,并不能解决训练阶段的语料审查。

    所以,这个可以当作出版行业大模型的一个选择条件,如果是2C我没有什么意见,安全第一,但是从编辑专业角度而言,必须选择一个中立的大模型来作为基础模型。这几个里面,没有哪个合适的,勉强选择的话只有mistral可以考虑,但这家伙中立的过分了,其实作为专业模型,我们不需要大模型给出态度和立场。

    所以,行业模型还要从更基础的模型来做。

  • 用Caddy部署wordpress

    年前把公司网站的服务器换到了caddy上,今天想写一篇博客,发现证书过期了,之前用了certbot但是配置自动任务还是比较麻烦的,尤其是用了docker。索性一起换掉。

    docker-compose.yml中的配置如下:

      caddy:
        image: registry.cn-beijing.aliyuncs.com/futuremeng/caddy:1.1
        container_name: caddy
        restart: unless-stopped
        environment:
          - TZ=Asia/Shanghai
        volumes:
          - ./services/caddy/config:/config
          - ${DATA_DIR}/caddy:/data
          - ${SOURCE_DIR}:/www/:rw
          - ${LOGS_DIR}/caddy:/var/log/caddy
        ports:
          - "80:80"
          - "443:443"
        networks:
          - default

    其中的env变量请自行脑补。

    caddyfile:

    https://WordPress.com {
            root * /www/WordPress
            php_fastcgi php80:9000 {
                    trusted_proxies private_ranges
            }
            file_server
            encode gzip
            @disallowed {
                    path /xmlrpc.php
                    path *.sql
                    path /wp-content/uploads/*.php
            }
            rewrite @disallowed '/index.php'
    }

    详情可见:

    https://github.com/futuremeng/dnmp