我曾经写过《网站群在保障高校网站安全中的重要作用》,我一直认为网站群在安全方面非常重要。现在基本上高校都有网站群了。

由于历史原因,我们同时用了国内高校市占率比较高的S、B两家的产品。脚踏两只船各有优缺点,有兴趣以后说。这个月折腾了这两个系统三级等保测评,发现安全也不是铁板一块。最近S公司一起交流了新版,又在线上听了B公司的广告,很可喜地看到各家都有一些新的版本发布,在功能上大家也是你追我赶,互相抄袭,很好。

我看到安全作为一块非常独立的功能推出,甚至于用户态的网站群都可以看到系统级的防火墙配置。我看到内容安全方面,有错别字查找、恶意代码检测、以图搜图、全站关键字查找并管理、个人信息保护等等。

我看到在部署模式上引入了容器。我以前很烦这些人不使用包管理器,非标准化安装,部署人员水平不一不规范垃圾文件一大堆等问题得到了缓解。

我看到对接了各个新媒体,甚至关口前移到内容的最源头,媒体融合发展,全媒体。对于API对接的安全在我《新媒体自媒体等发布平台运营安全相关》里面有提到一些。

我还看到轻应用。。。什么鬼?

新功能的开展,我是持保留态度的,我认为网站群,就应当定位清楚,在高校这个环境里,在技术和内容安全这个大前提下,网站群他的功能应当越简单越好,减少攻击面。应当把简单发挥到极致。

然后我要引出今天我要说的内容,在标准遵守方面,我看到的这块缺失还是比较大的。

本人只基于现状,以及我所能了解到的现状,如有错误请指出。

不歧视机器

我以下谈到的,一个核心问题是,在这个世界,不止人,还有很多机器也在看着新闻

当我给机器写程序时,我会关注未来的我或者协作者可以看懂,所以我会考虑重构,考虑排版美化,我为了可读性会牺牲性能。

当我给人写新闻时,我会考虑机器如何读他,我不会关注排版,我更关注如何输出一些元数据或者标签给机器。

目前存在的问题

作为高校内容管理的基座,很多公司却忽略了包括SEO在内的一些非常重要的功能。

如果认真来分析,有些不是公司的锅,是大环境造成的。我看过太多的编辑,直接把Word拷贝黏贴后利用所谓系统自带的“一键排版”,甚至于,PDF或者Word直接做成附件,也就是,你看到一篇新闻,除了一个标题,内容就是一个附件,要下载才能看到。

对于很多人来说,平时要写点文字,第一时间都是打开Word。我说过Word是万恶之源。有过十几年上网经历的人应该会知道以前的纯文本BBS,真正好的内容,是没有格式的

所以投稿很多都是Word来Word去的,审阅模式,打印花脸稿。

用户没这个需求,公司也就不会顺着用户的意思去发展产品。有一家还在推荐使用盗版的客户端工具。

CMS系统的发展:Jamstack

如果目光往国外看去,以前的CMS的代表可能是Wordpress、Drupal等等,私有化部署的,底层使用关系型数据库,非常heavy,现在更多人开始使用Jamstack架构了。Jamstack,存储一般会用Git版本控制,格式就用Markdown,发布直接发布在云服务。

JAM stands for JavaScript, API & Markup. “A modern web development architecture based on client-side JavaScript, reusable APIs, and prebuilt Markup” — Mathias Biilmann (CEO & Co-founder of Netlify).

我虽然一直推荐别人用网站群,但是我自己是不用网站群的,我对网站群其实不熟,我的个人主页使用Jekyll,托管在Github。

Jamstack更偏向工程师,在高校内还是有一定市场的,其实可以考虑整个Jamstack部署给校内教职工使用,但是,过等保确实会比较麻烦。

SEO

高校的新闻他没有类似自媒体那样子有SEO的需求,内容在那里,爱看不看,所以有些网站群缺失了以下功能:

  • URL没有友好性。一个好的URL应当是类似 https://www.engadget.com/amazon-echo-dot-clock-2020-review-143052099.html ,或许是中文和英文的差别,在URL友好上,做得都不好。有些可以做到栏目URL可自定义,但是也是很乱。比如某校比较大的校庆站点,在基于Linux严格大小写部署的环境下,URL大小写一团糟,毫无逻辑。
  • 没有永久性URL,导致切换到某一个其他CMS系统后旧链接全部失效。
  • XML sitemap缺失,没有想过去生成这种东西。
  • 提交各大搜索引擎功能缺失。
  • RSS地址未在栏目页公布。RSS地址未静态化。
  • 应当推荐响应式布局而不是多屏管理,多屏会造成搜索引擎看到不同链接相同内容,多屏也会导致维护工作量增加,多个端内容展示可能不同。

标准和元数据

部分网站群在head/meta/link等元数据处确实有加入一些包括Title、关键字等等内容,但是还处于初级阶段。举例一些最新的标准:

  • OpenSearch
  • ICON、apple-touch-icon,各种图标你认识清楚了么?https://css-tricks.com/favicon-quiz/ Favicons, Touch Icons, Tile Icons, etc. Which Do You Need?
  • 分享到微信后,如何显示标题,小题图和简要描述?需要加哪些元数据?(这里我也不懂)
  • The Open Graph protocol, https://ogp.me/
  • Linked Data,https://www.w3.org/TR/2014/REC-json-ld-20140116/
  • link rel=canonical ,多屏地址,应该多个屏幕最终指向一个共同的URL。

语义化 Semantic HTML5

高校的新闻网应该没有防爬虫的需求,网站群大家都知道有首页、栏目页和文章页几个基本页面,现在基本上所有都是DIV+CSS布局了,但是是否有迁移到语义化H5呢?是否有开始采用header、nav、main、article、section、aside、footer这些标签呢?

领导看一个网站会看漂不漂亮,我看一个网站首先是打开源代码,见“代码”如面。

为了更彻底的去格式,应当引入Markdown。考虑一个单位的新闻发布流程,应当是某个部门某个人,起草了新闻,送给领导审核,最后发布,这个过程,全部不需要关注格式,只有最后输出才进行格式化。

拥抱云

高校的新闻网,内容应当都是可完全公开的,他没有数据保护的风险,只有被篡改的风险。就像你在银行门口提着垃圾袋包着的传单正要发,突然被人飞车抢夺,最后还帮你发了,你简直就要大声笑出声来。

所以网站群是非常天然适合在云上的。想想在疫情期间,我们出口浪费了多少流量带宽费用?

据我所知,目前985高校,只有中山大学使用Drupal,混合云部署。

如果网站群上云后,等保非常容易做,安全物理环境,安全通信网络,安全区域边界都不用管了。数据库直接使用云平台提供的服务,安全计算环境也不用处理了。按需购买云平台安全能力,安全管理中心工作量也少很多。简直是秒过等保三级。

http://blog.nsfocus.net/djbh-cloud-computing-extension-requirements/

性能上还有提升,如果使用了云平台提供的对象存储OSS,将静态页面,所有静态资源版本化,天然CDN。以某云平台产品为例,可提供数据持久性99.999999999%,服务可用性99.995%,一年不到半个小时的不可用时间。

所以如何适配网站群,最大限度可以使用各大云平台的能力,也是公司应该考虑的方向。

未来

我看到有些公司将网站群的运维也接管,这是一个很好的契机。原先提升需要对大量高校内散落的模板制作者和编辑进行洗脑,转变成为通过技术手段,使用合规检测等一些手段,检查网站的标准;转变成通过对公司内部的可控的运维人员少部分人的培训提升,将高校新闻性质的网站各个方面提升一个层级。

靠你们了!