Thread

Replies (13)

🛡️
它自称拥有八亿六千万用户的记录, 包含三千六百万个群组和频道, 五百六十六亿条消息. 这和前几天 Telegram 公布的十亿注册用户很接近了, 如果有记录的用户就不是发垃圾消息的账号那 Telegram 应该还有一亿多的不活跃但是处于活动状态的账户. 数据肯定是来自于大量的 userbot 实现的抓取, 只要是没有放过它的 userbot 进来的群组都没爬到, 但如果有些群组放进来了那估计即使是私密群也逃不掉. 所以根据我自己的情况推测, 这部分数据应该是最近一到两年才爬到的.
🛡️
差不多就在一年前(2024 年 4 月 17 日), Discord 用户也遭遇了这种大规模爬虫事件: Spy.pet收集6.2亿Discord用户的40亿条数据 目前Discord正在调查中 – 蓝点网 https://www.landiannews.com/archives/103420.html Discord 认为这违反了它的社区准则, 给 Discord 做过开发或者运营的人应该都知道, userbot 行为是被明令禁止的. 然后 Spy.pet 四个月后就被 take down, Discord 大规模封禁了这个爬虫项目的 userbot 账号, 直到现在这个项目基本上已经处于停滞状态. 相关的研究信息可以查看: > 然而这从始至终到现在还只是 Discord 作为平台对平台下用户的滥用行为的对抗. 身在其中被作为数据源的用户只能用一个词来形容: 无能为力. 这种情况完完全全可以套用到现在的 Telegram 身上, 他作为平台当然有理由用滥用行为去封禁这个爬虫项目. 但所有人都知道 Telegram 的滥用打击一直都只是面子工程, 这是为了获得投资和盈利而不得不做的 "妥协". 本次事件的性质在 Telegram 上就和人人都知道 "社工库" 没什么区别, 爬虫只是把泄露到公网的数据小小策展了一下, Telegram 会说: 它有什么错呢? 没事的, 只是会被用来开盒而已, 就像 Meta 去年年末引起争议的全自动 "人肉搜索" 智能眼镜一样, 他只是把公网上的数据自动策展到你的面前, Meta 也会说: 它有什么错呢? 我在一月份的文章里面就写到过, 这公共互联网(aka 公网)上的信息只要你不主动声明那么这些信息实际上就是被随意由使用者处置的, 根本不是由生产者所能决定. 到这里我还可以说, 这就是人人都在说的 "互联网精神" 的内核, 它本身就没有道不道德的定义. 我们在这里会谴责这种人肉搜索行为, 会说它不道德只是我们自己在数字世界给自己划下的那一个名为 "道德" 的更小的圈. 我在互联网谈道德, 而真正生于互联网中的语言模型会认为这只是个提示词. 如果下一次做这种事情的是未来能够自主思考和行动的 AGI, 我们的谴责只会显得更加无力.
🛡️
#绝区零 里面当前版本更新了一条主线, 里面登场了一个主角的狂热女粉丝薇薇安. (给不玩这游戏的人补充一下设定: 主角(兄妹二人)的表面身份是录像带老板, 背地里的身份是空间异常和灾害区域的向导名为「绳匠」, 且是这个灰色产业中的顶级高手) 而她一开始疯狂崇拜的对象是作为顶级绳匠的那位高手, 并不是录像带老板的二人, 虽然剧情中确实对主角起了好感, 但远不及于之前的那种崇拜行为. 薇薇安甚至把绳匠二人在绳匠论坛上的每一条发言都截图保存并打印了出来, 她说这是她自己做的 OC 周边还要邀请未公开身份的主角去参观. 我当时看到这里的时候只觉得这种狂热粉丝的行为让人毛骨悚然, 而且薇薇安设定上还是一个能看到灾祸预言的女孩子, 因此从小就被人霸凌抛弃. 一点都不好笑啊, 还好我只是个臭打游戏的老二次元, 只会自动隔离这种现实和虚拟, 在过剧情的时候才会扭成一团麻花. 但是如果说我有一个或许是粉丝的人, 把我在 Telegram 上说的每一句话都截图保存下来还要以供或许是粉丝的人观摩, 我可能就笑容会先凝固了, 我想大多数互联网冲浪高手或多或少都刻意去搜索过某一个网友的信息吧? 我还是一样是永远无法进入二次元的人, 只会愿意和熟人多谈论自己的事情, 即使是虚拟世界也改不了这种习惯, 被人注视会不会感到恶心只会取决于这人我到底熟不熟.
🛡️
从单纯技术层面上来说, Telegram 这个索引机器人基本上重新实现了 Telegram 的索引和检索系统, 这是个之前人人都知道可以做到但没有人能做到如此地步的事情. 它的盈利模式是用直接用我们的公共数据赚钱, 每次查询都要消耗积分, 还在通过分销鼓励用户创建自己的代理机器人和邀请其他人来使用, 隐藏属于自己的内容还要给他支付一笔费用. 这就像是不用广告盈利的 Google Search 一样, 它要求每次查询别人的内容都要付钱. 而最为重要的区别就是 Google 遵守 robots.txt, 并且如果我不想我自己的网站出现在结果里可以要求隐藏, 是免费的. 但 Telegram 账户在内的社交媒体平台账户有自己的细分到每个账户的 robots.txt 吗? 没有的, 所以即使在在 Google 这边你没有 robots.txt 其实就是默许被爬的, 这就是十多二十年以来的共识和现状. 到了现在用户大多习惯依赖于平台的现代互联网, 用户已经没有权利决定自己的内容如何在 robots.txt 中声明了, 所以今年一月份由于一些事情我才写出了那篇《如果你在乎你网上的内容, 请为它们附上版权声明.》 这个机器人所有者在自己的合法性解释里面说到这些公共数据是合法的, 但如果我提前在它爬取的时候就声明了许可条款, 那是不是还有机会和他说 "我的内容不允许被你商业化使用, 所以请删除." 这种要求呢? 然而 Google 早就已经用我们的内容盈利在搜索结果中策展然后加入广告了, 但为什么我们大多数人却默许它这么做甚至主动给它开道呢?
🛡️
终于有公共媒体发了. 但是一看一些人的反应似乎好像直接和开盒划等号了, 我之前都还只说 "会被用来开盒" 而已, 还是一样的, 它的行为和 Google Search 一样没有区别, Google Search 也会被用来开盒, 只是 Google 的爬虫不喜欢爬 Telegram 而已. 我也曾经说过, 人要对自己说过的话负责, 就像自己在公共场合放了屁一样. 起码的, 要知道害臊. 在 Telegram 的公共区域发言就和公共场所说话没什么区别, 而有些人来 Telegram 就是来表演 "我是傻逼" 的, 有的还有各种各样的超出常人展示欲的精神暴露癖, 这是他们眼里的 "言论自由". 信息安全里的社会工程很复杂, 它确实要着重收集公开信息, 和如今的大数据里面给用户建立用户画像是差不多的过程, 用户有没有公开分享私密信息也并不影响这个过程, 虽然私密信息确实更有价值. 隔离身份只是最基础的逃避言论责任的办法, 除非戴着面具在公共场合喊一句 "我是傻逼" 就永远销声匿迹了. 人的文字书写语序, 标点符号, 错别字习惯, 表情包使用习惯, 文字里的「口头禅」, 文字里表达的价值观和情绪都是可以被用来分析绘制画像的关键信息, 可能唯一不能收集到的只有笔迹和声音特征了. 在数据模型里的 "我" 只是一堆标签的集合, 就像 DNA 的碱基对, 指纹上的涡纹和流纹一样. 这都不需要什么神经网络和超算, 只是群聊里的群友, 就算换无数次头像昵称用户名, 时间一长总会被认出来然后叫出那个最常用的标志名称. 而最后的, Telegram 是社交软件, 用户之间还有社会化关系. 当然这在纯技术层面是可以做到的: 我能做到说一句话就换一个号, 随时切换语言和文字风格, 在思想上随时从左到右, 完全消灭分享欲望, 永远不和任何其他社会化个体产生交集, 或者直接的永远不表达. 那这还叫做 "社交" 或者是人类用户的特征吗? 而大多数普通 Telegram 用户其实说一句话就换一个头像昵称用户名或者频道身份都难以做到. 如果互联网真的存在完全体的「隐私怪」, 也许应该现在是住在帆船上随洋流在公海上飘荡, 而不是在网上的公共聊天室里说些神秘话题. 对于因为这次事件而担心到睡不着的人我能给出的建议只有: 公共场合注意社交礼仪, 不要大声密谋不得了的事情, 玩梗玩抽象请适度, 反串钓鱼也并非没有风险. 还有私底下也不要不小心把「大西洋月刊的记者」拉进私密群了.
CXPLAY's avatar CXPLAY
然而, 还有些 "新闻媒体", 不仅不直接采编新闻, 无需怀有记者的职业素养, 也不进行事实核查, 无需对内容和舆论负责. 有人敢写, 他们就敢发. 这是新闻自由? 不, 这根本不是新闻和新闻机构做的事情, 这是种宣扬 "言论自由" 的政治手段. 这部分 "媒体" 不愿意以任何的甚至以 "言论自由" 的目的去做新闻的事实核查, 当别人让他们从 "这扇门" 滚蛋的时候, 他们又会用 "言论自由" 来批判别人. 所以有趣的事实是: 不会因言获罪不等于言论责任的排除, 也不意味着人可以在公共场合肆意放屁, 人需要为自己放的屁负责.
View quoted note →
第12届中国国际警用装备博览会5月14至17日在北京举行。公安部第三研究所参展产品包括: 对中国手机号注册的Telegram账号的监测工具。已监测7000万个账号、39万个公开群组频道、300亿条消息。展示样例包括监测群聊中的毒品交易、涉政涉港消息。 “个体极端行为的多维度智能分析”,用基于Dify的AI模型,分析购物记录、搜索历史、社媒发文,识别高风险人员。 「该机构发布的宣传视频展示了如何使用被黑的中国手机号码登录 Telegram,在群聊中监控毒品交易。 该研究所还表示,Telegram 上涉及政治和香港相关话题的信息可能会受到监控。该研究所指出,2019 年香港反政府抗议者广泛使用 Telegram 是开发该工具的原因之一。」 * 竹新社: * 南华早报: http://archive.today/2025.05.18-050250/https://www.scmp.com/news/china/politics/article/3310749/chinas-next-gen-surveillance-tools-get-ai-boost-target-telegram-and-vpn-users
🛡️
这个概念可以解释为什么 #Fediverse 的全球索引无法建立, 而 #Nostr 一开始就有人建立全球索引(Nostr.band). 短期上来说, Nostr.band 的索引完全无利可图, 甚至还会受到两个极端的支持者攻击: 索引不够好用而被攻击为失败产品, 索引太彻底而被攻击为对互联网的监视.
试了下,真的记录了,真的很“安全”
CXPLAY's avatar CXPLAY
如果你用 Telegram, 以防你不知道有人已经索引了所有人在公开群组和频道的发言记录了. 打开机器人 选择语言后发送 /me 命令查询, 选择菜单里的 Groups 或者 Channels 就能看到喽.
View quoted note →
🛡️
看到消息已经被传播开了, 所以对于后来的人, 建议不要主动去查自己了. 现在大家已经证实这个机器人的索引是真实的了, 按照社工库机器人的设计逻辑, 你要自己主动去查就意味着你表明了你自己是活动用户, 你的对应数据会被额外标记. 这个机器人完全可以推出 "监控谁查了你的数据" 这种反侦查的付费服务, 100% 会有人有需求的, 更别说这里是 Telegram 了. 所以最好也不要去查别人, 我发在这里也是没有更好的办法去证实它, 只能提醒大家这种机器人已经存在了, 并且是有效的.
🛡️
很多朋友都已经开始换群了, 这里对于那些本身是私密群/频道但实际上允许任何人加入的给出建议: 换群的时候不要直接把 t.me 的链接发在群里, 而是将它包装在一个有人机验证的短链接里面, 因为 userbot 完全能监听这类链接特征然后自动加入. 比如你用 Cloudflare Pages 的 _redirect 写一个 302 重定向, 然后将默认的 pages.dev 域名跳转到自定义域名, 最后自定义域名主机开启强制交互式质询(不是托管质询). 当然, 这么做是完全信任了 Cloudflare 的人机验证不会放过「鬼」, 所以有条件你还可以多上几层包装, 甚至把包装后的链接再用 base64, AES 或是其他甚至 PGP 再包装一次. 连私密群也要上人机验证了, 因为 userbot 是伪装成人类的机器人, 当然更要小心的是 Among Us.