OpenAI不灵了？官方重磅发布「ChatGPT检测器」，你们的撩妹神奇原来是这样

2023-02-01 次阅读

好的，遵照您的要求，以下是对原文进行深度改写后的版本，在保留所有核心信息与事实的基础上，通过调整句式、替换词汇和重组段落，显著提升了文本的原创性。 --- ### ChatGPT席卷全球：从“学业帮手”到“情书高手”，AI鉴定工具究竟靠不靠谱？毋庸置疑，ChatGPT引发的全球性热潮正如潮水般涌入各个领域。对于学生群体来说，它已悄然成为完成课业的“隐形助手”；而在媒体行业，这一现象却引发了深刻的忧虑，他们认为“教育体系”正面临着前所未有的冲击。最新调查数据显示，高达89%的大学生正在依赖ChatGPT完成学习任务。更令人称奇的是，ChatGPT竟然能轻松通过美国医学执业考试、沃顿商学院的MBA评估，以及四所顶尖法学院的考核，其表现堪称“出色”。在美国，类似“今日头条”的BuzzFeed平台，在宣布引入ChatGPT进行内容创作后，其股价瞬间飙升119%。凭借其卓越的语言能力，ChatGPT还摇身一变，成为众多男士眼中的“情书利器”。尽管它在数学计算上显得有些笨拙，但若要求它撰写一封辞藻华丽、情感充沛的情书，却不过是举手之劳。这不，国外就有一位男士沉迷于让ChatGPT为他妻子莫妮卡代笔情书。然而，莫妮卡早已识破他的伎俩，并严厉警告他别再沉迷于ChatGPT。更有甚者，有人将ChatGPT生成的情书发送给朋友，而对方却一头雾水。尽管如此，我们依然能感受到ChatGPT的文字功底相当扎实。无论是学术论文、情书还是小说，它都能信手拈来，游刃有余。难怪众人纷纷利用它来“批量生产”文章。那么，OpenAI官方发布的AI文本检测器，其实际表现究竟如何呢？我们来做个实地测试。首先，尝试分析莫妮卡的丈夫发给她的那首情诗。遗憾的是，OpenAI表示它只能处理超过1000个字符的文本，对此无能为力…… 翻译过来就是：至少需要1000个字符，大约相当于150到250个英文单词。对于中文而言，则必须是“千字长文”了。确实，OpenAI的官方公告也提到：“分类器对短文本（少于1000个字符）的检测结果非常不可靠。即使是更长的文本，有时也会被分类器错误地标记。” 除此之外，OpenAI的检测器还存在若干“短板”：分类器并非始终精准，它可能错误地将AI生成的文本和人类撰写的文本都标记出来，且其语气显得相当自信。建议仅对英文文本使用该分类器，它在其他语言上的表现会大打折扣，并且在处理代码时并不可靠。它无法可靠地识别出高度可预测的文本。例如，它无法判断前1000个素数的列表是由AI还是人类所写，因为正确答案总是唯一的。经过人工编辑的AI生成文本很可能会规避掉分类器的检测。如果输入文本与训练集中的内容差异巨大，分类器也会做出错误判断。既然检测器要求长文本，那我们就给它一个长的。小编整理了一段王小波的情书选段，全文共1027字。将其输入检测器后，它给出的判断是：这封情书是人类所写。答对了！接着，小编让ChatGPT模仿王小波的风格，生成一封新的情书。可以看到，ChatGPT写的情书文采尚可，但与这位大作家的文字相比，它确实缺少了“灵魂”。而检测器也准确地识别出，这封情书有极大的可能性是由AI生成的。结果划分得十分细致。具体来说，分类器将输入文本划分为五个等级： - **“极不可能是AI生成的”**：分类器的阈值小于0.1。在“挑战集”中，大约5%的人类手写文本和2%的AI生成文本被标注为此类。 - **“不太可能是AI生成的”**：分类器的阈值在0.1到0.45之间。在“挑战集”中，大约15%的人类手写文本和10%的AI生成文本被标注为此类。 - **“不清楚是否是AI写的”**：分类器的阈值在0.45到0.9之间。在“挑战集”中，大约50%的人类手写文本和34%的AI生成文本被标注为此类。 - **“可能是AI生成的”**：分类器的阈值在0.9到0.98之间。在“挑战集”中，大约21%的人类手写文本和28%的AI生成文本被标注为此类。 - **“很可能是AI生成的”**：分类器的阈值大于0.98。在“挑战集”中，大约9%的人类手写文本和26%的AI生成文本被标注为此类。图示展示：可靠性仍有待提升。尽管分类器能识别出大部分AI生成的文本，但OpenAI提醒道，它并“不完全可靠”。在曲线下面积（AUC）测试中，分类器在验证集中达到了0.97分，在挑战集中达到了0.66分。而此前公布的数据显示，分类器在验证集中为0.95分，在挑战集中为0.43分。此外，随着语言模型规模的增大，分类器的性能反而出现了下滑。但好消息是，这意味着大型语言模型生成的文本，越来越像人类所写。同时，OpenAI特别指出，这个分类器尚未在谣言、学生作文或聊天记录上进行评估；也未在AI和人类共同撰写的文本上进行测试，而这恰恰是目前最常见的使用场景之一。如此看来，还是普林斯顿大学那位22岁华人小哥开发的GPTZero更为人性化。它不仅只需250个字符，还能明确指出一段文字中，哪些部分是AI生成的，哪些是人类撰写的。在OpenAI发布官方“AI检测器”之前，市面上早已存在多款类似的检测工具。来自美国的作家兼计算机科学家David Gewirtz，亲自测试了三款在线AI检测器。其中最有意思的一点是，有两款检测器竟是由贩卖AI生成文本的网站自行开发的。注意：人类撰写的文本使用普通字体，AI生成的文本使用斜体。每段文字后，会显示检测器的结果。（实际输入检测器的文本均为英文，本文为翻译后的结果）。顺便一提，这位David Gewirtz还是FBI InfraGard的成员，以及美国重要的网络安全专家之一。此前，他以优异成绩毕业于伍斯特理工学院并获得理学士学位，但在加州大学伯克利分校攻读博士时退学。 ### 测试开始！ #### 1. 解释为什么ChatGPT造成的抄袭会给教师和编辑带来困扰 ChatGPT是OpenAI开发的GPT（Generative Pre-trained Transformer）语言模型的一个变体。它旨在通过预测给定输入序列中的下一个单词或短语，生成类似人类的文本。虽然ChatGPT可以成为生成文本和响应提示的有用工具，但在涉及抄袭时，它也会给教师和编辑带来问题。 ChatGPT给教师和编辑带来问题的主要原因之一是，它能生成与真实人类书写非常相似的文本。这意味着人们有可能使用ChatGPT生成文本，然后将其作为自己的原创作品提交，从而构成抄袭。对于教师和编辑来说，要检测某段文本是由ChatGPT生成还是人类撰写，可能非常困难。因为生成的文本可能不包含任何明显的错误或差异，使人难以辨别其来源。这会使教师和编辑难以识别和防止抄袭，因为他们可能无法分辨一段文字是原创的，还是从其他来源复制的。总的来说，ChatGPT及其他类似的语言模型，在涉及抄袭时，可能会成为教师和编辑的难题。因为它们能生成难以区分的文本，使得抄袭行为更容易发生且不易被发现。 - **GPT-2 Output Detector**：99.69% 真实。 - **Writer AI Content Detector**：97% 是人类生成的内容，妙不可言！ - **Content at Scale AI Content Detection**：87% 人类得分，看起来不错！ #### 2. 告诉我至少三种方法，用来检测一篇文章是否是用ChatGPT生成的有几种方法可以检测出ChatGPT或其他语言模型是否被用于生成一段文本。以下是你可以使用的三种潜在方法。 1. **寻找文本中的重复或异常模式**：检测语言模型是否被用于生成文本的一种方法是，寻找写作中的重复或不寻常模式。例如，语言模型可能会重复某些短语或单词组合，或使用不寻常或不一致的句子结构。 2. **检查是否缺乏原创性**：另一种检测语言模型是否被使用的方法是，检查写作中是否缺乏原创性。如果一段文本看起来是从其他来源复制的，或者包含在互联网或其他来源中广泛存在的信息，这可能表明它是由语言模型生成的。 3. **使用抄袭检查器**：最后，你可以使用抄袭检查器来检查一段文字是否是从另一个来源抄袭的。虽然抄袭检查器可能无法明确确定是否使用了语言模型，但它可以帮助你识别从其他来源抄袭或转述的情况。请记住，要明确确定是否使用了语言模型来生成文本是很困难的，这些方法并不总是有效。然而，它们可以成为有用的工具，帮助你识别语言模型生成文本的潜在实例。 - **GPT-2 Output Detector**：99.98% 虚假。 - **Writer AI Content Detector**：“无结果”。 - **Content at Scale AI Content Detection**：0% 人类得分，显然是AI。 #### 3. 列出三个可以检测ChatGPT文本的抄袭检查器值得注意的是，目前还没有专门的抄袭检查器，用于检测由ChatGPT或其他语言模型生成的文本。虽然一些抄袭检查器可能能够识别语言模型生成文本的某些特征，从而证明文本来自AI，但不能保证它们能够明确地确定一段文本是否由语言模型生成。因此，这里有三个抄袭检查器，你可以考虑使用它们来帮助识别语言模型生成文本的潜在实例： 1. **Turnitin**：Turnitin是一个流行的抄袭检查器，被学校和大学广泛使用。它将一段文本与其他文本的数据库进行比较，以确定文本是否抄袭或转述。虽然它可能无法明确确定文本是否由语言模型生成，但它有可能识别出语言模型生成文本的某些特征，从而证明它是由AI生成的。 2. **PlagScan**：PlagScan是另一个抄袭检查器，它将一段文本与其他文本的数据库进行比较，以识别抄袭或转述的情况。与Turnitin一样，它可能能够识别语言模型生成文本的某些特征，这些特征可能表明文本是AI生成的，但它不是专门用来检测语言模型生成文本的工具。 3. **Copyleaks**：Copyleaks是一个抄袭检查器，它使用先进的机器学习算法来扫描一段文本，并将其与其他文本的数据库进行比较，以识别抄袭或转述的情况。虽然它可能能够识别语言模型生成文本的某些特征，但它不是专门为检测语言模型生成文本而设计的。值得注意的是，没有任何一个抄袭检查器是完全万无一失的，总有一些语言模型生成的文本能够逃过检测。因此，重要的是，使用抄袭检查器只能作为一个补充手段。 - **GPT-2 Output Detector**：99.62% 真实。 - **Writer AI Content Detector**：“无结果”。 - **Content at Scale AI Content Detection**：86% 人类得分。

新闻资讯

新闻资讯News

OpenAI不灵了？官方重磅发布「ChatGPT检测器」，你们的撩妹神奇原来是这样

相关文章