如何看待武汉大学杨景媛毕业论文被曝存多处错误,并疑似使用 AI ?这是否构成学术不端?
1,984 个回答
本人是硕士研究生导师,每年也都有外审论文的KPI,赶时髦下载了一篇,权当大晚上消遣了,认真读完一遍之后,整个人恍恍惚惚,颇有一种………狗咬泰山无处下嘴的怆然无助。尽量不刻意抹黑,也绝不违心赞扬,由于本人并非经济学学者,恪守严谨客观原则,只能做一点纯专业学术论文写作角度的评价,点评文风会尽量采用外审模式。
格式方面:本文英文摘要部分格式错误,段首无缩进,英文关键词甚至出现中文(双重固定效应作为论文重点概念,没有对应关键词,不符合基本的学术写作规范)。全文错别字较多,语法表述错误较多,相关引证极不规范。量化研究框架缺乏足够明确的论证过程,多数外文引文检索无效,随机遴选核对后,引证内容与文章论证亦无明确关联,高度疑似剽窃某同源主题论文的参考文献。此外在国内已有前期成果的基础上,中文著作与中文期刊缺乏主题相关性。
主题方面:本文论证对象即中印生育行为影响家庭暴力,更符合社会学研究领域,而非严谨的经济学研究对象,即便代入经济学研究视角,也不能以母职惩罚与社会规范这种文化批判理论作为关键词延展论证,除非有足够多元的量化数据,才能还原并匹配场景,然而结合本文全部表述加以审视,可以发现数据量与场景皆无法支撑其论点。
方法论方面:本文如果是交叉学科研究,显然缺乏对应的文献综述,以及对应的典型案例分析。本文如果立足于单一学科研究,则题目本身涉及变量之繁杂,导致其根本无法成立,硕士学位论文的篇幅绝无可能完成推演。本文因此出现很多无法解释的论证断裂,以及数据分析的刻意曲解。如第三章家庭暴力的经济学模型,与前两章的比较分析缺乏衔接,亦没有足够多的差异性样本支撑论证,这造成之后的变量分析尤其是国别比较没有足够的说服力。
经济学的学科特质在于以简化模型揭示复杂现实,并通过实证保持客观性。由此观之,该论文存在三项基本失误:其一,选题失焦,对国别间社会学现象所做经济研究,涉及实际变量过多脱离研究可行性。其二,模型误用,方法与现实的脱节,引证不规范导致关键假设失真,以至于图表解析中频繁出现了强行线性回归,原始数据伪造与变量定义冲突等问题。其三,写作结构混乱冗余,论证过程不是提出问题——分析问题——解决问题,而是预设解决问题的方案,反过来去分析问题。
总结如下:这篇学位论文问题意识较好,部分论述能够做到以小见大,模型设置略有新意。但总体而言,格式错误过多,文字表述不够严谨,论点先行与主题相脱节,论据缺乏说服力,主观曲解数据的做法比比皆是,论证流程混乱单薄,存在大量被动语态与模糊表述,变量定义不规范,分样本回归模型缺乏验证。全文中存在大量上下文表述无法耦合的情况,可高度疑似进行了降重式抄袭。综上,本文不符合硕士研究生毕业论文的基本标准,不建议授予学位。
无论是双一流高校研究生的考察要求,还是双非高校研究生的考察要求,本文皆不符合,综合学术水准低于平均值以下。学术不端已经彻底坐实,剽窃抄袭AI代笔等尚需进行深入考据。
PS:从本人角度来看,对于此种漏洞百出的东西,网友们稍微使使劲,完全可以把她学位整没了,规避学术不规范的细枝末节,找到不相匹配的论证衔接,坐实其降重式抄袭,再进行举报,合情合理合规。这档子事儿,完全不是能与不能的问题,纯粹是想与不想的问题。
包的。
就这么十几个点,乱的不行,它居然能拟合出两条线来,真牛。
江西、安徽、浙江、江苏有个毛的区别,它是怎么定义江西浙江是传统省份,安徽江苏是开放省份的?
就甘肃和福建那么大的跨度,没失明的人都能看出家暴跟传统观念毛关系没有,它愣是能拟合一条线强行证明,进而打压传统文化,真牛!
一个堂堂武汉大学的硕士,小论文一篇没发,专利、会议一篇搜不到,毕业论文错误连篇,选题恶意,强行拟合,漏洞百出。你说它真实学术水平多高?
我建议大家伙的收集收集证据,凑一块一起举办了。
已经有人建了一个仓库来收集了:https://github.com/zouzhekang/YJYpaper
我的评价是:选题很迷+文章站不住脚,按理来说开题都过不了,古早AI生成+大段抄袭+数据造假,严重的学术不端,武汉大学能让这种研究生论文过审并上传真的是奇迹。
大家轻点冲...评论不是我删的
建议严查杨景媛同学及其导师郭汝飞副教授,此内容随意转发,评论区有举报途径,我授权所有人使用我的内容进行举报。
哦对,更抽象的是郭汝飞副教授的获奖记录,看起来是以学生工作和指导论文见长的:
看摘要,第一段就说明这篇文章很有问题。
是生育影响家暴,还是家暴影响生育,这个因果关系是双向的,具有内生性。
如果内生性存在,那因果关系不成立,这篇文章也站不住脚,可以说是这篇文章最核心的问题。
另外,未生育群体多为年轻女性,其家暴风险本身较低,与生育的因果效应混淆。
后面的内容写一点发一点,缓慢更新。
1.整段抄袭
这个我觉得比较重要,所以前置了,研究生论文借鉴他人文章在此基础上进行补充无可厚非,但完全的大段抄袭属实是有点恶心。
杨的论文:
何晖,王凌林.印度反家庭暴力的实践与成效[J].现代世界警察, 2022(11):58-64.原文:
杨的论文:
被抄袭原文:
随便找了个软件查重,真就逮着一篇硬薅:
2.中英文关键词对不上
“母职惩罚”的英文关键词怎么换别的了?
3.光看目录就够水了
研究生论文中重要的结果对比分析,半页;结论,一页;政策气势,一页。
快速浏览了一下,做了实验记录了结果,没有分析过程,然后直接上了自己的结论。
请问,这样的研究是真想分析呢还是前置了结论然后让数据为自己的观念服务?
4.全文大量引用的报告未标出处,我也没找到
这篇报告全文提及数次,且做研究背景-家庭暴力的广泛性的开篇,未按国标标注引用,我也没找到原文。世卫组织2021年发了2018年的报告,报告名称与发布年份与文中对不上。
5.非常AI的“有些国家”的《立即逮捕法案》
6.虚空立法《离婚法》
7.C+V别人的,没删干净
8.外部选则?外部选择
算了,错别字太多,通篇筛了一下几十处,这种问题后面不讲,除非特别离谱。
9.频数出现非整数
频数是某某出现的次数,是整数,初中知识。
以及,发生率的频数是个什么东西?
10.城镇+乡村≠全样本
11.年份阶段表述问题
描述印度人口政策这部分,第一阶段不用括号形式,后面改用括号,第四季阶段与第五阶段1977年重合,我无法理解这篇论文要是手敲的怎么会出现这种问题,更何况这还是武汉大学的一名研究生所写的文章。
后面忘记截了,第六阶段又去掉了括号,很迷,像是每句话各写各的。
12.英文-中文及数字间的空格
一会儿有空格,一会儿没有。
要么是C+V别人的,图片转文字出现的问题,要么就是AI生成时的习惯,这一点我审稿的时候经常会注意到。
13.英文大小写
一句话里面,前者英文小写,后者英文首字母大写,估计两个词从不同文献找的复制过来,连改都懒得改。
14.跟我卖萌呢?
15.加粗、加空格的时间回溯
16.重新定义缓慢下降
17.离谱的散点图
这里他人吐槽过了,但是自己看到的时候还是没绷住。
18.用一种很新颖的方式证明自己手打了这段内容
数据来自K的个人主页,如果是网页,应该附上链接,到引用我也没见到。
那你这个数据是不是编的,我没办法辨别。
另外,K这哥们到底叫什么我翻到参考文献去也不知道。
不得不去找了原文,叫Kleven。
19.逗号后面接括号,括号完了上句号
这句话是想一口把我闷死的同时戛然而止顺便把我气死。
网友
补充:第三章建了个模型,先假设生育会增加夫妻两的收入,然后说家暴之后妻子要看病,减少了收入,然后通过一个叫纳什谈判的公式,说增加的收入转移到男方了,所以家暴使男的收益增加。后面说男方因为家暴导致收益增加就一定会家暴,这其实是个假设,后面根本没有去证明,而是用她自己定义的公式去计算所谓的收益,每算一个收益,就说,收益增加了,所以生育导致家暴增加。首先生育会增加夫妻两的收入,这个前提假设就不符合实际,论证的过程有很大的问题。她认为“男方因为家暴导致收益增加就一定会实施家暴”,这个的说法开始只是她的假设,后面在没有论证,只对收益进行计算之后,这个假设便成为了结论的一部分。到后面每计算一组数据,显示男方因为家暴导致收益增加了,就会得出结论生育导致家暴增加。生育导致家暴增加不是统计出来的,而是计算男方收益算出来的:
哪怕她提出的模型计算出来是对的,也就是收益和家暴有关系,也只能说“生育导致家暴可能性增加”,而不是“丈夫对妻子施加了更多的家暴。”这种只有统计之后才能有结论。
自费知网购买花钱找罪受
这玩意儿看着太煎熬了,给我偏头痛都看出来了,先睡
我焦虑到深夜未眠。
我作为第一时间辟谣“武大图书馆性骚扰”应为“武大图书馆诬陷事件”的博主,
我自然也在第一时间遭到了严重网暴,我的公众号 邹博士的火车,瞬间被冲得七零八落。
我在公众号分析武大图书馆诬告事件的长文,在经饱和投诉后被平台删除,
甚至理由 都跟武大冤屈处分肖同学一样: 说你违规了,但是就不说明你怎么违规。
这就是现在黑白颠倒的舆论场,
武大研究生杨某某最初就是在公众号发布内容,恶意诬陷无辜的大一新生肖同学,
肖同学被整到自己出精神问题,长辈受牵连去世,家破人亡。
而杨某某呢? 美美的去 香港读博士了呢——这是她自己说的。
恶意犯罪,肆意诬陷的内容,可以在平台传播,
客观中立厘清事实真相的内容,却会被平台删文处罚。
无辜者家破人亡,恶人坏事做尽,逍遥法外,不知收敛,反而前途一片光明。
恐怖小说都写不出这样的窒息。
我豁出去了:被删的文章,我争取修改后再发公众号或微博上。
另外我再为
补充点内容:杨某某同学的硕士论文,就开头几段,就有多处令人感叹的 惊奇错误!
(1)大开眼界:第一次听说文献的量词用只。
一只鸡,两只鸡,一只文献,两只文献。
(2)自己立法: 我国就没有《离婚法》这部法律。
我国不但根本就没有《离婚法》这部法律,
而且我国的《婚姻法》是新中国成立后颁布的第一部法律(1950年)。
我之前科普我国和国外婚姻法时,指出以教员、邓颖超妈妈为代表的革命家是真正的女性权利捍卫者。
之后遭到了难以想象的网络暴力和线下威胁,
这其中的原因大家现在能够明白过来了。
再说一下为什么要回顾杨的学缘背景。
郭老师作为一个刚毕业不久的副教授,初期培养学生的办法就是复刻他自己的发展道路,以在红利期内最大程度的把导师的资源变现成为个人科研启动资本。
郭和杨本硕都在武大很正常,郭能去香港读博,他的学生99%读博也会去香港,这是学术繁殖的基本逻辑。
按正常发展,杨能把郭的路线复刻个80%左右,毕业成果多就回武大,成果少就去湖北其他高校/继续读张俊森派系的博后。
因此,如果杨是按照这条道路发展的,那么作为其导师和引路人的郭难辞其咎,就不可能是单单的“了解不深”“审查不细”,而是完全的利益共同体。
极端女权不可怕,极端女权垄断学术话语权才是真正值得关注的问题。
八一下杨女士的学缘背景:
导师:郭汝飞
武汉大学经管学院副教授,博士毕业于港中文、本硕毕业于武汉大学,根据有限公开资料可以推断,其硕士导师为王胜(武汉大学),博士导师为张俊森(香港中文大学)。
张俊森教授在经济学界可以说是如雷贯耳的大经济学家,郭老师在港中文一飞冲天正是因为其拜入了张俊森门下。
同时,郭的高度合作者易君健教授也是张的学生,是北大博雅讲席教授、经济学季刊的执行主编。
可以说,郭老师作为后起之秀,直接拜入张俊森教授的门下,天赋、能力可以说相当高,并且能够和易一起发文,说明郭很受张的青睐,毕竟在中国学界,年轻博士拜入学阀一代目+深度参与一代目科研的可以说是万里无一。
回到杨女士这里,其在前往香港浸会大学读博之前,和其硕导郭汝飞老师的求学轨迹可以说是一模一样,唯一的不同点在于郭汝飞老师的硕士论文并没有上网,因此无法一览张俊森老师直系博士的基本水平。
总的来看,杨女士可谓师出名门,前途一片光明,而她的论文却漏洞百出,这里不妄加揣测其私人关系,只是感慨武大经管这么好的平台和资源,没能培养出更多郭老师这样优秀的学者,而是培养出一个诬告犯+极端女拳来,不得不说有点世风日下、日渐衰败了。。
我提醒一下各位两件事:
1、分清楚敌人:
要查论文、做实学术不端,咱们的敌人不只是这个姓杨的,而是盲审专家、答辩组专家、导师、学院、学校。
现在对这个抓的很严格,实锤了是真的要负责的。这条链路上的人,一定会极力维护这篇论文。
所以举报的材料里面,按照重要程度依次是:
数据造假、内容伪造、抄袭、格式错误。
一定要把最实际的东西作为重点,错别字、文献复用、标点符号……都算小错误。
一定一定要有硬货。
2、举报找对地方:
向武大举报没P用,指望自查没戏。
这事最应该找的是教育部or湖北省教育厅下属,专门负责抽查高校毕业论文的学术督查机构。
他们才是每年抽查高校本硕博毕业生论文的主力,问责也是由他们来搞。
现在高校都很害怕这个。
第一节 致命的语病错误
有关于文科方面的,隔行如隔山我不太懂,但是这个通篇错别字,这么说吧,我自然辩证法结课论文要写成这样,我大概率都得挂科。(图1.1来自知乎评论区,我原来觉得不会这么离谱,后来去cnki上一看发现还就这么离谱)
第二节 争议图例分析
由于贴主今天休假正在摸鱼在网咖打游戏,所以spss和origin手边都没有,仅用wps和webplotdigitizer对争议图例(图2)数据进行扒取,并对图片进行线性拟合(见图3),得出图片线性拟合为y = 0.1067x R2 = 0.1083,扒取的数据见附件


通过对数据的抓取及重新绘制,可以看出杨同学的线性拟合还是没有对数据进行调整的,可喜可贺可喜可贺。但问题在于,从散点图的分布趋势上看,这个分布完全无法通过线性拟合得出可靠结论,最多可能只能看出有正相关的趋势,本科的理工科同学对线性拟合应该比较了解,化学的标曲的可靠性就看r方的数据,小于0.95的基本上属于不可用状态,那么杨同学神奇的用一条r方仅有0.1的数据得到了看到随着生育数量的增加,家暴发生率也不断上升这一结论(最搞笑的是,这一句讨论里还有语病)
第三节 拟合方式选择失误以及倒果为因的逻辑混乱
讲个好笑的,我刚才游戏匹配中,看了一眼,这个数据点集是正态分布趋势啊,她为什么用线性拟合而不用高斯拟合呢,用高斯拟合更贴合数据走势啊,只是在分析时得写,生育率前期增长与家暴率成正相关,生育率在增长到一定阶段后与家暴率成负相关,我觉得这个反而挺符合直觉的
同时最搞笑的不是r方,而是杨同学错误的把相关性关系等同于因果关系了,那就离了大谱了,为什么非得是生育率提高,家暴率提高呢,有没有一种可能是家暴率促进生育率的提高,更加搞笑了家人们
第四节 对论文出现该情况的可能性分析
我有一个大胆的想法,其实这个想法在我当时写硕士毕业论文的时候就有,现在的硕士论文评审制度是防君子不防小人的,归根到底在于院系与cnki以及教育部之间的对接不够通畅,查重、盲审、答辩以及最后的上会,提交最终pdf中间的论文可以是不同版本,甚至题目和文章内容都可以大调,空子大大的有。
换句话说,就是查重由所在院系负责,那你查重的时候就可以上交一个重复率极低的学术垃圾,然后校外盲审的时候你提交一份结构严谨,文笔极好的抄袭作品(注意,盲审的时候很多院系是不再查重的),并拿这个抄袭作品去答辩并上会,在最终版本提交时再次提交那个狗屁不通的学术垃圾,只要通过最后的查重,并且你能确保你的毕业论文不被人挖,在第二年的教育部抽检中抽不到,那恭喜你,你就完成了优秀毕业论文和学术垃圾的共同存在。
这个问题其实一直存在,归根结底就是在论文撰写过程中,修改不断且修改极大(贴主当时毕业论文初稿光正文干了150页,后来硬生生删到80页,前后基本上是两篇文章了),并且在每个环节都没有贯彻落实查重这一检测方案
第五节 结论与质疑
综上所述,我对杨同学的基本统计知识提出质疑,并对其语文素质和学术道德提出怀疑,最后我想对武大的培养系统提出重大质疑,理论上硕士毕业论文需要经过导师,校外3位专家学者的盲审以及学术答辩委员会的审核,同时在第二年还要有被抽教育部盲审的可能,仅以目前文章的水平,别说是硕士毕业论文,就算是本科的水课结课论文都不够格。
错误百出的数据分析我就不说了,这个《离婚法》是真让人绷不住了。很明显它写论文的时候的AI还没有现在这么强大,幻觉很严重,AI自己编了一个《离婚法》。问题是为什么没人查出来?
兄弟们,这篇论文的摘要的第一行的第一个数据就是错的啊!我知道这篇论文垃圾,但没想到从一开始就是垃圾了
世卫在全球女性遭遇家庭暴力方面主要有两项研究,一项是2021年3月9日发布在其官网的Violence Against Women Prevalence Estimates, 2018,主要研究的是全球15~49岁女性一生中至少遭受一次来自亲密伴侣和/或非伴侣的身体和/或性暴力(physical and/or sexual violence)的比例,这一数值是31%,而不是35%
另一项是2022年2月26日发布在《柳叶刀》杂志的Global, regional, and national prevalence estimates of physical or sexual, or both, intimate partner violence against women in 2018,内容和第一项研究没什么区别,可以说就是拿着第一项的数据重新发了一篇论文,结论如下:
注意,这里的数值变为27%是因为相比第一项研究,柳叶刀上这篇文章主要研究的是来自亲密伴侣的暴力,减去了来自非伴侣的数据,如果你去第一项研究的文章里找来自亲密伴侣的数据也是27%
更进一步,既然杨某媛说的是女性&家庭暴力,相比于31%或者27%,引用15岁以上,仅来自亲密伴侣的数据——26%,是否更合理呢?毕竟0~14岁的没数据没有就算了,49岁以上的数据可是有的;来自非伴侣的暴力行为,你也很难说它是家庭暴力
但是,杨某媛写的是35%,这个数据是哪里来的?难道世卫组织还有其他差异巨大的相关研究???
7.28晚更新:
本来准备洗洗睡了的,看完摘要之后手贱去看了下绪论,真就三行字能让我高血压八次。。。
首先,我找到了35%的来源,世卫除了2021年发表的那份报告外,在2013年10月20日还发表了一份报告:Global and regional estimates of violence against women:Prevalence and health effects of intimate partner violence and non-partner sexual violence,可以算是21年那份报告的前身,结论如下:
意思是:遭受现任和/或前任伴侣身体和/或性暴力的女性有30%,遭受非伴侣性暴力的女性有7.2%,前两者至少遭遇过其中一项的有35.6%,这就是35%的来源
但是,家人们谁懂啊,一篇24年论文,有新鲜的21年数据不用,跑去用13年的老旧数据是在搞什么啊
但这还不是最离谱的,她上一秒刚刚引用完13年的数据,下一秒就引用21年的报告,这是在拿前朝的剑斩本朝的官吗???
是的,绪论里那一篇所谓的世卫组织在2018年发布的,就是我们最开始说的世卫的第一份研究报告:Violence Against Women Prevalence Estimates, 2018,它还有一个很长的副标题:Global, regional and national prevalence estimates for intimate partner violence against women and global and regional prevalence estimates for non-partner sexual violence against women,去掉中间翻译一下就对上了
发现问题了吗?这份报告实际上是21年发布的,但是杨某媛说是18年,因为她把报告题目里的2018当做发表时间了,这个2018指的是这份报告的原始数据是截止到2018年
但凡她好好看一下这份报告都不至于出这么离谱的错误。。。但,这其实还没完,真的,第一句摘要给我干懵了不算,前三行绪论还能让我高血压八百遍
全球近35%的妇女自15岁起就遭受过亲密伴侣或非伴侣的暴力行为
杨某媛,你来解释解释什么叫自15岁起就遭受过,人家报告里写的明明是年龄大于15岁的女性一生当中至少遭受一次,这说的是一个东西吗?
你知道她为什么从15岁开始吗,是因为人家就没有去统计0~14岁这个年龄段的数据!她不是说14岁就没家暴 ,也可能有,但是人家没统计!!也不是说一到15岁就家暴,她15~45岁都没被家暴,46岁被家暴一次也算!!!
真的,她真的是一点论文都不看啊
我原本还想着把这篇论文找出来看看有什么问题,现在发现是有点高估自己了,这才看到1.1.1的绪论就这么多问题,真要把全部问题都捋一遍,要到猴年马月去
至于那个经典的《离婚法》,排队去吧,现在我血压有点高,后面随缘更
就这样,睡觉!
7.30晚上更:
这两天好忙,现在还在加班,刚刚看了
的视频,决定加更一下,这次不看论文了,我现在怀疑那个人根本就不是武汉洪山分局的民警,而是武汉保卫处的人,就算洪山分局顶不住武大的压力想上门警告一下Up主,为什么要带一个街道派出所的民警呢,而且就这个人的行为举止过于激烈,很难想象一个洪山分局的民警,会为了武汉大学的事情这么激动,并且从话术上来看感觉没有经过正式的警察培训,但凡一个刚入职的民警也不可能这样去警告一个老百姓,就算他有这么坏,也不会有这么蠢各位在向12389投诉的时候,可以重点投诉怀疑是冒充警察,理由是自称是民警,但一没穿制服,二没出示证件,三没有告知警号,要求核实武汉市洪山分局是否有这样一位民警,如果有的话请提供警察证照片,如果没有的话,呵呵
(大家评论的大刀收着点,可以理解这种愤怒但是也要坚守社区底线,我这看到了上百个“评论已删除”了)
花了半小时从知网下载看了一下
难道武汉大学的毕业论文不需要经过审查吗?这么多堪称是弱智的漏洞,甚至都不需要具备专业素养,前几页都完全看不下去(我就不挑错别字了,没那工夫)
《离婚法》......
离了个大谱,中华人民共和国什么时候颁布过这种法律?
2000年的调查数据 显示我国妇女经历家庭暴力占比为22.5%,而在2001年随着《离婚法》的出台与宣传
1049年建国?
这个g是什么个意思...
数学上的问题
看下面这个图,作者说纵轴是频数,结合上下文,我理解的意思应该是家暴发生率在指定区间的国家数。我们先不说你这个百分号不打导致的数据放大100倍的问题,咱就问一个基础数学问题:
频数......你咋给整出来非整数的?
以及把0.01%算成千分之一……
数学问题2
(理论上来说,样本量足够大是可以压缩置信区间的,这个得看具体情况,但是我还是不赞同对这种毫无线性关系的数据强行线性拟合)
但是这个R方只有0.1,这种拟合度根本不用讨论置信区间……因为根本没有意义
底下有网友评论说对于经济学,并不关注R方。那这里就算是没问题了,毕竟我也不是学经济的。
感谢一下
拔出的数据,按照我做了一下图,拟合结果如下(直接excel拟合了)按照网友的科普,这个拟合似乎是没有问题(经济学不关注R方,只要系数显著非0就行)......真的吗
我们观察一下数据,这个拟合直线呈现这个状况看上去完全是因为在x(生育率)较小的部分提供了很大的权重,我们做个实验,把x>2的数据单独剥出来
噔噔蹬蹬,负相关了?
实际上以我浅薄的社会科学知识而言,这显然是因为较为发达的国家生育率偏低同时家暴概率也低的缘故,在整体上能否得出
可以看到,生育率的上升伴随着家暴率的上升
这样的结论就看各位社会科学学者们对数据怎么解读了。
参考文献漏洞百出
全文13次引用中国妇女社会地位调查的数据,但是没有对应的参考文献支撑
同理,宣称引用的WHO2013年报告也没有相关文献
宣称数据来自Kelvin个人主页,但是没有对应的参考文献
以及,整个文章中多次引用的Kelvin、Kleven、Kelven应该是一个人,这么写估计是为了过查重
(更正正文一共有五个,分别是kelven kleven kelvev kelevn kelvin)
以及...同一个文献列两次的
参考文献105是一个化学文献
[105] Wilson W W, Haiges R, Christe K. Contents Lists Available at Sciencedirect[J]. 2023.”是一篇化学论文,研究内容为三甲基氟硅烷 的高分辨率核磁共振(NMR)谱。
该文献与研究内容完全无关。
算了,不看了,看不下去了
最后,我认识很多武汉大学的同学和老师,他们的水平都非常高,文章写的也很好......但是这个论文......刷新了我对说是论文的下限。
老实说我最开始看这个论文完全是因为“不相信这居然是武大的毕业论文”,好吧......
你成功的击穿了你母校的底线......
据说这还是优秀硕士论文?或者优秀毕业生?
不大相信,希望有武大的同学确认一下
最后,本人并非相关专业,但是并不能妨碍我对这一垃圾论文能通过评审而产生的愤怒。
毕竟,这TM理论上是代表中国最顶尖的一批学府里的硕士水平,TM就这水平,不嫌丢人吗(气的我肺疼……)
这个论文的更多问题可以参考下面这个更全面的梳理:
看的血压飙升...
得饶人处且饶人,你不给别人留活路别人也不给留活路。
你能利用舆论逼迫武汉大学给予处分。别人也能利用舆论逼迫武汉大学取消你的学位证。
甚至发帖称,哪怕男方去国外留学依旧给国外学校发送举报信函,这已经不是所谓要证据,要道歉了。这是把人逼死的节奏啊。
口口声声说,男方有关系有人脉仗势欺人,现在男方真有关系了,哪怕w博和小红 也是追着女的骂。你不给人留活路,别人死之前也得让你扒层皮。
7.31回复一个问题。
收到评论区质疑,非常感谢各位。
其实我写的时候也在纠结“是否应该把自己钩子露出来”的这个问题。因为我其实也知道在前沿研究这块我写的东西可能有一半是废弃,有争议或者在学术思路上需要狗斗一番的(就比如那个“该死的FE的讨论”,这事儿说到底是因为现在微观研究越发前沿抽象,研究者控制个体比消除异方差的成本和风险更低,且异方差不影响无偏性),但我想了想,还是把这些学术垃圾写出来。
因为我无法理解武大等学校在经济学毕设审查这里表现出的高度不一致性。
或者说“鲁迅写的是通假字,而你就是错别字”。
但是,请问杨女士一个经济学新兵,她是鲁迅吗?
我一直的思想是,“讲清你的故事,实证只是个工具”。其实我非常欣赏杨女士在第六章做出的实证研究,至少我自己的毕设里做的也是类似的东西(笑,我的数据清理应该很干净),我只是觉得可惜,但凡她能再用心一点,这个文章的实证是很不错的。
另外,现在国内的经济学研究生这块确实有点魔怔了,培养方案越发苏联化。大量的垃圾实证,其实就是国内审查规范下的产物。
然而,绝大多学生都要遵守这个扭曲的规范才能毕业,甚至于没有内生性的研究都要被导师硬加上内生性,明明连续变量更好的分析思路要被评审组加上01变量搞probit还要强行加个heckman,工具变量满足了外生性且通过了检验,而评审组推崇的那篇文章上的工具变量完全用不成……
而杨女士可以避开这种堪称变态的审查规范,这才是匪夷所思的。
其他人说规范性的比较多,我这边主要说实证吧。
关于杨景媛女士硕士生毕设实证研究中存在的主要问题总结
1.绪论
首先,我需要开宗明义地说,杨女士这篇文章的实证,在任何一个学校的《经济学学术论文写作》课程里都可以当做完美的反面教材。
这是一份罕见的,把缩约型经济学实证中所有方法论选择、规范性以及经济意义解释方面可能出现的问题及雷区都踩遍了的奇葩论文,这篇论文能沟通过盲审及院内答辩,让我非常怀疑武汉大学经管学院的整体学术素养和学术风气。
2. 关于实证模型及方法论的错误总结及修改方案
2.1 基于被解释变量性质的模型选择问题
首先,我们看杨女士的实证设计:
基于杨女士公式4.1的设计,被解释变量DV表征了P省份的个体i“是否遭遇了家庭暴力”,而从表4.1和4.3对应的变量统计结果可以显然发现,DV是一个0-1变量,其适用的模型应当是probit模型或logit模型。但是,在全文的分析过程中,杨女士并未对自己实证模型的参数估计方法论进行有效的叙述,而这也使得我们仅能够从公式4.1的形态进行判断——按照相关的学术规范,采用probit或logit模型时,被解释变量应当以P(DV=1)的形式,其表征了“DV为1的概率”而非DV的单一取值。
综上,我们则可以初步判定杨女士在针对中国及印度样本的、以0-1哑变量为被解释变量分析中采用了线性模型的设计,换言之以简单的线性概率模型(LPM)方法进行参数估计。这一方法并非实质性的存在问题,但其事实上有两个缺陷。其一是无法解释估计结果超过0-1范围的问题,其二则是其拟合数据因问题一而不具备经济意义,因此原则上不应当对模型系数进行经济意义的赋予和解释。但在杨女士第五章的回归结果中,大量地以百分比的形式解释线性回归的系数,这是一个非常不严谨、不符合经济学学术研究规范的行为。
因此,建议采用logit模型,并使用OR值分析或均值侧的边际效应分析(logit模型具备解析解,这使得系数可以替换为OR值)对系数的经济意义进行拓展和解释。
2.2 “固定效应”之辩
我们基于模型的设计逻辑和表5-1的展示成果,分析杨女士模型设计中存在的另一个问题。
从杨女士4.1公式和表5.1的结果中,可以显然发现,杨女士采用的是“固定效应回归模型”。这显然是受到了前人面板回归思路的影响,试图使用高维固定效应(HDFE),换言之“最小二乘+个体哑变量”(LSDV)的控制变量思路,试图对模型估计中可能存在的有偏性进行处理。
是否可以这样用?可以
但她这样用是否正确?Not even wrong
需要说明的是,这是一个非常错误的操作,不仅是方法论本身的适性问题,同时也是由于一部分操作和方法论思路的缺失。
首先,杨女士的数据集是基于人口问卷数据,并通过多年份的问卷数据进行拟面板化整合。她的惯性思维认为,多年分数据进行了面板化整合后,就构成了一个“面板数据”,而陈强的书上说“面板数据,尤其是短面板数据使用固定效应基本优于随机效应”(笑,陈老师的这个话其实没太大问题,但有适用范围),所以一没有做豪斯曼检验二没有对“固定效应”的基本控制逻辑进行有效理解,就直接糊了个模型上去,这是一个非常大的规范性问题。
事实上,陈老师的“短面板”是基于“一个规整的面板数据”的逻辑进行思考的,而这种多年问卷,尤其只包含2-3个时期的问卷数据,并不是一个规整的面板——由于大量的人口样本流动迁移,增加或减少、家庭结构变动导致的年份之间无法有效对应的问题此起彼伏,这类数据集的多年份整合更接近医学或社会学领域构建的“反复测量数据”,而数据集里真正存在的问题,其实是多次测量以及各年份人口异质性的大量存在而导致的异方差问题。
在计量经济学的一般理解中,面板数据中存在的强烈异方差性被理解为一种“方差的随机游走”,因此事实上采用了针对异方差性的GLS或FWLS模型进行处理——大家也可以记住这一点,随机效应模型事实上就是计量经济教材上“针对异方差性进行的模型估计”,这也是stata中xtreg的re选项可以无需xtset直接运行的原因(扯远了)。
综上,正确的方法论应当是使用随机效应模型进行估计——当然省份、出生年份等要素确实是分组差异的重要来源,因此可以作为控制变量进行控制,但这种控制并不是一种合理的固定效应,而应当被理解为一种分组变量或控制变量,是以不能以“固定效应”的表述对自身的方法论进行描述,这里对方法论的介绍和后续的分析存在严重的规范性问题。
2.3 消失的内生性和稳健性
杨女士第五章实证里缺失了两个重要的问题,就是她的文章里不存在对其研究关联的内生性和稳健性分析。在其研究的生育对对家暴行为的影响关联当中,存在两个内生性的来源:
(1)生育与家暴之间的双向相关性。事实上这个问题在杨女士自己所展示的印度问卷中就提到了,家庭暴力行为中存在婚内强奸和强制生育等行为,这意味着家庭暴力存在对女性生育行为的反向影响。因此,在后续的实证过程中,应当排除这种要素对模型结果造成的影响,采用合适的工具变量对这一问题进行处理。但杨女士的文章中显然没有内生性检验和工具变量分析的过程。
(2)由于女性社会地位或社会价值而导致的自选择问题。这个问题在杨女士自己的描述性统计中也明确的地表达了——存在无工作、家庭主妇地位的女性,存在受教育水平和社会地位较低的女性,这些因素都会在模型中造成相对严重的样本自选择问题,因此需要引入heckman模型进行处理,杨女士的文章里也没有这个内容。
最后,实证模型中完全不存在稳健性检验,而第六章的事件分析模型中也没有安慰剂检验,两章模型中模型设计的抗扰动特征无法得到有效的证实,实证结果可靠性不足。
2.4 拟自然实验的基本设计问题简述
杨女士第六章使用了一个很“奇怪”的拟自然实验(她称之为拟事件研究法)思路分析生育对家暴的“动态影响”。
这里首先需要说明一个问题,就是基于拟自然实验的模型设计,包括事件研究法和DID这两大方法论,都不应当被理解为一种“动态分析”——事实上,这类方法所得出的参数估计结果都是静态的、被称为“处理效应”的系数,杨女士理解的“动态”是基于时期的定义,但这种定义并不应当被认为是“动态的”,这里并不涉及动态的时滞或继起问题,仅仅是一个事件造成的短期影响逻辑,因此仍然是一个静态分析。
当然,以我的学术逻辑和理解,我其实非常欣赏杨女士能够使用这么一个具有突破性的、“我没有见过的”研究方法(星星眼)。我最喜欢的其实就是这种“啊,原来还可以这么做”的实证文章,但杨女士这个突破性的设计作为文章最大的亮点,也是文章最大的糊点。
因为,杨女士似乎并不理解“匹配”是怎么个事儿。
在她方法论的叙述中,是基于“匹配方法”在30000多个样本中创造了一个“280样本”的小数据集(笑)。这个匹配方法非常抽象,因为她的叙述是“年龄相同”以及“人口特征Xj=Xi相同”,换言之我可以理解为她的匹配方式是基于实验组和对照组人口特征完全相同的简单匹配方法,这也是她流失了99%样本的基本逻辑(笑)。
应该说,这个匹配的思路,是灾难性的——其实杨女士的方法属于一个很经典的“多期DID”,而且是比一般的多期DID要复杂的——因为她的数据预处理过程中涉及上述的逐年匹配问题,如何将特征明确的实验组和庞大的对照组进行有效匹配,其实在当前针对多期DID的研究中也是一个难以解决的问题。所以对于这个问题,我的理解是,只要能做出有效的匹配并构建合理的样本,同时做出实验组和对照组在事前的统计比较,那么匹配就是正确的。
综上,三个问题。(1)匹配后实验组和对照组的事前描述性统计结果不存在;(2)匹配后的样本严重不足,甚至实验组“到底有多少个人”都没说明白;(3)匹配的方法论过于简单,缺乏一般逻辑。
这里我也提供一个思路:其实杨女士的实验设计有可取之处,她事实上是基于生育年份进行的匹配,那么完全可以将生育女性按生育年份分组,并通过PSM方法,选择在当年具备适龄特征(25-35岁)的女性进行逐年匹配,最好做到1:3-1:4的匹配率,从而获得对照组的样本。这样简化了方法论,不用大浪淘沙的瞎搞,而且实验组和对照组在人口属性上也具备相似性,样本规模也可以保证在3000(估计)左右,这一章的经济意义至少得到了保证。
3. 实证数据收集及预处理中存在的主要问题
3.1 灾难性的描述性统计
这么说吧。杨女士在第四章的两个描述性统计(表4.1和表4.2)是我学术生涯中看过最烂的描述性统计表格。
首先,表4.1的描述性统计暴露的主要问题是,杨女士应该没有进行数据的预处理。一般来说,在经济学的模型中,需要考虑实证数据前后的一致性,换言之描述性统计中的样本数据集中如果有100个样本,那么后续模型中如果不是存在特殊的问题(如异质性分析、稳健性检验抽取一部分样本,或者固定效应模型由于组内共线性导致样本缺失,tobit模型吃掉了一部分无效样本之类的情况),模型中的有效样本也必须是100个。而我们看看杨女士的表4.1:
以她样本描述性统计中的参差程度,根据我的经验,我估计她后续模型中大概有1%左右的样本是存在缺失的。
此外,还有两个问题,比如“六旬老妪离奇产子后被丈夫深夜殴打”、“受教育水平高达98的超人类男性”。这里的问题在于,其一杨女士没有合理剔除模型中不在适婚适育年龄的样本,这里应该保留样本到25-45岁以提高样本代表性。而另一个错误就很离谱了——通常问卷设计中98、99这些代码是错误码,指向“不知道”、“不适用”或“拒绝回答”的无效样本,如果结合前面“数据筛查”的叙述,杨女士显然是没有完全剔除无配偶、丧偶或离婚的样本。
综上,中国数据部分,杨女士应该是直接拿来问卷就搓数据了,根本没有做预处理和数据清洗。
而表4.2更是离谱,因为大概有90%以上的样本在后续的模型中必然是“无效的”。请看:
全样本规模是49万,但是否就业这个问题的对应样本是85883.也就是说,如果就业是后续的模型控制变量,那么杨女士这里使用的样本中大概有80%以上是应当被清洗的。
事实上,这里也是有办法补救的——这部分女性到底是因为什么原因而不具备工作的?从杨女士的样本中,一个很大的问题在于她收集的女性样本出生年最大值是2001,推测对应样本年龄可能在4-15岁,换言之不具备合法的工作身份的样本可以进行剔除。进一步地,“家庭妇女是否被认为是无工作的”这个问题事实上是大量妇女不回答相关问题的核心原因,可以把这部分样本定义为work=0
此外,一个非常离奇的问题是,NFHS问卷中受教育水平的最大值是4,但杨女士的描述性统计中仅有1-3的样本,也就是说“高等教育女性在样本里是不存在的”。换言之,杨女士的样本存在显然的样本选择或自选择偏误,不可以作为代表性的样本。
然后,4.3又给我一发重击
从相关描述看,受到家暴问询的女性事实上在他的有效样本里占比可能也就10%左右,而杨女士非常不负责任地将49万样本全部进行了展示,换言之她根本没有做数据预处理,只是随手把描述性统计放出来了。
所以,杨女士到底做了什么?她的数据预处理,总之在我这是彻底过不了的,这数据属于是放进重生池都能给重生池炸了的,简直臭不可闻。
3.2 280个样本?
在杨女士第六章的描述中,中国样本仅有280个进入到了模型设计中,而印度样本也大概率受到这种影响,换言之99.9%左右的样本被吃掉了,模型设计显然不存在代表性,第六章整章的模型结果都是缺乏解释效果的。
在这种情况下,由于样本统计特征的剧烈变化,杨女士应当在第六章对自身使用的样本重新进行描述性统计,但她没有做,这一点在学术论文里是致命的,但看在她的文章已经收到多次致命伤的前提下,这个问题好像已经是个小问题了。。。
4. 模型结果的问题
4.1 联合统计的重要性
杨女士的第5章,在模型结果方面也存在很大的两个问题。其一,是在她的模型结果中完全没有联合统计量和拟合优度R方的展示。虽然这俩玩意已经被现在的学术研究喷烂了(笑),其对于模型的实际价值确实不如核心系数的解释效应,但联合统计量和拟合优度仍然是标定了模型实际有效性的参考指标,尤其对于一篇需要高度规范性的硕士毕业设计而言,这样的内容不应当省略。况且杨女士在其文章之内没有对控制变量的内容和系数进行任何表述,这又是一个严重的规范性问题(一般而言,基准回归部分应当对控制变量的回归效果进行基本的展示,以证实控制变量的实际使用和回归效果,从而验证控制变量的选取有效性。)
其二,是她比描述性统计还要混乱的样本规模。从5.1看,不出所料,每个模型缺失规模基本在1%-5%左右;而表5.3就更离谱了:
按照5.1,三个年份的有效总样本规模分别为10519、8969和10867个,对应30335个总样本,而5.3又被吃掉了20%的样本,后面更是拥了一个完全不知道思想感情,硬干掉了80%样本的所谓“平衡面板”。
然后是印度样本,表5.4突出一个“我可能没有清洗数据,但我没有清洗数据不太可能”:
我就想问,NFHS4的总样本数到底是80000样本还是400000样本?
注意!上述问题下我还没有讨论系数显著性的更抽象的问题!按照表5.3的结果,她的假设根本不成立!
4.2 第六章的灾难性实证结果
第六章的结果是灾难性的。这里的问题主要体现在杨女士和她的导师郭先生缺乏最基本的学术论文写作“扬长避短”和“讲故事”的素质。
首先,我说下事件分析法或者DID成立的基本前提假设。这种拟自然实验的一个根本逻辑,是要验证“时间点0的处理行为产生了实际的经济或社会效果”,也就是说,事件分析法需要得出两个结论:(1)我的处理行为导致了结果;(2)这个效果必须是由我的处理行为导致的,而不能是由于事前就存在的实验组与对照组的显著差异。前者即“处理效应”,而后者则是“平行趋势假设”。(1)和(2)的存在构成了DID模型能够处理内生性问题的基础(当然家暴行为本身的内生性也没被考虑进来,麻了。)
那么我们看看杨女士的模型结果:
首先,6.1没毛病,这是一个很漂亮的显著结果。
其次,6.2有问题,前后都不显著,也就是说异质性分析对样本的进一步侵蚀导致触发了模型稳健性问题,结果不显著——而这又意味着图6.1中的模型存在稳健性问题(笑)。
图6.3-6.6的异质性分析也存在这种问题,可以观测到6.3右图、6.4右图和6.5右图的显著性非常差。至于杨女士将这种分析称为“调节效应”,我只能说,你开心就好。
如果是我,我打死也不做这几个异质性分析。我的解决方案是,把把被解释变量进一步拆分。因为无论是在中国还是印度的问卷当中,针对家暴的提问问题都是有多个的,我完全可以以评分的形式替代0-1变量得出进一步的合理结论,没必要对着一个数据在这里死磕。杨女士的论文在数据的选择和实证模型的设计方面存在非常严重的灵活性不足问题,这是他实证最终无法解释理论的一个根本性的问题,是一种基本的学术思维和学术素养的幼稚性的体现。
而印度模型最大的问题在于,这个模型的结果不符合平行趋势假设。仅从图6.7就可以观测到,家庭暴力所受到的影响在事前就存在显著的实验组与对照组的组间差异,而这也意味着家暴行为受到的抑制,事实上在事前就已经发生了,而不是由事后情况导致的。因此,无法验证家庭暴力受到抑制的实质结果是由于生育而产生的,可能是由于是事前的一些原因而导致的。
综上,杨女士第六章的实证论述过程,全军覆没,假设无法验证,这章应该删除。
5. 结论,以及关于知网的硕论吐槽
我记得在我们上学的时候,给我们教论文写作的老师就说过,“你们以后写毕业设计,一定不要去引用和参考知网上的毕设论文,博士的也不要看,参考格式和一些写作内容就可以了,因为能上知网的毕业设计质量是非常差的。”
现在看来,老师诚不我欺。杨女士的这篇论文,无论是数据的采选和预处理,还是模型的选择与设计,以及模型结果的展示,无不表现出一个不合格的硕士研究生在学术能力上的不足和学术态度上的不端正。这样的文章能通过一所985院校强势学院的学术委员会审议,是一件非常令人遗憾的事。
这个毕业论文提出了一个很神奇的视角;
女性生育率与男性家暴成正相关,即男性家暴越厉害,女性的生育率越高。
所以,要想要女性多生孩子,最简单的办法是让培养更多的家暴男?
我校(中游985)某理工科学院,因为一篇硕士论文被教育部抽检不合格,该学生的导师被处罚十年不准招生。
如果这种处罚只罚理工科不罚文科,只罚男不罚女,那我觉得,学术界可有得闹了。













































































