最近遇到一个问题需要对百万级TXT文本进行对比去重处理 网上找了一圈小文件处理倒是方便excel也能搞,但文本太大了也没有好的工具处理
遂谷歌一番,偶然看见一前辈的解决方案,不敢独享便分享在这里希望也能帮助到你
问题简介:现有两个TXT文本,A.txt与B.txt,A.txt中有200万行信息,B.txt中有500万行信息,B.txt内容中包含了一部分A.txt中已存在的信息,现在需要将B与A中重复信息剔除掉并导出为C.txt使用。
这里简单做了个实例或许更为直观:
解决方案:新建文件夹并将A.txt与B.txt拖入,在当前文件下新建xxx.bat文件,复制如下内容到xx.bat内并保存,编码选择为ANSI
(注:bat文件与待处理文本必须为同一文件夹)
<# : cls @echo off rem 根据一个txt文本文件内给出的行内容,将另一个txt文本文件内与其相同/重复的行内容删除 set #=亿码酷站 &set @=YMKUZHAN.COM &set $=Q&set/az=0x173b954 title %#% %$%%$% %z% 或访问 %@% cd /d "%~dp0" powershell -NoProfile -ExecutionPolicy bypass "Invoke-Command -ScriptBlock ([ScriptBlock]::Create([IO.File]::ReadAllText('%~f0',[Text.Encoding]::Default))) -Args '%~dp0'" echo;%#% %$%%$% %z% 或访问 %@% pause exit #> $path=$args[0]; $txtfile1=$path+'a.txt'; $txtfile2=$path+'b.txt'; $txtfile3=$path+'c.txt'; if(-not (test-path -liter $txtfile1)){Write-host ('"'+$txtfile1+'" not found');exit;}; if(-not (test-path -liter $txtfile2)){Write-host ('"'+$txtfile2+'" not found');exit;}; $text1=[IO.File]::ReadAllLines($txtfile1, [Text.Encoding]::Default); $text2=[IO.File]::ReadAllLines($txtfile2, [Text.Encoding]::Default); $dic=New-Object 'System.Collections.Generic.Dictionary[string,int]'; [System.Collections.ArrayList]$s=@(); for($i=0;$i -lt $text1.count;$i++){ if(-not $dic.ContainsKey($text1[$i])){$dic.Add($text1[$i], 1)}; }; for($i=0;$i -lt $text2.count;$i++){ if(-not $dic.ContainsKey($text2[$i])){[void]$s.add($text2[$i])}; }; [IO.File]::WriteAllLines($txtfile3, $s, [Text.Encoding]::Default);
效果还不出处理速度可观方便快捷!
亿码酷站-每日分享各类精品源码及实用教程!
查看更多教程
转载请注明来源:如何使用BAT批处理文件处理百万级TXT文本对比去重删除交集并输出唯一内容
本文永久链接地址:https://www.ymkuzhan.com/12700.html
本文永久链接地址:https://www.ymkuzhan.com/12700.html
下载声明:
本站资源如无特殊说明默认解压密码为www.ymkuzhan.com建议使用WinRAR解压; 本站资源来源于用户分享、互换、购买以及网络收集等渠道,本站不提供任何技术服务及有偿服务,资源仅提供给大家学习研究请勿作它用。 赞助本站仅为维持服务器日常运行并非购买程序及源码费用因此不提供任何技术支持,如果你喜欢该程序,请购买正版! 版权声明:
下载本站资源学习研究的默认同意本站【版权声明】若本站提供的资源侵犯到你的权益,请提交版权证明文件至邮箱ymkuzhan#126.com(将#替换为@)站长将会在三个工作日内为您删除。 免责声明:
您好,本站所有资源(包括但不限于:源码、素材、工具、字体、图像、模板等)均为用户分享、互换、购买以及网络收集而来,并未取得原始权利人授权,因此禁止一切商用行为,仅可用于个人研究学习使用。请务必于下载后24小时内彻底删除,一切因下载人使用所引起的法律相关责任,包括但不限于:侵权,索赔,法律责任,刑事责任等相关责任,全部由下载人/使用人,全部承担。以上说明,一经发布视为您已全部阅读,理解、同意以上内容,如对以上内容持有异议,请勿下载,谢谢配合!支持正版,人人有责,如不慎对您的合法权益构成侵犯,请联系我们对相应内容进行删除,谢谢!