ई-डिस्कवरी लागत में कमी: प्रेडिक्टिव कोडिंग ने एक फर्म के $2.3 मिलियन कैसे बचाए
एक फार्मास्युटिकल कंपनी जो मल्टीडिस्ट्रिक्ट लिटिगेशन का सामना कर रही थी, उसके पास 4.2 मिलियन दस्तावेज़ों को कवर करने वाला डिस्कवरी दायित्व था। पारंपरिक लीनियर रिव्यू का प्रारंभिक अनुमान, जिसमें कॉन्ट्रैक्ट अटॉर्नी एक-एक करके दस्तावेज़ों की समीक्षा करते, 14 महीनों में $3.4 मिलियन आया। फर्म ने इसके बजाय प्रेडिक्टिव कोडिंग का प्रस्ताव दिया। टेक्नोलॉजी-असिस्टेड रिव्यू की कुल लागत: 5 महीनों में $1.1 मिलियन, ऐसे डिफेंसिबिलिटी मेट्रिक्स के साथ जो लीनियर रिव्यू आमतौर पर जो हासिल करता है उससे बेहतर थे।
$2.3 मिलियन का अंतर सिर्फ कम पैसे खर्च करने के बारे में नहीं था। क्लाइंट के लिए टाइमलाइन कम्प्रेशन लागत बचत से ज़्यादा मायने रखता था क्योंकि लिटिगेशन रणनीति एक प्रमुख नियामक समय सीमा से पहले डिस्कवरी पूरी करने पर निर्भर थी।
प्रेडिक्टिव कोडिंग वास्तव में कैसे काम करती है
प्रेडिक्टिव कोडिंग, जिसे कभी-कभी टेक्नोलॉजी-असिस्टेड रिव्यू (TAR) या कंटीन्यूअस एक्टिव लर्निंग (CAL) कहा जाता है, दस्तावेज़ समीक्षा को प्राथमिकता देने के लिए मशीन लर्निंग का उपयोग करती है। प्रक्रिया एक सीनियर अटॉर्नी द्वारा दस्तावेज़ों के एक सीड सेट की समीक्षा से शुरू होती है, आमतौर पर 1,000-2,000 दस्तावेज़ जो केस में मुद्दों की श्रेणी का प्रतिनिधित्व करने के लिए चुने जाते हैं। अटॉर्नी प्रत्येक दस्तावेज़ को रिस्पॉन्सिव, नॉन-रिस्पॉन्सिव, या प्रिविलेज्ड के रूप में कोड करता है।
एल्गोरिदम इन कोडिंग निर्णयों से सीखता है और शेष दस्तावेज़ों को अनुमानित प्रासंगिकता के अनुसार रैंक करता है। सबसे ऊंची रैंक वाले दस्तावेज़ों की अगली समीक्षा की जाती है, और वे कोडिंग निर्णय मॉडल को और प्रशिक्षित करते हैं। प्रत्येक पुनरावृत्ति के साथ, एल्गोरिदम यह अनुमान लगाने में बेहतर होता जाता है कि कौन से दस्तावेज़ प्रासंगिक हैं।
दक्षता लाभ इस तथ्य से आता है कि अधिकांश बड़े दस्तावेज़ संग्रह अत्यधिक रूप से नॉन-रिस्पॉन्सिव होते हैं। एक सामान्य वाणिज्यिक लिटिगेशन में, एकत्र किए गए दस्तावेज़ों में से केवल 3-8% वास्तव में केस से संबंधित होते हैं। प्रेडिक्टिव कोडिंग इस प्रासंगिक उपसमूह की पहचान बाकी 92-97% की मानवीय समीक्षा की आवश्यकता के बिना करती है। फार्मास्युटिकल केस में, 4.2 मिलियन दस्तावेज़ों में से केवल 4.1% को अंततः रिस्पॉन्सिव के रूप में कोड किया गया, जिसका मतलब था कि लीनियर रिव्यू दृष्टिकोण में अटॉर्नी को 172,000 महत्वपूर्ण दस्तावेज़ खोजने के लिए 4 मिलियन अप्रासंगिक दस्तावेज़ देखने पड़ते।
लागत का विवरण
लीनियर रिव्यू की लागत की गणना सीधी है। कॉन्ट्रैक्ट अटॉर्नी आमतौर पर दस्तावेज़ समीक्षा के लिए $45-75 प्रति घंटे बिल करते हैं। एक अनुभवी समीक्षक प्रति घंटे 50-70 दस्तावेज़ प्रोसेस करता है। 4.2 मिलियन दस्तावेज़ों के लिए प्रति घंटे 60 दस्तावेज़ और $55 प्रति घंटे की दर से, गणना केवल समीक्षक लागत में लगभग $3.85 मिलियन देती है, साथ ही प्रोजेक्ट मैनेजमेंट, क्वालिटी कंट्रोल और होस्टिंग शुल्क। फर्म के $3.4 मिलियन के अनुमान में पहले से ही बैच प्रोसेसिंग और कीवर्ड कलिंग से कुछ दक्षता लाभ मान लिए गए थे।
प्रेडिक्टिव कोडिंग की लागत अलग तरह से विभाजित हुई। टेक्नोलॉजी लाइसेंसिंग और होस्टिंग लगभग $180,000 रही। मॉडल को प्रशिक्षित करने, सीड सेट की समीक्षा करने और वैलिडेशन राउंड आयोजित करने के लिए सीनियर अटॉर्नी का समय कुल मिलाकर लगभग $320,000 रहा। अनुभवी अटॉर्नी की एक छोटी टीम द्वारा AI-प्राथमिकता वाले दस्तावेज़ों की समीक्षा की लागत $480,000 रही। क्वालिटी कंट्रोल और डिफेंसिबिलिटी टेस्टिंग ने अतिरिक्त $120,000 जोड़े।
प्रति-दस्तावेज़ लागत लीनियर रिव्यू के लगभग $0.81 से गिरकर प्रेडिक्टिव कोडिंग के साथ $0.26 हो गई। 4.2 मिलियन दस्तावेज़ों में फैलाने पर, ये प्रति-इकाई बचत नाटकीय रूप से बढ़ जाती है।
डिफेंसिबिलिटी संबंधी चिंताएं और उन्हें कैसे संबोधित किया गया
प्रेडिक्टिव कोडिंग पर सबसे आम आपत्ति डिफेंसिबिलिटी है। विरोधी पक्ष का वकील तर्क दे सकता है कि एल्गोरिदम ने रिस्पॉन्सिव दस्तावेज़ छोड़ दिए। अदालतों ने जज एंड्रयू पेक की Da Silva Moore में 2012 की ऐतिहासिक राय के बाद से इस मुद्दे को बार-बार संबोधित किया है, और सहमति दृढ़ता से टेक्नोलॉजी-असिस्टेड रिव्यू को उचित मानने की ओर स्थानांतरित हो गई है, और कुछ मामलों में लीनियर रिव्यू से अधिक डिफेंसिबल।
डिफेंसिबिलिटी का तर्क वास्तव में कई तरीकों से प्रेडिक्टिव कोडिंग के पक्ष में है। पहला, प्रक्रिया विस्तृत मेट्रिक्स उत्पन्न करती है: प्रिसिजन, रिकॉल, F1 स्कोर, और रिचनेस गणनाएं जो ठीक-ठीक मापती हैं कि समीक्षा कितनी गहन थी। लीनियर रिव्यू कोई तुलनीय गुणवत्ता मेट्रिक्स नहीं देता। लीनियर रिव्यू करने वाली फर्म रिपोर्ट कर सकती है कि अटॉर्नी ने हर दस्तावेज़ देखा, लेकिन वे यह नहीं बता सकते कि वे अटॉर्नी कितने सटीक थे।
दूसरा, प्रेडिक्टिव कोडिंग सांख्यिकीय वैलिडेशन को सक्षम बनाती है। फार्मास्युटिकल केस में, फर्म ने 2,500 दस्तावेज़ों का एक रैंडम सैंपल निकाला जिन्हें एल्गोरिदम ने नॉन-रिस्पॉन्सिव के रूप में वर्गीकृत किया था और सीनियर अटॉर्नी से उनकी मैन्युअल समीक्षा कराई। इल्यूज़न रेट (नॉन-रिस्पॉन्सिव सेट में रिस्पॉन्सिव दस्तावेज़ों का प्रतिशत) 1.2% था, जो 96% से ऊपर की रिकॉल दर में बदलता है। अधिकांश लीनियर रिव्यू, जब समान गुणवत्ता परीक्षण के अधीन किए जाते हैं, 60% से 80% के बीच रिकॉल दर दिखाते हैं।
तीसरा, पूरी प्रक्रिया प्रलेखित और पुनरुत्पादनीय है। सीड सेट के निर्णय, एल्गोरिदम के प्रशिक्षण पुनरावृत्तियां, वैलिडेशन कार्यप्रणाली, और परिणाम सभी लॉग किए जाते हैं। यदि विरोधी पक्ष का वकील समीक्षा को चुनौती देता है, तो फर्म इस बात का पूरा रिकॉर्ड प्रस्तुत कर सकती है कि हर कोडिंग निर्णय कैसे लिया गया।
प्रेडिक्टिव कोडिंग कब उपयुक्त है
प्रेडिक्टिव कोडिंग बड़े दस्तावेज़ संग्रहों पर सबसे अधिक लागत बचत करती है, आमतौर पर 500,000 दस्तावेज़ों से ऊपर। उस सीमा से नीचे, सेटअप लागत और मॉडल प्रशिक्षण के लिए अटॉर्नी का समय कीवर्ड फ़िल्टरिंग के साथ एक अच्छी तरह से प्रबंधित लीनियर रिव्यू की तुलना में निवेश को उचित नहीं ठहरा सकता।
यह तकनीक सबसे अच्छा तब काम करती है जब रिस्पॉन्सिव दस्तावेज़ पहचान योग्य पैटर्न साझा करते हैं, चाहे भाषा में, प्रतिभागियों में, तिथि सीमाओं में, या विषय वस्तु में। विशिष्ट घटनाओं (एक विशेष उत्पाद दोष, एक विशेष लेनदेन, कथित दुराचार की एक निर्धारित समय अवधि) से जुड़े मामले उन मामलों की तुलना में बेहतर प्रेडिक्टिव कोडिंग परिणाम देते हैं जिनमें व्यापक, चल रहा आचरण शामिल है जहां प्रासंगिकता को परिभाषित करना कठिन है।
बहु-मुद्दा मामले एक अवसर और एक चुनौती दोनों प्रस्तुत करते हैं। एल्गोरिदम को एक साथ विभिन्न मुद्दों से संबंधित दस्तावेज़ों की पहचान करने के लिए प्रशिक्षित किया जा सकता है, जो प्रत्येक मुद्दे के लिए अलग-अलग समीक्षा चलाने से अधिक कुशल है। लेकिन प्रशिक्षण सेट में प्रत्येक मुद्दे के उदाहरण शामिल होने चाहिए, जो प्रारंभिक कोडिंग राउंड के लिए आवश्यक सीनियर अटॉर्नी समय को बढ़ाता है।
जटिल लिटिगेशन का प्रबंधन करने वाली लॉ फर्मों के लिए, प्रेडिक्टिव कोडिंग को एक मानक उपकरण के रूप में पेश करने की क्षमता एक प्रतिस्पर्धी विभेदक बन गई है। क्लाइंट तेजी से अपनी फर्मों से बड़े मामलों पर टेक्नोलॉजी-असिस्टेड रिव्यू का उपयोग करने की अपेक्षा करते हैं, और जब एक अधिक कुशल विकल्प मौजूद है तो वे लीनियर रिव्यू के लिए भुगतान करने में अनिच्छुक हैं।
विभिन्न केस आकारों में संख्याएं कैसी दिखती हैं
फार्मास्युटिकल केस में $2.3 मिलियन की बचत एक बड़े पैमाने का उदाहरण है, लेकिन आनुपातिक बचत विभिन्न केस आकारों में लागू होती है। 1 मिलियन दस्तावेज़ संग्रह पर, फर्में आमतौर पर लीनियर रिव्यू की तुलना में 55-65% लागत कमी की रिपोर्ट करती हैं। 5 मिलियन दस्तावेज़ों से ऊपर के संग्रहों पर, बचत अक्सर 75% से अधिक हो जाती है क्योंकि प्रेडिक्टिव कोडिंग वर्कफ़्लो स्थापित करने की निश्चित लागत अधिक दस्तावेज़ों में विभाजित हो जाती है।
समय की बचत भी इसी पैटर्न का अनुसरण करती है। 4.2 मिलियन दस्तावेज़ों की लीनियर रिव्यू जिसमें 14 महीने लगते, प्रेडिक्टिव कोडिंग के साथ 4-6 महीनों में पूरी की जा सकती है, मुद्दों की जटिलता और वैलिडेशन आवश्यकताओं के आधार पर। आक्रामक लिटिगेशन शेड्यूल वाले मामलों के लिए, यह समय संपीड़न लागत बचत से अधिक मूल्यवान हो सकता है।
गणना तब दिलचस्प हो जाती है जब आप सटीकता को शामिल करते हैं। यदि प्रेडिक्टिव कोडिंग लीनियर रिव्यू के 75% की तुलना में 96% रिकॉल प्राप्त करती है, तो टेक्नोलॉजी-असिस्टेड दृष्टिकोण न केवल सस्ता और तेज़ है। यह अधिक रिस्पॉन्सिव दस्तावेज़ भी खोज रहा है। लीनियर रिव्यू जो दस्तावेज़ छोड़ देता है वे असामान्य भाषा या अप्रत्याशित प्रासंगिकता वाले होते हैं, ठीक वे दस्तावेज़ जो किसी केस की दिशा बदल सकते हैं। कम पैसे खर्च करना और बेहतर परिणाम प्राप्त करना एक ऐसा संयोजन है जो प्रारंभिक सीखने की अवस्था में निवेश करने के इच्छुक फर्मों के लिए अपनाने का निर्णय सीधा बना देता है।