16 1 2 مبادئ عامة للتعامل مع البيانات المفقودة. هناك أدبيات كبيرة من الأساليب الإحصائية للتعامل مع البيانات المفقودة هنا نستعرض بإيجاز بعض المفاهيم الأساسية ونقدم بعض التوصيات العامة للمؤلفين مراجعة كوكرين من المهم أن نفكر لماذا قد تكون البيانات مفقودة وكثيرا ما يستخدم الإحصائيون المصطلحات المفقودة عشوائيا وغير المفقودين عشوائيا لتمثيل سيناريوهات مختلفة. قيل إن البيانات مفقودة عشوائيا إذا كانت حقيقة أنها مفقودة لا علاقة لها بالقيم الفعلية للبيانات المفقودة فعلى سبيل المثال، إذا كانت بعض نوعية فقد فقدت الاستبيانات في نظام البريد، ومن غير المرجح أن تكون ذات صلة بنوعية حياة المشاركين في التجربة الذين أكملوا الاستمارات في بعض الظروف، يميز الإحصائيون بين البيانات المفقودة عشوائيا والبيانات المفقودة تماما عشوائيا، وإن كانت في فإن سياق المراجعة المنهجية للتمييز من غير المرجح أن يكون مهما البيانات التي مفقودة عشوائيا قد لا تكون مهمة تحليلات تستند على البيانات المتوفرة سوف تميل إلى أن تكون غير منحازة، على الرغم من أن يستند إلى حجم عينة أصغر من مجموعة البيانات الأصلية. يقال إن البيانات ليست مفقودة عشوائيا إذا كانت مفقودة هي ذات الصلة إلى البيانات المفقودة الفعلية على سبيل المثال، في من المحتمل أن يكون المشاركون الذين يعانون من انتكاس الاكتئاب أقل احتمالا لحضور المقابلة النهائية للمتابعة، ومن المرجح أن يكون لديهم بيانات نتائج مفقودة هذه البيانات لا يمكن تجاهلها بمعنى أن تحليل البيانات المتاحة وحدها سوف وعادة ما يكون متحيزا التحيز نشر والتحيز الإبلاغ الانتقائي يؤدي بحكم تعريفها إلى البيانات التي لا تكون مفقودة عشوائيا، والاستنزاف واستبعاد الأفراد داخل الدراسات غالبا ما تفعل كذلك. الخيارات الرئيسية للتعامل مع البيانات الناقصة هي 1 تحليل البيانات المتاحة فقط أي تجاهل البيانات الناقصة (2)، مما يفرض البيانات المفقودة بقيم الاستبدال، ومعاملتها كما لو كانت قد لوحظت، على سبيل المثال، نقل الملاحظة الأخيرة إلى الأمام، مما ينطوي على نتيجة مفترضة من هذا القبيل على افتراض أن كل هذه النتائج كانت ضعيفة، مما يفرض على المتوسط، استنادا إلى القيم المتوقعة من تحليل الانحدار (3)، مما يفترض البيانات المفقودة والمحاسبة لحقيقة أن هذه كانت محسوبة مع عدم اليقين على سبيل المثال حساب متعددة، وأساليب حساب بسيطة كنقطة 2 مع تعديل ل (4) باستخدام نماذج إحصائية تسمح بالبيانات المفقودة، مما يجعل الافتراضات المتعلقة بعلاقاتها مع البيانات المتاحة. وقد يكون الخيار 1 مناسبا عندما يمكن افتراض أن البيانات مفقودة عشوائيا. الخيارات من 2 إلى 4 هي محاولات لمعالجة البيانات غير المفقودة عشوائيا الخيار 2 عملي في معظم الظروف ويستخدم عادة في المراجعات المنهجية ومع ذلك، فإنه لا يعترف بعدم اليقين في القيم والنتائج المحسوبة، وعادة، في فترات الثقة التي هي ضيقة جدا والخيارين 3 و 4 يتطلب مشاركة إحصائي مطلع. لتوصيات عامة للتعامل مع البيانات المفقودة في مراجعات كوكرين هي على النحو التالي. كلما كان ذلك ممكنا، الاتصال المحققين الأصليين لطلب البيانات المفقودة. إعطاء افتراضات من أي الأساليب المستخدمة للتعامل مع البيانات الناقصة على سبيل المثال، أن يفترض أن البيانات مفقودة عشوائيا، أو افتراض أن القيم المفقودة لديها قيمة معينة مثل نتيجة سيئة. إجراء تحليلات الحساسية لتقييم مدى حساسية النتائج للتغييرات المعقولة في الافتراضات التي يتم إجراؤها انظر الفصل 9، القسم 9 7. يصف التأثير المحتمل للبيانات المفقودة على نتائج المراجعة في قسم المناقشة. عدد الإدخال في إحصاء ستاتا. هذا هو الجزء الرابع من قسم متعدد في سلسلة ستاتا للحصول على قائمة من الموضوعات التي تغطيها هذه السلسلة، راجع مقدمة. هذا القسم سوف نتحدث لكم من خلال تفاصيل عملية حساب تأكد من قراءة ما لا يقل عن القسم السابق، إنشاء الإدخال نماذج حتى يكون لديك شعور ما القضايا يمكن أن تؤثر على صحة النتائج. البيانات النموذجية. لتوضيح العملية، سنقوم باستخدام مجموعة بيانات ملفقة على عكس تلك في e أمثلة القسم، تم تصميم هذه المجموعة من البيانات ليكون لها بعض التشابه إلى العالم الحقيقي data. female binary. race كاتيغوريكال، ثلاثة قيم. أوربان binary. edu أمر كاتيغوريكال، أربعة القيم. إكس المستمر. باستثناء الإناث لديه فرصة 10 في عداد المفقودين تماما عشوائيا، ولكن بالطبع في العالم الحقيقي فزنا نعلم أنه مكار في وقت مبكر وبالتالي فإننا سوف تحقق ما إذا كان مكار أو مار منار لا يمكن التحقق من خلال النظر في لوحظ البيانات باستخدام الإجراء المبين في قرار ل impute. unab نومفارس أوناب ميسفارس في المناطق الحضرية الأجر الأجر الخاطئ، جنرال الكتريك miss. foreach فار من ميسفارس المحلية قائمة كوفارس المحلية نومفارس - فار عرض الخط الجديد 3 لوجيت ميسينغنيس من فار على كوفارس لوجيت ميس فار كوفارس فوريش نفار من الكوفارات المحلية عرض نيولين 3 تيست من نفار عن طريق المفقودين من فار تيست نفار، من قبل ملكة جمال var. See ملف سجل للنتائج. هدفنا هو تراجع الأجور على الجنس والعرق ومستوى التعليم، والخبرة لرؤية الإجابات الصحيحة، e الملف الذي يخلق مجموعة البيانات وفحص الأمر جين الذي يعرف التعليمات البرمجية وافيلبليت لعملية حساب يمكن العثور عليها في ملف القيام التالية. عملية حساب يخلق الكثير من الإخراج وسوف نضع الضوء في هذه الصفحة، ومع ذلك، كاملة ملف السجل بما في ذلك الرسوم البيانية المرتبطة بها يمكن العثور عليها. كل قسم من هذه المقالة سوف يكون وصلات إلى القسم ذي الصلة من السجل انقر فوق مرة أخرى في المتصفح الخاص بك للعودة إلى هذه الصفحة. الخطوة الأولى في استخدام الأوامر مي هو مي تعيين البيانات الخاصة بك هذا يشبه إلى حد ما سفيسيت تسيت أو زستيست الأمر مي مجموعة يحكي ستاتا كيف ينبغي تخزين العبارات إضافية لك ليرة لبنانية نقترح استخدام تنسيق واسع، كما هو أسرع قليلا من ناحية أخرى، يستخدم ملونغ ذاكرة أقل قليلا. لديك ستاتا استخدام بنية البيانات واسعة، type. To يكون ستاتا استخدام ملونغ هامشية هيكل البيانات الطويلة، type. The مقابل مقابل المصطلحات الطويلة هو اقترضت من إعادة تشكيل والهياكل متشابهة ومع ذلك، فهي ليست معادلة وكنت وول د أبدا استخدام إعادة تشكيل لتغيير هيكل البيانات المستخدمة من قبل مي بدلا من ذلك، اكتب مي تحويل واسعة أو تحويل مي ملونغ إضافة، واضحة إذا لم يتم حفظ البيانات منذ التغيير الأخير. في معظم الوقت لا داعي للقلق حول كيفية يتم تخزين إمبوتاتيونس أوامر مي الشكل خارج تلقائيا كيفية تطبيق كل ما تفعله لكل حساب ولكن إذا كنت بحاجة إلى معالجة البيانات بطريقة مي يمكن أن نفعل لك، ثم سوف تحتاج إلى معرفة المزيد عن تفاصيل الهيكل الذي إعادة باستخدام سوف تحتاج أيضا أن تكون جدا، حذرا جدا إذا كنت مهتما في مثل هذه الأمور بما في ذلك نادرا ما تستخدم فلونغ وتنسيقات فلونغزيب تشغيل هذا الملف وقراءة التعليقات التي تحتوي عليها أثناء فحص متصفح البيانات لمعرفة ما تبدو البيانات في كل form. Registering المتغيرات. أوامر مي تعترف ثلاثة أنواع من المتغيرات. تغير المتغيرات التي تم إدخالها هي المتغيرات التي مي هو عزم أو متضمنة. متغيرات ريجولار هي المتغيرات التي لا يتم عزوها إما عن طريق الاختيار أو لأنها لا تفتقد أي فالو المتغيرات السلبية هي المتغيرات التي يتم تحديدها بشكل كامل من قبل المتغيرات الأخرى على سبيل المثال، يتم تحديد الأجر سجل الأجر، أو مؤشر للسمنة يمكن تحديدها من قبل وظيفة الوزن والطول شروط التفاعل هي أيضا المتغيرات السلبية، على الرغم من إذا كنت تستخدم ستاتا يجب أن يعلن لهم على هذا النحو المتغيرات السلبية غالبا ما تكون إشكالية الأمثلة على التحولات اللاخطية والتفاعلات تبين كيف استخدامها بشكل غير لائق يمكن أن يؤدي إلى تقديرات منحازة. إذا تم تحديد متغير السلبي من المتغيرات العادية، فإنه يمكن يعامل كمتغير منتظم نظرا لعدم الحاجة إلى حساب. لا يجب التعامل مع المتغيرات السلبية على هذا النحو إلا إذا كانت تعتمد على المتغيرات المحسوبة. ريجيسترينغ متغير يقول ستاتا أي نوع من المتغيرات التي يجب أن تكون المتغيرات التي تم إدخالها يجب أن تكون دائما مسجلة. مي تسجيل إمبوتد فارليست. حيث يجب استبدال فارليست بالقائمة الفعلية للمتغيرات التي يجب أن تكون متضمنة. المتغيرات النظامية في كثير من الأحيان لا يجب أن تكون مسجلة، ولكن انها سا فكرة جيدة. مي تسجيل المتغيرات varlist. Passive العادية يجب أن تكون مسجلة. مي تسجيل فارليست السلبي. ومع ذلك، يتم إنشاء المتغيرات السلبية في كثير من الأحيان بعد إمبوتينغ القيام بذلك مع ميل السلبي وأنها سوف تكون مسجلة كما السلبي تلقائيا. في مثالنا البيانات، جميع المتغيرات باستثناء الإناث تحتاج إلى أن يكون إمبوتد أمر تسجيل مي المناسبة is. mi تسجيل السباق الأجور الأجر. لاحظ أنه لا يمكنك استخدام كما فارليست الخاص بك حتى لو كان لديك لفرض كل المتغيرات الخاصة بك، لأن ذلك من شأنه أن يتضمن متغيرات النظام التي أضيفت من قبل مجموعة ميمي إيت لتتبع هيكل حساب. تسجيل الإناث كما هو اختياري اختياري، ولكن فكرة جيدة. مي تسجيل منتظم الإناث. تحقق نموذج إيمبوتاتيون. بناء على أنواع المتغيرات، وأساليب حساب واضحة هي. استخدام الفئوية، ثلاث قيم mlogit. urban ثنائي logit. edu أمر كاتيغوريكال، أربعة قيم ologit. exp ريجريس المستمر. تراجع مستمر. لا ينبغي أن تكون الإناث محسوبة، ولكن ينبغي أن تدرج في نماذج حسابية لأنها على حد سواء في نموذج التحليل ولأنه من المرجح أن تكون ذات صلة. قبل المضي قدما في عزم سوف نقوم بفحص كل من نماذج احتساب تشغيل دائما كل من الخاص بك نماذج حساب بشكل فردي، خارج سياق السلسل العفوي مي، لمعرفة ما إذا كانت تتلاقى وبقدر ما هو ممكن التحقق من أنها محددة بشكل صحيح. كود لتشغيل كل من هذه النماذج is. mlogit r إيس إكس أجور لوجيت إكس إكسهانج أجول أولوغيت إيدو إكس أجور ريجريس إكس أجور ريجريس الأجور إكس. لاحظ أنه عندما أمرت المتغيرات الفئوية أو لا تظهر كما المتغيرات المتكافئة أنا يوسعها إلى مجموعات من متغيرات المؤشر. كما سنرى لاحقا، يتضمن الأمر بالسلاسل الأوامر للنماذج الفردية التي تعمل بها وبالتالي فإن اختصار مفيد، وخاصة إذا كان لديك الكثير من المتغيرات على الإيماء، هو إعداد الخاص بك الأمر معزولة بالسلاسل مع خيار دريرون لمنعها من القيام بأي فعلية إمبوسينغ، تشغيل ثم قم بنسخ الأوامر من الإخراج إلى الملف الخاص بك لاختبار. مشاكل التقارب. الشيء الأول هو أن نلاحظ أن كل هذه النماذج تشغيل بنجاح نماذج معقدة مثل ملوجيت قد تفشل في تلتقي إذا كان لديك أعداد كبيرة من المتغيرات الفئوية، لأن ذلك غالبا ما يؤدي إلى أحجام الخلايا الصغيرة لتحديد سبب المشكلة، وإزالة معظم المتغيرات، تأكد من أن النموذج يعمل مع ما تبقى، ثم إضافة متغيرات مرة واحدة في وقت واحد أو في الصغيرة مجموعات حتى يتوقف عن العمل مع بعض التجارب يجب أن تكون قادرة على تحديد متغير المشكلة أو مجموعة من المتغيرات في هذه المرحلة سيكون لديك لتقرر ما إذا كان يمكنك الجمع بين فئات أو إسقاط المتغيرات أو إجراء تغييرات أخرى من أجل إنشاء نموذج عملي. التنبؤ التنبؤ. التنبؤ هو مشكلة أخرى أن نلاحظ عملية إسقاط لا يمكن ببساطة إسقاط الملاحظات توقعت تماما الطريق لوجيت يمكن أن إسقاط لهم قبل إمبوتينغ، ولكن هذا يبدو لهزيمة الغرض من حساب متعددة البديل هو إضافة زيادة أو مجرد أوغ الخيار إلى الأساليب المتضررة هذا يخبر مي العفوية بالسلاسل لاستخدام نهج الانحدار المعزز، الذي يضيف ملاحظات وهمية مع الأوزان منخفضة جدا في مثل هذه الطريقة أن يكون لها تأثير يذكر على النتائج ولكن منع التنبؤ الكمال لمزيد من التفاصيل انظر القسم قضية التنبؤ المثالي أثناء احتساب البيانات الفئوية في وثائق ستاتا مي. التحقق من ميسبيسيفيكاتيون. أنت ش حاول أيضا تقييم ما إذا كان يتم تحديد النماذج بشكل صحيح مناقشة كاملة لكيفية تحديد ما إذا كان نموذج الانحدار محدد بشكل صحيح أم لا يتجاوز نطاق هذه المقالة، ولكن استخدام أي الأدوات التي تجدها مناسبة وفيما يلي بعض الأمثلة. Residual مقابل مقابل من أجل المتغيرات المستمرة، يمكن أن تبقى المتبقية مقابل المجهزة قيمة المؤامرات بسهولة القيام به مع رففلوت مفيدة العديد من الأمثلة استخدامها للكشف عن المشاكل النظر في مؤامرة ل experience. regress إكس الأجور rvfplot. Note كيف يتم تجميع عدد من النقاط على طول في أسفل اليسار، ولا توجد نقاط أقل من ذلك. وهذا يعكس القيد الذي لا يمكن أن تكون التجربة أقل من الصفر، مما يعني أن القيم المجهزة يجب أن تكون دائما أكبر من أو تساوي البقايا، أو بدلا من ذلك يجب أن تكون المخلفات أكبر من أو يساوي السالب للقيم المجهزة إذا كان الرسم البياني له نفس المقياس على كلا المحورين، فإن خط القيد سيكون خط 45 درجة إذا كانت جميع النقاط أقل من سي خط ميلار بدلا من فوق ذلك، وهذا من شأنه أن أقول لكم أن هناك حد أعلى على المتغير بدلا من حد أدنى و y اعتراض خط تقييد يخبرك الحد في كلتا الحالتين يمكنك أيضا أن يكون حد أدنى و الحد الأعلى، ووضع جميع النقاط في نطاق بينهما. نموذج واضح، تراجع غير مناسب لتجربة لأنها فازت تطبيق هذا القيد انها أيضا غير مناسبة للأجور لنفس السبب وتشمل البدائل ترونكريغ، ليرة لبنانية 0 و بمم سنستخدم pmm. Adding التفاعلات. في هذا المثال، يبدو من المعقول أن العلاقات بين المتغيرات قد تختلف بين العرق والجنس، والمجموعات الريفية الحضرية وبالتالي واحدة من الطرق للتحقق من ميسبيسيفيكاتيون هو إضافة شروط التفاعل للنماذج ومعرفة ما إذا كانت تتحول إلى تكون مهمة على سبيل المثال، سنقوم بمقارنة واضح model. regress إكس الأجور. مع واحد الذي يتضمن interactions. regress exp. We ليرة لبنانية تشغيل مقارنات مماثلة لنماذج المتغيرات الأخرى هذا يخلق قدرا كبيرا من الناتج، لذلك انظر ملف السجل للنتائج التفاعلات بين الإناث والمتغيرات الأخرى ذات أهمية كبيرة في نماذج ل إكس الأجور إيدو والحضر وهناك عدد قليل من التفاعلات الهامة بين العرق أو الحضرية وغيرها من المتغيرات، ولكن ليس تقريبا ما يقرب من أن نضع في اعتبارنا أن مع هذا العديد من المعاملات ونحن نتوقع بعض ايجابيات كاذبة باستخدام مستوى دلالة من 05 ونحن سوف بالتالي اعتراض الرجال والنساء بشكل منفصل هذا هو خيار جيد بشكل خاص لمجموعة البيانات هذه لأن الإناث لا يفتقد أبدا إذا كان، كان لدينا لإسقاط تلك الملاحظات التي مفقودة لأن المرأة لا يمكن وضعها في مجموعة واحدة أو أخرى. في الأمر إمبوتاتي هذا يعني إضافة خيار الإناث عند اختبار النماذج، فهذا يعني بدء الأوامر مع البادئة الإناث وإزالة الإناث من قوائم المتغيرات المشتركة نماذج حساب محسنة هي بالتالي. المرأة الإناث ريج إكس الأجر من قبل الإناث لوجيت أجور إكس الحضرية من قبل الإناث ملوجيت سباق إكس الأجر من قبل الإناث ريج الأجور إكس من قبل الإناث أولوغيت إيدو السابقين p pay. pmm نفسها لا يمكن تشغيلها خارج سياق الاحصاء، ولكن نظرا لأنه يقوم على الانحدار يمكنك استخدام الانحدار العادي لاختبار it. These نماذج يجب أن يتم اختبار مرة أخرى، ولكننا سوف نأخذ هذه العملية. الكلمة الأساسية للمي عابرة بالسلاسل is. mi طريقة السلاسل العفوية 1 varlist1 method2 varlist2 regvars. Each طريقة تحدد الطريقة التي سيتم استخدامها ل إمبوتينغ فارليست التالية إمكانيات الأسلوب هي ريجرس بمم ترونكريغ إنتريغ لوجيت أولوجيت ملوجيت بويسون و نبريج ريجفارس هي قائمة المتغيرات العادية لاستخدامها ك المتغيرات المشتركة في نماذج حساب ولكن لا يحسب قد لا يكون هناك أي. الخيارات الأساسية are. add N رسيد R سافيتريس تريسفيل استبدال. N هو عدد من الافتراضات التي يمكن أن تضاف إلى مجموعة البيانات R هو البذور التي سيتم استخدامها لعشوائية عدد المولدات إذا لم تقم بتعيين هذا سوف تحصل على إيمبوتاتيونس مختلفة قليلا في كل مرة يتم تشغيل الأمر و تريسفيل هو مجموعة البيانات التي مي عابرة بالسلاسل سيتم تخزين المعلومات حول عملية حساب سنقوم لنا ه هذه مجموعة البيانات للتحقق من التقارب. الاستخدامات ذات الصلة لطريقة معينة تذهب مع الأسلوب، داخل الأقواس ولكن بعد فاصلة مثل ملوجيت، أوغ الخيارات ذات الصلة لعملية حساب ككل مثل الإناث تذهب في نهاية ، بعد الفاصلة. للحصول على مثالنا، فإن الأمر سيكون. مي عاقلة بالسلاسل لوجيت الحضرية ملوجيت سباق أولوجيت إيدو بمم إكس الأجور، إضافة 5 رسيد 4409 من قبل الإناث. لاحظ أن هذا لا يتضمن خيار سافيتراس حتى كتابة هذه السطور، سافيتراس لا يمكن استخدامها في نفس الوقت، ويفترض لأنه يتطلب ملف تتبع واحد لكل مجموعة من قبل مجموعة ستاتا على بينة من هذه المشكلة، ونحن نأمل أن يتم تغيير هذا قريبا لأغراض هذه المقالة، سنقوم بإزالة الخيار حسب عندما يأتي الوقت لتوضيح استخدام ملف التتبع إذا ظهرت هذه المشكلة في البحث الخاص بك، والتحدث إلينا حول العمل-حولها. اختر عدد من IMputations. There هو بعض الخلاف بين السلطات حول كيفية العديد من التبعات كافية ويقول البعض 3-10 في تقريبا في جميع الظروف، توحي وثائق ستاتا 20 على الأقل، في حين أن وايت و رويستون و وود يجادلون بأن عدد التعابير يجب أن يكون مساويا تقريبا لنسبة الحالات ذات القيم المفقودة ومع ذلك، نحن لسنا على علم بأي حجة أن زيادة عدد فإن الافتراضات تسبب مشاكل من أي وقت مضى فقط أن الفائدة الحدية من حساب آخر تقترب من الصفر تقارب الصفر. زيادة عدد من الافتراضات في التحليل الخاص بك يأخذ أساسا أي عمل على الجزء الخاص بك مجرد تغيير الرقم في خيار إضافة إلى شيء أكبر من ناحية أخرى، يمكن أن يكون الكثير من العمل لحساب الكمبيوتر متعددة أدخلت العديد من الباحثين في عالم الوظائف التي تأخذ ساعات أو أيام لتشغيل يمكنك عموما افتراض أن مقدار الوقت المطلوب سوف تكون متناسبة مع عدد من الافتراضات المستخدمة على سبيل المثال إذا ملف ملف يأخذ ساعتين لتشغيل مع خمسة إيمبوتاتيونس، فإنه من المحتمل أن يستغرق حوالي أربع ساعات لتشغيل مع عشرة إيمبوتاتيونس حتى هنا ق اقتراحنا. بدء مع خمسة إم وطرح نهاية المنخفضة من ما اعتبر واسع النطاق المشروعة. عمل على مشروع البحث الخاص بك حتى كنت واثقا بشكل معقول لديك التحليل في شكله النهائي تأكد من القيام بكل شيء مع القيام الملفات حتى تتمكن من تشغيله مرة أخرى في الإرادة. ملاحظة كم من الوقت يأخذ من حساب إلى التحليل النهائي. النظر في كم من الوقت لديك المتاحة وتقرر كيف العديد من الافتراضات التي يمكن أن تحمل لتشغيل، وذلك باستخدام قاعدة الإبهام أن الوقت المطلوب يتناسب مع عدد من الافتراضات إذا كان ذلك ممكنا، وجعل عدد من الافتراضات يساوي تقريبا نسبة الحالات مع البيانات المفقودة تقدير نهاية عالية من ما هو مطلوب السماح الوقت للتعافي إذا كانت الأمور على غير ما يرام، كما يفعلون عموما. زيادة عدد من الافتراضات في الملف الخاص بك وبدء تشغيله. لا شيء آخر في حين يتم تشغيل الملف، مثل كتابة الورق الخاص بك إضافة ينبغي أن لا تغيير النتائج الخاصة بك بشكل كبير وفي حال غير المحتمل أن يفعلوا ذلك، تعتبر نفسك محظوظا أن وجدت أن من قبل publishing. Speedin حتى إدخال عملية إدخال. إدخال متعددة أدخلت العديد من الباحثين في عالم الوظائف التي تأخذ ساعات أو أيام أو حتى أسابيع لتشغيل عادة انها لا يستحق قضاء وقتك لجعل رمز ستاتا تشغيل أسرع، ولكن يمكن أن يكون حساب متعددة استثناء. استخدام أسرع جهاز كمبيوتر متاح لك لأعضاء سك وهذا يعني تعلم لتشغيل وظائف على لينستات، سك s لينكس الحوسبة العنقودية لينكس ليست صعبة كما قد تعتقد استخدام لينستات لديه تعليمات. الاحتساب المتعدد ينطوي على المزيد من القراءة والكتابة إلى القرص من معظم أوامر ستاتا أحيانا يتضمن هذا كتابة ملفات مؤقتة في دليل العمل الحالي استخدام أسرع مساحة على القرص المتوفرة لك، لكل من مجموعة البيانات الخاصة بك ودليل العمل بشكل عام مساحة القرص المحلي سيكون أسرع من مساحة القرص على شبكة الاتصال، وعلى لينستات رامديسك الدليل الذي يتم تخزينه بالفعل في ذاكرة الوصول العشوائي سيكون أسرع من مساحة القرص المحلي من ناحية أخرى، كنت لا تريد تخزين مجموعات البيانات بشكل دائم في أي مكان ولكن نيتو مساحة القرص أرك حتى تنظر في وجود ملف تفعل تفعل شيئا مثل ويندو. وينستات أو الكمبيوتر الخاص بك. هذا ينطبق عند إعادة استخدام البيانات المحسوبة كذلك إذا مجموعة البيانات الخاصة بك كبيرة بما فيه الكفاية أن العمل معها بعد احتساب بطيئة، أعلاه يمكن أن يساعد الإجراء. التحقق من التقارب. مايس هو عملية تكرارية في كل التكرار، مي بالسلاسل العفوية أولا يقدر نموذج حساب، وذلك باستخدام كل من البيانات التي تمت ملاحظتها والبيانات المحسوبة من التكرار السابق ثم رسم القيم المحسوبة جديدة من التوزيعات الناتجة ملاحظة ونتيجة لذلك، فإن لكل تكرار بعض الارتباط الذاتي مع اعتذار سابق. يجب أن يكون التكرار الأول حالة خاصة فيه، ويقدر مي بالسلاسل الأولى تقدير نموذج حساب المتغير مع أقل القيم الناقصة استنادا فقط إلى البيانات الملحوظة ويوجه القيم المحسوبة لهذا المتغير ثم يقدر نموذج المتغير مع أقل القيم التالية الناقصة، وذلك باستخدام كل من القيم الملحوظة والقيم المحسوبة س f المتغير الأول، ويتحقق بالمثل لباقي المتغيرات وبالتالي فإن التكرار الأول غالبا ما يكون غير نمطي، ولأن الترابط مرتبط به يمكن أن يجعل التكرارات اللاحقة غير نمطية كذلك. ولتجنب ذلك، يميل العيب بالسلاسل افتراضيا يمر عبر عشرة تكرارات ل كل مجموعة البيانات المحسوبة التي تطلبها، وتوفير فقط نتائج التكرار العاشر تسمى التكرارات التسعة الأولى فترة حرق في عادة هذا هو الكثير من الوقت لتأثيرات التكرار الأولى لتصبح غير هامة وللعملية لتلتقي إلى ستاتارياري ستات ومع ذلك، يجب عليك التحقق من التقارب وزيادة عدد التكرارات إذا لزم الأمر للتأكد من أنه باستخدام الخيار بورنين. للقيام بذلك، فحص ملف التتبع المحفوظة بواسطة مي عابرة بالسلاسل أنه يحتوي على المتوسط والانحراف المعياري لكل متغير محتمل في كل التكرار هذه سوف تختلف بشكل عشوائي، ولكن يجب أن لا تظهر أي اتجاه طريقة سهلة للتحقق مع تسلين لكنه يتطلب إعادة تشكيل البيانات أولا. لدينا المفضل يستخدم نموذج إسناد من قبل ذلك لا يمكن حفظ ملف التتبع وبالتالي فإننا سوف ليرة لبنانية إزالة من قبل لحظة سنقوم أيضا زيادة الخيار بورنين إلى 100 لذلك فمن الأسهل أن نرى ما يبدو مستقر مثل سنقوم ثم استخدام إعادة تشكيل و تسلين للتحقق من كونفيرجانس. بريزرف مي ميثوت ليندينغ لوجيت في المناطق الحضرية ملوجيت سباق أولوجيت إيدو بمم إكس الأجور الإناث، إضافة 5 رسيد 88 سافيتراس إكستريس، واستبدال بورنين 100 استخدام إكستريس، استبدال إعادة تشكيل واسعة يعني سد، i إيتر جم تسيت إيتر تسلين إكسمين، تيتل مين إمبوتيد فالويس أوف ملاحظة التجربة كل سطر هو واحد أسطورة احتساب من الرسم البياني تصدير استبدال تسلين إكسسد، عنوان الانحراف المعياري لقيم مقتبسة من الخبرة ملاحظة كل سطر هو واحد أسطورة إحالة من الرسم البياني تصدير استبدال الاستعادة. الرسوم البيانية الناتجة لا تظهر أي مشاكل واضحة. إذا كنت لا ترى علامات على أن العملية قد لا يكون التقارب بعد الافتراضي عشرة التكرار، وزيادة عدد التكرارات التي أجريت قبل حفظ القيم المحسوبة مع الخيار بورنين إذا التقارب أبدا أتشي إفيد هذا يشير إلى وجود مشكلة مع نموذج إسناد. التحقق من القيم المعزولة. بعد إمبوتيد، يجب عليك التحقق لمعرفة ما إذا كانت البيانات المحسوبة تشبه البيانات التي لوحظت للأسف لا يوجد أي اختبار رسمي لتحديد ما يقترب بما فيه الكفاية بالطبع إذا كانت البيانات مار ولكن ليس مكار، يجب أن تكون البيانات المحسوبة مختلفة بشكل منهجي عن البيانات التي لوحظت سخرية، وعدد أقل من القيم المفقودة لديك للإعجاب، والمزيد من الاختلاف سوف نرى بين البيانات المحسوبة والبيانات التي لوحظت وبين التباطؤ. للمتغيرات الثنائية والفئوية، مقارنة الجداول الترددية للمتغيرات المستمرة، مقارنة الوسائل والانحرافات المعيارية هي نقطة انطلاق جيدة، ولكن يجب أن ننظر في الشكل العام للتوزيع كذلك لأننا نقترح الرسوم البيانية الكثافة للنواة أو ربما الرسوم البيانية انظر إلى كل حساب بشكل منفصل بدلا من تجميع كل القيم المحسوبة حتى تتمكن من معرفة ما إذا كان أي واحد منهم ذهب خطأ. البادئة زيق مي اقول ستاتا لتطبيق الأمر اللاحق على كل إم وضع فردي ينطبق أيضا على البيانات الأصلية، و زيروث إسوتاتيون .. زيق تبويب tab. will تعطيك ستة جداول تردد واحد للبيانات الأصلية، وواحدة لكل من إمبوتاتيونس خمسة. ومع ذلك، ونحن نريد لمقارنة البيانات التي لوحظت إلى مجرد البيانات المحسوبة، وليس مجموعة البيانات بأكملها هذا يتطلب إضافة شرط إذا لأوامر التبويب للالافتراضات، ولكن لا البيانات لاحظ إضافة عدد أو نومليست أن يكون مي زيق التصرف على imputations. mi زيق 0 علامة التبويب سباق مي زيق 1 5 سباق علامة التبويب إذا missrace. This يخلق جداول التردد للقيم لوحظ من السباق ثم القيم المحسوبة في جميع إمبوتاتيونس خمسة. إذا كان لديك عدد كبير من المتغيرات لفحص يمكنك بسهولة حلقة على them. foreach فار من فارليست الحضرية سباق إيدو مي زيق 0 علامة التبويب فار مي زيق 1 5 التبويب فار إذا ملكة جمال فار. للنتائج انظر ملف السجل. الإحصاءات ملخص موجز على المتغيرات المستمرة يتبع نفس العملية، ولكن خلق الرسوم البيانية كثافة النواة يضيف تعقيدا تحتاج إلى إما حفظ الرسوم البيانية أو تعطي لنفسك فرصة للنظر في لهم مي زيق يمكن تنفيذ أوامر متعددة لكل حساب مجرد وضع كل منهم في سطر واحد مع فاصلة منقوطة في نهاية كل هذا لن يعمل إذا كنت قد غيرت نهاية العام من الأوامر محدد إلى فاصلة منقوطة أمر النوم يروي ستاتا إلى وقفة لفترة محددة، ويقاس في مليثانية. زيق زيق 0 كنسنتي الأجر الأجر 1000 ميتر زيق 1 5 كدنتيتي الأجر إذا ملكة جمال فار النوم 1000.Again، وهذا يمكن أن يكون كل الآلي. فورش فار من فارليست أج إكس مي زيق 0 سوم فار مي زيق 1 5 سوم فار إذا يغيب فار مي زيق 0 كدنتيتي فار النوم 1000 ميل زيق 1 5 كدنتيتي فار إذا ملكة جمال فار النوم 1000.تحميل الرسوم البيانية تبين أن تكون أكثر صعوبة قليلا، لأنك تحتاج لإعطاء الرسم البياني من كل إحتساب اسم ملف مختلف للأسف لا يمكنك الوصول إلى رقم حساب داخل مي زيق ومع ذلك، يمكنك أن تفعل حلقة فورفالويس على أرقام حساب، ثم يكون مي زيق العمل على كل منهم. القوة i 1 5 مي زيق i كدينتي إكس إذا ميسكسب الرسم البياني تصدير استبدال. إنتيغ تصنيف هذا مع الإصدار السابق يعطي. الخيار فار من فارليست الأجور إكسب مي زيق 0 مجموع فار مي زيق 1 5 سوم فار إذا يغيب فار مي زيق 0 كدينتيتي فار الرسم البياني تصدير استبدال فورفال ط 1 5 مي زق أنا كدينتي فار إذا ملكة جمال فار الرسم البياني تصدير استبدال النتائج. للاطلاع على النتائج، انظر ملف السجل. لكنه مزعج أنه في جميع الافتراضات يعني القيم المحسوبة للأجر أعلى من متوسط القيم المرصودة للأجر ومتوسط القيم المحسوبة من إكس أقل من المتوسط من القيم الملحوظة من إكس نحن لم نجد أدلة على أن البيانات هي مار ولكن ليس مكار، لذلك نحن د نتوقع وسائل البيانات المفترضة أن تكون متجمعة حول وسائل البيانات التي تمت ملاحظتها لا يوجد اختبار رسمي ليقول لنا بشكل قاطع ما إذا كان هذه مشكلة أو لا، ومع ذلك، ينبغي أن تثير الشكوك، وإذا كانت النتائج النهائية مع هذه البيانات المحسوبة تختلف عن نتائج تحليل الحالات الكاملة، فإنه يثير مسألة ما إذا كان الفرق هو بسبب مشاكل مع نموذج فرضية. المعدل 8 23 2012.A طريقة حساب جديدة لبيانات ثنائية غير مكتملة. مونيفيفر الألغام الفرعية سوباسي a. Ersoy سوباسي b. Martin أنتوني c. Peter L المطرقة 1.a قسم العلوم الرياضية، معهد فلوريدا للتكنولوجيا، 150 W جامعة الجادة ملبورن، فل 32901، USA. b روتكور مركز روتجرز لبحوث العمليات، 640 بارثولوميو رود، بيسكاتاواي، نج 08854، أوسا. c قسم الرياضيات، كلية لندن للاقتصاد والعلوم السياسية، هوتون ستريت، لندن WC2A 2AE، UK. Received 17 أكتوبر 2009، مقبول 31 كانون الثاني / يناير 2011، متاح على الإنترنت 21 آذار / مارس 2011. وفي تحليل البيانات، حيث تمثل البيانات ناقلات الأرقام الحقيقية، غالبا ما تكون بعض نقاط البيانات ذات قيم مفقودة، أي أن واحدا أو أكثر من لم يتم ملاحظة إدخالات المتجه الذي يصف نقطة البيانات في هذه الورقة، نقترح نهجا جديدا لحساب القيم الثنائية المفقودة التقنية التي نقدمها توظف تدبير التشابه الذي قدمه أنتوني وحمر 20 06 1 قارنا تجريبيا أداء تقنيتنا مع تلك التي تعتمد على قياس المسافة هامنج المعتادة والإحالة المتعددة. قياس التشابه الجزئي .1 مقدمة. في التعلم العملي للآلة أو تحليل البيانات المشاكل التي تكون البيانات التي سيتم تحليلها تتكون من ناقلات حقيقية الأرقام في كثير من الأحيان يكون أن بعض نقاط البيانات سيكون لها قيم مفقودة، وهذا يعني أن واحد أو أكثر من إدخالات المتجه الذي يصف نقطة البيانات غير معروف من الطبيعي أن محاولة لملء أو فرض هذه المفقودين القيم بحيث يكون من الضروري أن يكون هناك بيانات كاملة للعمل من هذا قد يكون ضروريا، على سبيل المثال، بحيث يمكن استخدام البيانات للتعلم من استخدام تقنيات التعلم الآلي أو الآلي هذه مشكلة إحصائية وتعلم آلي كلاسيكي وقد تم استخدام العديد من التقنيات . منذ في واقع الحياة تطبيقات البيانات المفقودة هي مصدر إزعاج بدلا من التركيز الأساسي، طريقة حساب مع خصائص جيدة يمكن أن يكون أفضل من واحد معقد لتنفيذ وأكثر كفاءة، ولكن مشكلة محددة. بعض النهج للتعامل مع البيانات المفقودة ببساطة تجاهل أو حذف النقاط التي هي غير مكتملة النهج الكلاسيكية من هذا النوع حذف قائمة لد والحذف زوجي بد بسبب بساطتها، فهي تستخدم على نطاق واسع انظر ، على سبيل المثال 15 وتميل إلى أن تكون افتراضيا بالنسبة لمعظم الحزم الإحصائية ومع ذلك، قد يؤدي تطبيق هذه التقنيات إلى فقدان كبير للملاحظات، مما قد يؤدي إلى مجموعات بيانات صغيرة جدا إذا كان جزء القيم المفقودة مرتفعا، و لا سيما إذا كانت مجموعة البيانات الأصلية في حد ذاتها صغيرة. واحدة من أكثر القرارات الصعبة التي تواجه الباحثين هو اختيار الطريقة الأنسب لمعالجة البيانات المفقودة أثناء التحليل يذكر ليتل وروبين 13 أن أساليب حساب ساذجة أو غير مبادئية قد تخلق المزيد من المشاكل من حلها وتقنيات حساب البيانات الأكثر شيوعا هي احتساب يعني أيضا يشار إلى حساب غير المشروطة يعني، حساب الانحدار ري يشار أيضا إلى كما اعتبرت وسيلة حسابية، حساب على سطح السفينة الساخنة مؤشر التنمية البشرية والاعتماد متعددة مي نحن نلاحظ أن متوسط الحساب ونهج مماثلة ليست مناسبة بمعنى روبين 16 وبالتالي، لا ينصح في معظم الحالات، تقنيات بسيطة لمعالجة البيانات المفقودة مثل وأساليب تحليل الحالة الكاملة لد و بد، مي عموما، وطريقة مؤشر المفقودين تنتج نتائج متحيزة كما هو موثق في 5 12 16 18 و 21 وهناك تقنية أكثر تطورا مي يعطي نتائج أفضل بكثير 5 12 16 18 و 21.MI 16 هو الإحصائي تقنية تستبدل فيها كل قيمة مفقودة بعدة قيم كك تنتج كك مجموعات بيانات مستكملة للتحليل تعكس الفروق بين مجموعات البيانات هذه عدم التيقن من القيم المفقودة يتم تحليل كل مجموعة بيانات محسوبة بواسطة إجراءات معيارية كاملة للبيانات، تجاهل التمييز بين القيم الحقيقية والمحسوبة ثم يتم الجمع بين النتائج كك بطريقة بحيث يمكن دمج التباين بسبب حساب عند القيام به بشكل صحيح، و فإن نتائج هذه التحليلات مجتمعة لا تسفر فقط عن تقديرات غير متحيزة للمعلمات، ولكنها تدمج على النحو الملائم حالة عدم اليقين التي تنطوي عليها البيانات الناقصة، أي تقديرات صالحة للفروق في تقديرات البارامترات هذه. وقد أعطى روبين 16 معالجة شاملة لل مي، technique primarily for large public-use data files from sample surveys and censuses The technique is available in standard statistical packages such as SAS, Stata and S-Plus It has become increasingly attractive for researchers in the biomedical, behavioral, and social sciences where missing data is a common problem These methods are documented in the book by Schafer 18 on incomplete multivariate data. In fully parametric models, maximum-likelihood estimates can often be calculated directly from the incomplete data by specialized numerical methods, such as the Expectation Maximization EM algorithm 4 and 14 The EM algorithm is an iterative procedure in which it uses ot her variables to impute a value Expectation , then checks whether that is the value most likely Maximization If not, it re-imputes a more likely value This goes on until it reaches the most likely value Those procedures may be somewhat more efficient than MI because they involve no simulation EM Imputation is available in SAS, Stata, R, and SPSS Missing Values Analysis module. Imputation techniques have become easier to perform with the advent of several software packages However, imputation of missing binary data is still an important practical problem Ibrahim 7 showed that, under the assumption that the missing data are missing at random, the E step of the EM algorithm for any generalized linear model can be expressed as a weighted complete-data log-likelihood when the unobserved covariates are assumed to come from a discrete distribution with finite range Ibrahim s method of weights 7 8 9 11 10 and 6 can be used as a principled approach for imputation of binary data. In this paper, we propose a new approach to the imputation of missing binary values The technique we introduce employs a similarity measure introduced in 1 The Boolean similarity measure has already proven to be of some application in classification problems 19 Here, we use it to help indicate whether a missing value should be 0 or 1, and we compare experimentally the performance of our technique with ones based on the usual Hamming distance measure and MI technique using SAS 17.The framework used here requires data to be represented by binary vectors However, in many applications, the raw data that we work with in a particular situation might be more naturally encoded as a real-valued vector In such cases, the data may be transformed into binary data through a process known as binarization see 2 for example The transformed data-set may then be simplified or cleaned in a variety of ways, by the removal of repeated points, for instance, and the deletion of attributes or coordinates found to be statistic ally insignificant in determining the classification. Section 2 provides details of the Boolean similarity measure that is at the core of our technique and describes the imputation method that derives from this measure Section 3 describes the experiments we performed in order to test this method, and the results are reported in Section 4.IMPUTEITEMS Stata module to impute missing data of binary items. When requesting a correction, please mention this item s handle RePEc boc bocode s456807 See general information about how to correct material in RePEc. For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact Christopher F Baum. If you have authored this item and are not yet registered with RePEc, we encourage you to do it here This allows to link your profile to this item It also allows you to accept potential citations to this item that we are uncertain about. If references are entirely missing, you can add them using this form. If the full references list an item that is present in RePEc, but the system did not link to it, you can help with this form. If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item If you are a registered author of this item, you may also want to check the citations tab in your profile, as there may be some citations waiting for confirmation. Please note that corrections may take a couple of weeks to filter through the various RePEc services. More services. Follow series, journals, authors more. New papers by email. Subscribe to new additions to RePEc. Author registration. Public profiles for Economics researchers. Various rankings of research in Economics related fields. Who was a student of whom, using RePEc. RePEc Biblio. Curated articles papers on various economics topics. Upload your paper to be listed on RePEc and IDEAS. Blog aggregator for economics research. Cases of plagiarism in Economics. Job Market Papers. RePEc working paper series dedicated to the job market. Fantasy League. Pretend you are at the helm of an economics department. Services from the StL Fed. Data, research, apps more from the St Louis Fed.22 Jun 2014, 14 34.Dear Statalist experts, I am currently handling a questionnaire-derived dataset with mostly categorical nominal and ordinal variables with some missing data MAR in them, where people haven t completed the questionnaire Due to the nature of the purpose of my final model predictive diagnostics , it is important that I have as complete a dataset as possible and hence, I am hoping to fill in the data points using multiple imputation via Stata I tried using MI chained but STATA keeps telling me that I have missing variables within my imputation variables but I thought this problem could be alleviated if I use chained equation i e the iterations should run in a chain loop simultaneously The syntax I ve used looked like the following. mi impute chained mlogit, include Q2 Q69e Q77 noimputed augment Q10, add 3 rseed 23549.but I keep getting these error messages. either r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values. convergence not achieved convergence not achieved mlogit failed to converge on observed data. As a result, the regression model used to predict the missing value cannot be created I really welcome any input at all in the matter Any insights that could possibly resolve the matter would be greatly appreciated Many thanks. Why are you using noimputed The help says the option is rarely used I would suggest starting nice and simple and then add complexity if you think you need it augment is a little esoteric too if you need it it is because you have perfect predictions, and if so that may be adding to your woes. Also, how much missing data do you have There may be limits to the miracles MI can do if there are huge amounts of MD in several variables. It may just be because I do not have enough experience with it, but I tend to be leery of MI in general It seems like the benefits are often trivial, or that the justification for using it may be in this case I might want to do some checks to see ho w similar the people who didn t complete are to the people who did complete on the parts that both completed.27 Jun 2014, 06 44.Dear Mr Williams and Mr Schechter. Many thanks for replying to my conundrum. The reason I am assuming the missingness as MAR is because we have carried out interviews on a random sample to find out reasons for missing data, to which evidence varied as to why questions were omitted for many it was a matter of accidental omission or there were no specific reason per say Where I do see your argument, I don t think my data is necessarily MNAR either. I know I should be wary of MI but at present, I ve been tasked to proceed with it Unfortunately, the participant-completed questionnaire had been a large one consisting of 100 variables where few missing datapoints had occurred for most of the participants Should I start the regression process now, through listwise deletion I would lose most of my data Hence, I would like as much as possible to impute and retain data The number of missing data varied from 0 9 to 10 across the variables Regarding the rigor of MI as a method, following successful MI, I have proposed a few checks to assess the validity of the imputed dataset in order to ensure that it is logical. I am really open to other options but I need to ensure I ve exhausted all avenues of MI first as been assigned As advised, I have since attempted the imputation model without the additional functions and missingness in the imputation variables is still a problem I think after long discussion with the team, for the time frame given we might need to forgo MI and proceed with the regression model as planned Any suggestions that could help solve the MI problem or any other statistical classification model that could handle missingness in categorical data with dichotomous dependent variables in healthcare research would still be greatly appreciated Meanwhile, I ll keep searching the web for a general idea of the literature Thank you again.27 Jun 2014, 07 21.Based on your description I wouldn t expect you to be having so much trouble, so, without having the data, it is hard to advise you To further simplify things, maybe you could try dichotomizing your mlogit variable and see if it will work then Or, if there are some categories with very sparse counts e g only 4 people gave a response of 7 then see if there are logical ways to combine and reduce the number of categories These are things you might want to do regardless of whether you are using mi or not.09 Jul 2014, 20 07.Hi Joey, The error r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values suggests that one of the independent variables you are using also has missing values itself You can use the option force to go ahead with the imputation and for the independent variable with missing data only complete cases will be used I hope this helps.
No comments:
Post a Comment